生成式AI大会沸腾北京!从Sora到具身智能,25位大佬密集输干货
智东西作者 智东西编辑部
今日,在春风拂面花千树的北京,我们为生成式AI举办了一场隆重且专业的春日派对。
智东西4月18日报道,以“重构世界 奔赴未来”为主题的2024中国生成式AI大会今日正式开幕,今明两日,有54位产学研投重量级嘉宾代表将同台探讨生成式AI的发展现状与未来趋势。
大会首日,由欧洲人文和自然科学院外籍院士、清华大学人工智能研究院常务副院长孙茂松领衔,25位嘉宾围绕大语言模型、视频生成、具身智能、音乐生成、世界模型、垂类行业大模型、AI全栈软件、加速大模型端侧部署等前沿议题,分享最新的研发与实践经验。
在1230平方米宴会厅的会场,线下参会观众人潮汹涌,开幕式更是全程爆满,连下午分会场实行收费制的具身智能技术研讨会也是座无虚席。展区同样人头攒动,交流气氛热烈浓厚。
值得一提的是,会上,AI+终端创企李未可科技正式发布为眼镜等未来终端定向优化的自研WAKE-AI多模态大模型,具备文本生成、语言理解、图像识别及视频生成等多模态交互能力。
作为智一科技倾力打造的产业峰会IP,2024中国生成式AI大会由智东西和智猩猩联合主办,安排覆盖生成式AI全产业链的丰富议题,并将于明日上午公布中国生成式AI企业TOP50。
“过去一年,生成式AI狂飙突进,整个产业链成为全球创新、投资和应用最活跃的领域之一。”智一科技联合创始人、CEO龚伦常代表主办方为大会致辞,“我们正站在历史的转折处,见证和参与由生成式AI引领的新一轮科技变革。”
▲智一科技联合创始人、CEO龚伦常
龚伦常还预告了今年多个重要会议——在上海,2024中国生成式AI大会·上海站将于11月举行,中国智能汽车算力峰会将于6月举行;在深圳,第六届全球AI芯片峰会和第六届全球自动驾驶峰会分别将于9月和12月举行。欢迎大家参会。
一、高端对话:洞察中国创新机会,热聊开源与闭源路径选择
高端对话环节以“解构生成式AI浪潮,洞察中国创新与机会”为主题,由智一科技联合创始人、智车芯产媒矩阵总编辑张国仁主持,启明创投合伙人周志峰、生数科技联合创始人兼CEO唐家渝就生成式AI投资策略、大模型商业化路径等话题分享观点。
张国仁谈道,这两年我们确实发现生成式AI正从一个科技圈的热门话题甚至出圈的话题,变得越来越务实,开始变成实打实的新质生产力,助力产业创新和各行各业的发展。
启明创投周总谈到洞察趋势的方法,三种假设给自己判断的参考都非常有价值;生数科技作为国内前沿大模型技术和应用探索的新锐玩家,对技术和趋势的洞察也值得产业研究。
▲智一科技联合创始人、智车芯产媒矩阵总编辑张国仁
“启明创投是中国投资大模型最多的创业投资机构之一。”启明创投合伙人周志峰谈道,启明创投在过去2年持续布局大模型基于三个假设:第一,生成式AI尚处发展初期,基础技术创新为主流;第二,多数模型公司最终将演变为模型应用一体化企业,对外输出的是应用,他们更容易把握技术边界,推动产品创新;第三,本阶段绝大部分资金流向大模型公司,提供了更多的迭代机会。
周志峰认为生成式AI应用企业,其0到1阶段的成长较其他领域更长,需要同时克服TPF(Technology-Product Fit)和PMF(Product-Market Fit)两大挑战,而其他领域通常只需面对PMF一座大山。创业者和投资人都需要更大的耐心和定力。
▲启明创投合伙人周志峰
生数科技联合创始人兼CEO唐家渝分享说,生数科技之所以选择原生多模态大模型技术路线,是因为图像、3D、视频等同为视觉模态,在模型训练中是相互促进的关系。同时在商业化方面,通用大模型能够应用于更多场景,面对场景需求变化能够迅速作出反应。
谈及开源与闭源的路线选择,他认为各有合适的商业路径,开源的最大价值在于生态建设,但从模型能力提升来看,闭源还是会走在开源前面。
▲生数科技联合创始人兼CEO唐家渝
二、纵览多模态生成新范式,从视频、音乐、人物到具身智能
在今日的大会上,国内视频生成模型先锋创企爱诗科技分享了积极追赶Sora的务实思考,具身智能代表玩家银河通用机器人理性探讨当前的局限性与进步方向,刚刚发布天工3.0大模型的昆仑万维带来了对前沿SOTA模型的思辨,阿里通义实验室对人物视频生成新范式进行解读。
爱诗科技创始人兼CEO王长虎在大会开幕式演讲中说,Sora是“一场可以推动行业发展的卖家秀”,验证了Diffusion Transformer在视频生成中的Scaling Law,我们很快将见证视频创意工作者的工作流、内容生产和消费链条被彻底改变。
在他看来,追赶Sora的窗口期在一年前,而不是现在。中国在短视频领域领先全球,同时短视频也是最贴近用户的内容形态。过去一年,视频大模型经历着从量变到质变。爱诗科技于今年1月正式推出PixVerse,目前已实现超1000万次视频生成,被全球创作者广泛应用于AI内容创作中。
▲爱诗科技创始人兼CEO王长虎
成立于2023年5月的银河通用机器人,是国内具身智能代表初创公司之一。北京大学助理教授、银河通用机器人创始人&CTO、智源具身智能中心主任王鹤谈道,目前面向通用机器人的具身多模态大模型的局限在于数据来源有限、很难高频输出动作。他提到应对这两大挑战的方向,一是通过仿真世界提供训练数据,二是采用三维模态模型提升泛化性和速度。
对此,银河通用机器人构建了三层级大模型系统,包括硬件、仿真合成数据训练的泛化技能、大模型等。基于该系统,机器人可实现跨场景、跨物体材质、跨形态、跨物体摆放、依据人类语音指令进行的开放语义泛化抓取,成功率达95%。
▲北京大学助理教授、银河通用机器人创始人&CTO、智源具身智能中心主任王鹤
昆仑万维董事长兼CEO方汉强调了“技术领先”在AI领域的重要性,不同于互联网时代产品的商业模式导向,大模型时代应该是技术导向。
方汉谈道,OpenAI在AI创企中的地位,本质上是其文本大模型的SOTA(当前技术指标第一)能力带来的。对于当前的AI创业者,在图像、视频、音乐等任何赛道,只要能取得SOTA,就能通过技术优势获得大量用户,后续再通过产品创新、商业模式创新把用户固化在平台上,形成自己的护城河。
▲昆仑万维董事长兼CEO方汉
阿里通义实验室XR团队负责人薄列峰通过4个框架来解读人物视频生成新范式。基于这些框架的应用,正逐步落地通义千问APP。
人物动作视频生成框架Animate Anyone可基于单张图和动作序列,输出稳定、可控的人物动作视频;人物换装视频生成框架Outfit Anyone是基于服饰图和人物形象;人物视频角色替换框架Motionshop采用Video2Motion,基于视频人物动作驱动3D数字人;人物唱演视频生成框架Emote Portrait Alive能够基于单张图和音频,输出准确、生动的人物唱演视频。
▲阿里通义实验室XR团队负责人薄列峰
三、大模型进入2.0时代!四趋势、四要素、落地三阶段
开源大模型领导者Meta为何执着于世界模型?大模型落地应用当务之急需要解决哪些挑战?
前Meta⾸席⼯程负责⼈胡鲁辉谈道,聚焦多模态大模型的后GPT-4时代呈现出4大趋势,一是语言模型到多模态大模型,二是数据集成到向量数据库,三是Agent到大模型操作系统,四是微调到Plugin(插件)。
他认为大模型是通向AGI最靠谱的方法,并预测下一个AI 2.0爆发点及落地大方向将是AI for Robotics。这需要理解物理世界面临的挑战,包括数据标准化、模型分散且场景复杂、环境硬件限制、算力成本贵且训练时间长等方面。
▲前Meta⾸席⼯程负责⼈胡鲁辉
云天励飞“云天天书”大模型技术负责人余晓填将大模型比作人类知识的信息压缩机,即压缩海量数据,学习其中的统计规律。在大模型四大要素——参数、算力、数据、人才中,他认为人才是最重要的根基,结合其他要素能实现高效的海量信息压缩。
余晓填将大模型落地分为三个阶段:技术找场景、场景反哺技术、场景找技术。目前处于第二阶段,需要在深度场景挖掘更多数据,有针对地提升算法能力,找到技术变现在精度、成本、效率“三角约束”的平衡点。云天励飞的解决方案就是“算法芯片化”。
▲云天励飞“云天天书”大模型技术负责人余晓填
万兴科技副总裁朱伟谈道,当下,大模型正从1.0图文时代进入以音视频多媒体为载体的2.0时代。视频创作需求量巨大,然而长期来视频相关模型仅占极少数,且大模型在音视频领域的应用面临数据集缺失、视频内容结构及层级复杂、算力成本高等严峻挑战。
进入2024年AI视频年,万兴科技将在4月28日正式公测旗下万兴“天幕”音视频多媒体大模型。该模型具有多媒体、垂直解决方案、算力数据及应用本土化三大特色,将支持60秒视频一键生成,并具备视频生视频、文生音乐、文生音效等多项能力。
▲万兴科技副总裁朱伟
四、李未可科技首发多模态AI大模型,AI基础设施升级助攻提质增效
迈入大模型时代,算法、应用与AI基础设施都在竞速快跑。
李未可科技合伙人&AI负责人古鉴宣布,李未可科技首次发布针对“AI+终端”定向优化研发的多模态AI大模型平台WAKE-AI。他分享说,相比手机、新型硬件,眼镜能带来极致的轻薄,更适合室外场景的AI落地。
WAKE-AI使用MoE架构,针对眼镜端用户的使用方式、场景等进行了优化,在语音返回速度上能做到90%,ASR字错率低于2%,能够为用户提供户外运动、文化旅行、日程管理及实时翻译等多种多模态AI服务。古鉴还透露道,李未可科技即将推出搭载WAKE-AI的终端新品。
▲李未可科技合伙人&AI负责人古鉴
中科曙光智能计算产品事业部副总经理胡晓东谈道,中科曙光通过异构平台与算力网络打造了算力基础及能力,由于大模型闭环流程的每个环节对软件栈有不同需求,打造AI全栈软件也至关重要。
在基础软件栈方面,中科曙光推出了DAS AI Software Stack基础软件栈,通过多种AI组件、性能组件支持大模型快速迁移和优化。除此之外,中科曙光还深度还聚焦AI开发平台、内容创作平台、训练推理平台等多个平台服务,并通过创空间WorkSpace将平台能力进行资源整合与分配,支持AI能力化实践。
▲中科曙光智能计算产品事业部副总经理胡晓东
阳光保险集团人工智能首席科学家杜新凯谈道,大模型和保险的底层逻辑天然契合,融合“数字化转型+大模型应用”的智能化转型成为当前阶段保险业发展新质生产力最应该把握的科技主题。
阳光保险基于阳光正言GPT大模型,正在打造“三个智能化”,即销售智能化、客服智能化、管理智能化,积极探索通过大模型深度赋能改变传统的保险业务模式。
▲阳光保险集团人工智能首席科学家杜新凯
安谋科技产品总监杨磊指出,生成式AI正逐步成为客户端设备上的人机交互界面,而具备100亿参数级别的模型已成为终端设备的最佳匹配规格。然而,在终端部署这类大型模型时,仍面临成本、功耗及软件生态等多重挑战。
在当前大模型发展的硬件驱动阶段,杨磊谈道,异构计算是部署端侧大模型的理想选择,它能最大限度地提升SoC的性能、能效以及面积利用率。NPU作为端侧AI应用的关键算力资源,将为大模型的分布式落地演进提供核心动力。安谋科技自研“周易”NPU面向大模型场景做了架构、内存墙等多方面改进。它采用多核设计,能够同时支持卷积神经网络(CNN)和Transformer架构,并已成功适配了国内外多个主流大模型。
▲安谋科技产品总监杨磊
联汇科技CEO兼首席科学家赵天成谈道,中大型企业普遍存在“知识断层”问题,大量专业知识转移、检索效率低,导致行业数字化转型受阻、技术创新遇到瓶颈,这对多模态大模型驱动的知识新引擎提出要求。
联汇科技开创了三位一体产品栈“模型+工具+应用”,提供To B的全栈式AI2.0解决方案,通过智能体的人机对话、实时数据、自动决策能力实现员工提质增效。
▲联汇科技CEO兼首席科学家赵天成
五、圆桌对话:通用AGI之路千万条,开源至关重要
始智AI wisemodel创始人兼CEO刘道全担任下午场圆桌讨论的主持人,带领嘉宾们探讨了一系列关键问题,包括:大模型来临前后的AI开发有什么区别?如何看待闭源模型和开源模型路线之争?以及大家在大模型开发中有哪些成果和挑战?
刘道全认为,通用AGI之路千万条,开源是至关重要的一条。刘道全及其团队于去年9月上线了国内第一个中立开放的AI开源平台wisemodel.cn,该平台已囊括了国内主要的大模型公司及科研院所最新发布的开源模型。
▲始智AI wisemodel创始人兼CEO刘道全
vivo AI解决方案中心总监谢伟钦认为,端侧大模型会是未来AGI道路上的一条重要路径,可在给用户提供个性化服务的同时,更好地保护用户,也能支持在无网和弱网环境下的大模型应用。对于大模型企业来说也可以节约大量服务器成本。vivo自研蓝心大模型率先实现端侧化部署。
大模型及AI技术在很多维度上是对人能力的提升,如多模态大模型的图文理解和问答能力可以很好地帮助视障用户了解周围的环境和事物,更好地工作生活。vivo会持续关注更多类似的大模型应用场景,并将支持更多的模型开源,同时希望借助开源社区的力量迭代大模型效果和产品体验。
▲vivo AI解决方案中心总监谢伟钦
硅基智能CTO林会杰认为,虽然现在闭源模型暂时领先,但未来开源一定会比闭源更好。回顾互联网时代,头部搜索引擎公司都是基于开源软件的力量构建产品,对于开发者来说,开源从体验、效率到质量都更胜一筹,“只有敢开源的公司才能做出好的大模型”。
对于AGI,硅基智能的愿景是在数字空间里让代码感知、理解,像人一样表达和交互,也就是具身智能。
▲硅基智能CTO林会杰
联汇科技CEO兼首席科学家赵天成认为,在AI技术早期不确定性时,投入基础设施是明智之选。他在2020年归国创业时顾虑小模型定制化成本过高,于是转而做工具链等基础设施,而后逐步确立了预训练模型及Agent发展路线。赵天成希望五年后每个企业都有自己的数字助手,让效率提升10倍以上。
▲联汇科技CEO兼首席科学家赵天成
结语:共探中国生成式AI产业脉搏
除上述嘉宾外,还有7位技术专家在下午的智猩猩具身智能技术闭门研讨会上进行干货分享。
继去年在北京举办国内首场聚焦生成式AI的高规格创新峰会,今天,智东西与智猩猩连续第二年联合举办聚焦生成式AI领域的行业盛会,希望通过丰富的议程设置、多元化的嘉宾经验分享与观点碰撞,让大家不虚此行。
明日,精彩继续,29位产学研代表将分享围绕AI Infra、AIGC应用、AI智能体、智算中心等相关技术与应用,共探中国生成式AI产业的脉搏。