数智早参|国内首个纯自研视频大模型推出;纯电驱拟人奔跑机器人“天工”发布

每经记者:李少婷 每经编辑:文多

丨 2024年4月29日 星期一 丨

NO.1 国内首个纯自研视频大模型推出

4月27日,在中关村论坛未来人工智能先锋论坛上,生数科技联合清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型Vidu。据悉,该模型采用Diffusion(扩散概率模型)与Transformer融合的架构U-ViT,支持一键生成长达16秒、分辨率高达1080P的高清视频内容。生数科技方面介绍,与Sora一致,Vidu能够根据提供的文本描述直接生成长达16秒的高质量视频。

点评:Vidu的推出是中国在人工智能视频生成领域的重要里程碑,提升了中国在全球人工智能领域的竞争力和影响力,展现了中国科研实力和创新能力。就技术细节而言,Vidu在时长上取得了突破,但与Sora相比,Sora的最长视频生成时长可达60秒,Vidu目前的16秒,仍有提升空间。在人物动作的协调性方面,尽管整体效果已经非常接近,但Vidu与Sora相比还是稍弱一些。

NO.2 纯电驱拟人奔跑机器人“天工”发布

4月27日,北京人形机器人创新中心在北京经开区发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”,它能以6公里/小时的速度稳定奔跑。“天工”高163厘米,轻量化体重43公斤。“天工”配备多个视觉感知传感器,具有每秒550万亿次操作算力,并配备高精度的惯性测量单元和3D视觉传感器。它已解决基本运动控制问题,是具身智能场景应用和研究的最佳平台。此外,“天工”还配备了高精度的六维力传感器,以提供精确的力量反馈。

点评:“天工”能够以6公里/小时的速度稳定奔跑,显示了运动控制和平衡技术的进步,这也表明机器人技术正在向更高级别的自主性和动态稳定性发展。“天工”具备开源开放性和兼容扩展性,提供开放调用通信接口,允许灵活扩展软件和硬件功能模块,这为广泛的应用场景提供了可能。人形机器人产业链较长,涉及传感器、电机、减速器等多个环节,“天工”的成功研发和应用,可能会带动相关产业链的技术进步和市场扩大。

NO.3 科大讯飞发布首个长文本、长图文、长语音大模型

科大讯飞于近日发布首个长文本、长图文、长语音大模型,它不仅能够对各种信息来源的海量文本、图文资料、会议录音等进行快速学习,还能够在各种行业场景给出专业、准确回答。此外,科大讯飞还进一步升级星火语音大模型,首发多情感超拟人合成,具备情绪表达能力,并推出一句话声音复刻功能。同时,面向企业应用场景,科大讯飞推出星火智能体平台,帮助企业解决大模型落地的“最后一公里”难题。

点评:科大讯飞在语音识别和自然语言处理领域具有较强的技术积累,这使得其大模型产品在处理复杂语言和语音任务时更为精准和高效。能够同时处理文本、图像和语音的多模态大模型,为用户带来更为丰富和直观的交互体验。具备情绪表达能力的语音合成技术,使得机器合成的声音更加自然,更能满足用户对情感交互的需求。不过,在实际应用中,大模型需要展现出高稳定性和可靠性,以赢得用户的信任。

NO.4 中国移动已初步建成算力网络

4月28日的2024中国移动算力网络大会上,中国移动董事长杨杰在演讲中表示:中国移动已初步建成了基础设施、技术能力、产品服务业界领先的算力网络,其中,算力并网平台接入苏州昆山超算中心、玻色量子等数十家合作伙伴的多样化算力。算网大脑研发于去年10月正式启动全网试商用,实现日均调度次数达亿级。

点评:数字化、云计算、大数据、人工智能等技术的发展对算力提出了更高的需求,算力网络成为支撑未来数字经济发展的关键基础设施,中国移动通过建立算力网络,能够更好地满足市场和用户的需求。作为运营商,中国移动在网络基础设施、用户规模、数据资源、服务能力等方面具有天然优势,这些优势有助于其在算力网络的建设和运营上取得领先地位。