宇树科技创始人王兴兴:机器人AI还没突破临界点,是当前最大瓶颈
每经记者:孔泽思 每经编辑:陈梦妤
近两年,随着新一代人工智能出世,以及资本市场加强对未来产业的投入,人形机器人开始逐渐从科幻走向现实。从资本市场近期表现看,人形机器人概念持续火热,部分公司涨停连板。花旗分析师指出,预计未来25年,人形机器人市场规模将达到惊人的7万亿美元。
与此同时,人形机器人部分产品也已开始出售交付,大有批量“进厂打工”趋势。如2024年5月,特斯拉研发的二代Optimus人形机器人已进厂实训,计划2025年年底前量产销售。在国内,如宇树科技、达闼科技等厂商均已在人形机器人领域有所布局。
除了工业领域,人形机器人离我们的生活还有多遥远,何时能“飞入寻常百姓家”?当前行业发展难点又有哪些?
近日,杭州宇树科技有限公司创始人兼CEO王兴兴接受了《每日经济新闻》记者(以下简称NBD)采访。
5年内将有终端产品
NBD:2023年,国内很多人形机器人开始“进厂打工”,您怎么看这个现象?宇树人形机器人的落地现状和未来规划是怎样的?
王兴兴:我觉得这是一个趋势。我们过去几个月与蔚来的汽车工厂有合作,就现场部署了人形机器人做搬运。这个领域目前基本处于试点阶段,大家觉得这个方向有价值,就共同推进落地部署,不过目前还没有到真正的商业闭环阶段。
我们公司主要是卖本体,如果是做科研教育、AI公司或者个人买来玩,我们完全欢迎。
此外,工业领域也在推进,比如我们希望去工厂帮忙做一些简单的生产装配,或者一些简单的搬运工作,蔚来汽车工厂就是典型例子。我们其实没有给自己定目标或者逼迫那么紧,还是尊重整个市场的反应,等技术、产品和大家接触到一定程度,已经展现出更好的商业势头了,我们再大规模去推广。
NBD:在人形机器人技术迅速发展的当下,面临的最大瓶颈是什么?目前人形机器人应用领域中,哪些方面有可能实现突破性进展?
王兴兴:当下的最大瓶颈,包括人形机器人、四足机器人等,是基层AI在全球范围内都没有达到一个像初代GPT或者初代通用AI的能力,这也是目前整个行业最大的问题。
目前机器人本身,比如双臂机器人或者工业机器人,如果加了AI以后产生的能效比人低,如速度比较慢、精度比较差、能干的活比较少,其实很难替代人在工业领域的价值,整个商业闭环没法跑通。如果机器人AI的能力能突破一个临界点,使得工厂的基本工序能够高效运转,同时成本也相对较低,那么就可以实现商业闭环并大规模推广,我认为这将是非常有价值的。
当然,目前硬件方面也存在一些挑战,例如机械臂的负载能力不足、精度不够以及成本较高,但这些都属于工程技术层面的问题。所以,最大的问题还是整个机器人AI没有突破一个临界点,目前在具身智能或者机器人AI这个领域,当下大家还觉得机器人有点笨拙,只能干一些固定的活,但我个人比较乐观。再过三四年,不会超过五年,比如在工业或服务业,能有终端产品出现。
机器人需要更高级功能
NBD:近期人形机器人火热至极,但公司早期也不看好人形机器人,请问宇树是怎样调整发展战略的?
王兴兴:2020年以前就有很多投资人问我,你们做不做人形机器人,我非常斩钉截铁地说不做,但为什么2023年初又开始做人形机器人了?其实最早在2009年和2010年,我自己做过小的仿生人形机器人,当时远没有达到我的预期,最大原因是当时全球人形机器人的控制技术不是特别理想,性能上不去,没办法看到实用价值,当时我就坚持不做人形机器人。
到了2021年、2022年,全球科技对人形机器人非常关注,并且在2022年底大语言模型出来以后,AI技术产生了质变,已经看到AI赋能机器人带来的潜力。大家可能想象不到,2022年底,我们还没做人形机器人,但已经有一些客户找上我们想买人形机器人。我觉得社会的共识、热度,客户对它的期待程度,已经足够了,所以我们2023年开始正式做人形机器人。
我们一直希望公司的商业化进程能够保持积极正向,确保我们的产品受到市场的欢迎和社会的认可。当年选择做四足机器人,是因为行业已经初现端倪,而现在选择进军人形机器人领域也是基于相似的市场洞察。
NBD:从目前人形机器人的研发来看,大模型可重点解决哪些技术问题?主要应用在哪些方向?大模型和人工智能的应用有望降低研发成本吗?
王兴兴:目前大家说大模型,一般在说大语言模型或者多模态模型,实际上这部分是可以给机器人用的,2023年我们就结合了OpenAI的大语言模型接口,但实际上大语言模型本身是机器人模型的一部分,并不是全部。
比如跟机器人沟通的时候,肯定需要语言部分,但实际上我个人认为机器人的AI模型,本质上和语言模型还是有很大区别。举个最直观的例子,在工厂里工作的机器人,其实并不需要具备语音功能。只要它能够完成任务,进行工作就足够了。
机器人具身智能的核心在于其执行任务的能力,而不仅仅是对话。手机已经可以完成简单的对话任务,因此机器人需要更高级的功能。然而,这部分的训练其实与大语言模型关系不大,更多地依赖于模仿学习。此外,该模型的结构与大语言模型的结构也存在较大差异。这是目前大家已经看到的方向了,但是整个体系没有大语言模型那么成熟。
在机器人具身智能领域,每家公司的想法都不太一样,技术路线和共性都不太一样,这就导致了其实很难评价发展路径,是正确还是错误。举个最简单的例子,在大语言模型圈,ChatGPT模型出来以前,就有非常多语言模型结构,但大家现在已经忘了,因为发现GPT模型的架构更有价值。现在人形机器人具生智能有点像ChatGPT出来的前一两年,大家已经发现了这个方向,要往这个方向做,但还没有哪家敢说自己的方向绝对正确。