小米追击智能驾驶,前图森CTO王乃岩将加入|独家
36氪汽车获悉,前图森未来中国CTO王乃岩将加入小米汽车,向小米技术委员会主席、小米汽车自动驾驶负责人叶航军汇报。
就此消息,36氪汽车向小米相关人士进行了确认。
此前,王乃岩主导图森未来中国的研发与管理工作,同时负责L2级辅助驾驶、L4级自动驾驶方案的开发落地。
更早之前,王乃岩博士毕业于香港科技大学,擅长深度学习,是深度学习开源框架MXNet的核心开发者,在计算机视觉与机器学习顶级会议与期刊上曾发表论文40余篇。
王乃岩的加入,是小米智驾技术提速的标志性信号。
日前,雷军公开表示,开启交付后的43天,小米SU7交付量已突破1万辆,其年产能也相应提升至10万辆。达成这个交付量,小鹏与理想用了7个月,问界用时87天。
小米在销售与整车制造上的成绩刷新了记录,雷军的工作重点开始转移至智能驾驶。
5月18日,雷军驾驶小米SU7 Pro版进行了高速、城市NOA(智能导航辅助驾驶)的直播首秀。直播中,雷军辟谣了小米将与第三方合作视觉方案的传言,重申了小米自研智驾的决心。
雷军在直播中两次喊话招人,公开询问是否有智驾大牛愿意加入小米。
目前,小米在智能驾驶上的投入已超47亿元,团队规模超千人,其测试里程也已超过1000万公里,城市NOA功能也将在5月陆续推送给10城用户。
冲击第一阵营,小米需要更多人才
这不是小米第一次收揽智驾人才。
早在雷军宣布造车的2021年,小米集团便以7737万美元收购了自动驾驶技术公司深动科技。20余名深动科技核心研发人员的加入,帮助小米快速补齐了各模块技术负责人阵容,奠定研发人才基础。
而王乃岩的加入,有望助力小米取得智驾前沿技术进展。
有图森未来研发人员告诉36氪汽车,王乃岩既懂感知,又懂规划控制,对智驾全链条的理解都较充分。包括时下火热的端到端技术方案,王乃岩都有独到见解。
“端到端”是深度学习中的概念,指AI模型中只要输入原始数据就可以输出最终结果。
特斯拉率先引领了智能驾驶端到端风潮,马斯克表示,其FSD Beta v12(全自动驾驶软件)可以实现输入图像,输出转向/刹车/加速等车辆控制信号。
王乃岩曾公开呼吁不要陷入特斯拉的狭义“端到端”理解。他表示端到端是较有希望解决高阶自动驾驶难题的技术路线之一,但方案落地仍有许多待解决的问题,特斯拉的方案并不代表正确答案。
他认为,端到端的重点是信息的无损传递,执意固定信号的输入与输出点只会给系统带来不必要的负担。
对技术与市场有独立思考的王乃岩,或将给小米智驾带来弯道超车的可能。
在2024小米投资者日上,雷军表示,将进一步加大在智驾的投入。今年小米智驾团队将扩充至1500人,2025年增加到2000人,每年投入资金约为15亿元。
而行业对人才的态度出现了分水岭。在刚结束的小鹏科技日上,何小鹏宣布智驾团队今年将扩招4000人;而理想汽车却在日前启动了智驾团队的裁员工作。
人才快速流动,前图森CTO王乃岩的加入只是小米智驾序曲,具备决心与号召力的雷军,很有可能快速补齐智驾功课。
智驾进入决胜局,AI与数据成为关键
智能驾驶的颠覆性变化,始于AI大模型的加入。
传统模式下,感知、决策、规划控制等模块,均依赖工程师手写代码来制定规则,智驾效果取决于规则覆盖度,有限的人类脑力局限了智驾可用场景。
2021年,特斯拉开始将基于Transformer的BEV(鸟瞰图)技术引入感知领域,使得摄像头从2D图像转化为3D图景。智能驾驶得以摆脱对高精地图的依赖,国内智驾进入轻图时代。
随后,继续推出的Occupancy(占据网络)等技术,不仅弥补了纯视觉感知路面物体纵深不足的短板,同时改变了神经网络先“认识”后“识别”的短板,大大拓展了纯视觉方案的边界。
Transformer+BEV+Occupancy的技术路线,成为行业主流视觉感知方案,能否快速落地相同技术,成为国内厂商争抢智驾技术高地的证明。
2024年,完成感知模块进化的特斯拉带来了新的突破,在决策及规划控制领域引入AI神经网络,带来了“端到端”大模型。
在更新的使用说明,特斯拉写道:FSD将城市道路驾驶堆栈升级为单个端到端神经网络,该神经网络由数百万个视频片段训练而成,取代了超过 30 万行的C++代码。
“端到端”神经网络的应用,让FSD得以从Beta(测试版)转向Supervised(即受监督的),可以向北美数百万名用户推送使用。“端到端”在城市NOA的拓展速度、使用范围及用户体验等方面的天花板更高,这也是当下智驾行业的最热赛点。
与特斯拉路线完全相同的小鹏,于2024年5月发布了天玑系统XOS 5.1,其中,由神经网络XNet、规控大模型XPlanner、大语言模型XBrain组成的端到端大模型,将帮助小鹏在2024年三季度实现全国每条道路都能开,并在2025年实现城区智驾体验的飞跃。
坚持激光雷达路线的华为,在ADS 3.0中则进一步去掉了BEV网络,采用GOD网络负责感知,PDP网络负责预决策规划。加入激光雷达的华为,在AEB主动安全功能上的确拥有更加亮眼的成绩。
目标进入第一阵营的小米,则在3月28日的发布会上展示了端到端神经网络在泊车领域的应用,目前已能实现5cm精度的极窄库位泊入,及23km/h巡航的代客泊车。
然而,模型研发只是开始,海量数据训练才是端到端神经网络发挥作用的关键。热卖的问界车型正为华为提供源源不断的数据粮草,技术雄厚的小鹏却面临销量的连连下跌。
虽然在端到端上研发进度不早,但首款车上市33天便突破8.8万销量的成绩、82.39%的智驾激活率,将让小米成为无法忽视的数据对手。