争议端到端:是L4自动驾驶终局还是营销盛宴?

以特斯拉发布V12版FSD智能驾驶系统为标志,智能驾驶一夜之间进入了端到端时代。

“端到端的模型下限能力有望在明年快速提高,一旦提高后,不用 2 年时间,在全球范围内就可以做到超越 L4 标准的能力。”在 2024 杭州云栖大会上,小鹏汽车董事长何小鹏说道,采用端到端大模型之后,特斯拉的FSD和之前完全不一样,明年就有可能比人类老司机强。

小鹏汽车是国内最先跟进特斯拉的车企之一,今年7月末,小鹏汽车就开始向用户推送基于端到端大模型的XNGP智能驾驶系统。到今年9月,华为、理想等车企也已经开始向用户推送相应基于端到端大模型的智能驾驶系统;蔚来则将端到端大模型应用至AEB系统,并发布了自研的世界模型。

伴随着端到端大模型的上车,车企们对智能驾驶的宣传亦越发激进,曾经令人热闹喧嚣的智驾开城、去高精地图等不再是香饽饽,推出具备门到门、点到点的驾驶辅助系统被正式提升了日程表。小鹏汽车更是声称,可以用L2级别智能驾驶的硬件成本实现L3+级别的自动驾驶用户体验。

一时间,不具备端到端能力的智能驾驶系统,似乎已经和落后挂上了钩。“没有使用大模型的智驾都将被淘汰。”何小鹏还称,所有的L4自动驾驶公司都应该尽快切换大模型。

辰韬资本联合三方发布了《端到端自动驾驶行业研究报告》(下称“《报告》”),《报告》显示,在其访谈的30余位自动驾驶行业一线专家中,90%表示自己所供职的公司已投入研发端到端技术,大部分技术公司都认为难以承受错过这一次技术革命的后果。

但并非所有“玩家”都认可端到端大模型是当前的智能驾驶系统格局的颠覆者。

轻舟智航CTO侯聪向第一财经记者表示,他在美国体验了特斯拉FSD V12.3系统,虽然和特斯拉之前的FSD进步很大,但是和以规控为主的Waymo Robotaxi相比仍有明显的差距。前图森未来创始人侯晓迪则呼吁行业要理性看待,不要神话端到端。

在这次技术的争议之中,马斯克、何小鹏等车企掌门人力挺端到端;而侯聪、侯晓迪、楼天城(小马智行CTO)等L4智能驾驶公司的高管则认为端到端大模型无法直接使得L2智能驾驶辅助在技术上升级至L4自动驾驶。

《报告》中也显示,因目前技术尚处于发展早期,端到端大模型上车仍有许多应用困境与痛点亟待解决,如技术路线分歧大、数据和算力需求大、测试验证方法尚不成熟、资源投入巨大等。

在通往自动驾驶终局的道路上,端到端大模型也成为纯视觉感知、雷达融合感知等之后又一个技术路线的争议。

特斯拉再次引领技术变革?

从一体化压铸、电池车身一体化等技术开始,特斯拉已成为新能源汽车技术的行业风向标。不少中国车企被认为是“摸着特斯拉过河”,端到端大模型上车,特斯拉又一次引领了新能源汽车的变革。

在端到端大模型上车之前,智能驾驶辅助系统多分为感知、规划、决策、控制等多个模块,其中人工智能和机器学习多应用在感知、规划等环节,但模块主要由人工手写规则来定义,被称为“rule-based”(基于规则)。

但在系统实际工作中,车辆往往会遇到无穷无尽的coner case(长尾问题),为解决这类问题,就需要工程师根据特定场景写下代码,设立规则。在这一模式下,智能驾驶辅助或自动驾驶系统往往需要人工输入大量的规则。

英伟达全球副总裁、汽车事业部负责人吴新宙则认为,自动驾驶现有的算法大多是基于规则的,讲起来很简单,从看到什么到怎么做,但是要把它很好地设立规则是很难的事情,需要很多人类工程师尽可能想到所有可能性,而这种方法有上限。

和传统的基于规则的智能驾驶辅助系统不同,端到端的自动驾驶解决方案意味着从感知到规控的全过程都通过先进的算法和深度学习技术进行处理。

端到端技术在自动驾驶上的应用,把原本感知、预测、规划等多个模型组合的架构,变成了“感知决策一体化”的单模型架构。

信达证券发布的一份研报显示,“端到端”是指一端输入图像等环境数据信息,中间经历类似“黑箱”的多层神经网络模型,另一端直接输出转向、制动、加速等驾驶指令。

与传统规则驱动的分模块架构相比,端到端的实现将带来一系列优势:完全基于数据驱动进行全局任务优化,具备更好、更快的纠错能力;能进一步减少模块间信息的有损传递、延迟和冗余,避免误差累积,提升计算效率;泛化能力更强,由Rule-based(基于规则)转向Learning-based(基于学习),具备零样本学习能力,面对未知场景具备更强决策能力。

在端到端大模型的加持下,智能驾驶系统能够实现更快的迭代和进步。以小鹏的XNGP为例,在应用端到端大模型后,其三网合一神经网络XNet+规控大模型XPlanner+AI大语言模型XBrain可实现每2天迭代一次,智驾能力18个月提升30倍;数据体系能力和神经网络架构,可实现快速诊断,以小时为单位解决长尾问题。

随着特斯拉的端到端大模型上车,2024年,中国车企的智能驾驶技术路线也开始出现大幅的转变。

过去数年当中,中国车企智能驾驶辅助系统的技术路线争议,大多聚焦在视觉感知、融合感知,在终端比拼的更多是开城速度、开城数量等。2024年初,华为、小鹏等企业仍在比拼无高精图化和真正的“全国都能开”。

端到端大模型上车之后,智能驾驶辅助系统的泛化能力大幅提升,针对单一地区的验证、开城,重要性下降。同时,端到端弱化了此前感知、规划、决策、控制等模块区分,多家车企也开始基于端到端大模型的需求,重新调整自动驾驶团队的组织架构。

2023年年底,理想对智能驾驶团队进行了一次组织架构调整,在这次调整中,理想将大模型重新组成一个团队,放在前端算法研发团队之下,整体负责端到端架构的研发、上车;2024年,蔚来成立大模型部、部署架构与方案部、时空信息部,撤销原来的感知部、规划与控制部、环境信息部及方案交付部。

尽管端到端上车如火如荼,但目前大部分中国车企并未实现理论上的“One-Mode”端到端智能驾驶。

某自动驾驶公司CTO告诉记者,可以将端到端模型的智驾应用分为两个阶段:第一个阶段是two-model的方案,由一个端到端的感知和一个端到端的规控组成,这是目前业界用得比较主流的一个方向;第二阶段是one-model的方案,一个大模型解决信息输入到决策输出,更加接近AGI的方向,但这个方向难度比较高,预估要到3-5年之后才会得到一些规模化的应用。

目前行业普遍认为,国内车企与特斯拉的研发进度差大概在1.5~2年。奇瑞汽车股份有限公司副总经理谷俊丽认为,要在商业模式上追赶特斯拉,必须形成产品的规模化。“当数据达到特斯拉级别的百万量级以上,通过对模型的强化训练,智驾可学习视频流,就能直接告诉司机驾驶的方向,像当下流行的ChatGPT一样。”谷俊丽表示。

整车厂和供应商产生路线分歧?

在众多车企接连上线端到端大模型,并鼓吹自动驾驶时代有望来临的时候,不少专注于自动驾驶的供应商们却发出了不同的声音。

“特斯拉推出端到端的FSD之后出现了一些问题,车总是容易上路肩,尤其是夜间,有的时候会出现剐蹭,有的时候就直接冲上路肩,把轮胎给撞瘪。”侯聪告诉记者,同样是在美国,Waymo并没有采用端到端大模型,但已经能够在多个城市实现无人化的Robotaxi运营,用户反响也相当不错。

端到端大模型本身并不是一个近几年才实现突破的新技术。

“2010年前后深度学习出现之前,都叫模型分析算法。当时我们在清华大学做过行人检测,要从图像里提取一些特征信息,比如人肩膀的弧度、眼睛的颜色等等,这些特征是我们人力归纳出来的,也就是rule based;而深度学习出来之后,我们输入图像,让深度学习自主学习,最后每个人不同的特征是深度学习学出来的,不是人力定义出来的。这和如今的端到端一样,是基于Learning based。”侯聪告诉记者,而这一系统和当前的端到端智能驾驶辅助一样,需要海量的数据支持。

这也被认为是车企竞相选择端到端大模型的重要因素之一。

和仅运营百余辆测试车队的L4自动驾驶供应商相比,车企通常拥有数十万甚至百万辆以上的产品在道路上行驶,用户驾驶过程中能够产生海量的数据,这有助于车企来训练自己的端到端智能驾驶系统,帮助系统实现快速的迭代。

此外,某L2+智能驾驶辅助系统供应商的工程师董军告诉记者,对于供应商而言,端到端智驾很难成为一个标准化的产品;车身形式的变化、传感器安装位置的变化等,整个系统需要重新训练模型,需要较多的成本和时间,效率不佳。

端到端大模型对于L2驾驶辅助的意义在于能够加快开城速度,加速实现车企口中的“全国都能开”。但对于L4级别自动驾驶公司而言,端到端大模型也能够在运营的初始阶段降低系统对于高精地图的依赖,使得公司能用更快的时间扩大运营范围;但到运营的中后期,高精地图仍旧有着重要影响,能够进一步提升自动驾驶系统的可靠性、安全性和流畅性。

另一方面,和特斯拉、理想这样已经实现盈利的车企相比,目前,绝大部分自动驾驶公司主要靠融资输血。而端到端大模型上车,不仅需要海量的数据,还需要大量的资金投入。

“未来智能驾驶进入到L4阶段,每年数据和算力都是呈指数级的增长,这意味着每年至少需要10亿美金,5年之后需要持续迭代。在这样的量级下,一家企业的盈利和利润不能支撑投入的话是很困难的。所以,现在不需要关注投入多少亿做自动驾驶,而是从本质上出发,是否有充分的算力和数据支持,再看看需要投入多少钱。”理想汽车智能驾驶研发副总裁郎咸朋对记者表示。

极越汽车CEO夏一平则认为,200亿元曾被公认是造车的资金门槛,现在企业没有500亿元也做不好智驾。

更重要的是,对于Waymo、小马智行这样志在实现L4 Robotaxi的自动驾驶公司而言,他们对于系统权重、成本等方面的考虑,与整车厂有着巨大的差异。

和L2驾驶辅助不同,L3级以上自动驾驶,事故的责任主体将转移到车辆,这对自动驾驶系统的稳定性、安全性提出了极高的要求。端到端大模型黑盒的不可解释性,给自动驾驶系统带来了一定的风险。

“车企接二连三推出端到端大模型的智驾,并大肆宣传,核心还是为了打造差异化,目的是把车卖出去。”董军表示。

侯晓迪在接受媒体采访时说道,如果特斯拉的FSD发生事故,那么责任还是驾驶员,特斯拉要求驾驶员全程将手放在方向盘上,事故和特斯拉无关;此外,特斯拉的业务是卖车,FSD是卖车的附加价值。如果要考虑如何卖更多车,就不能像L4一样在限定区域深耕,把这个区域所有corner case(极端情况)解决。

侯聪等自动驾驶公司的采访对象提出,L4自动驾驶要求100%的安全,无法接受端到端的“黑盒”带来的不可解释和不确定性。此外,L2和L4在商业逻辑上有着巨大的差异。

对于整车厂而言,卖车是主要业务,成本决定了利润和市场竞争力,那在产品上势必无法布置太多的安全冗余;而L4 Robotaxi更重运营,在相当长时间里会是to b的业务为主,并不会直接服务消费者,那么相关公司不仅仅需要考虑车,还需要考虑车辆运营中的各种情况。

“比如车卡住了怎么办,硬件坏了怎么办,发生事故了怎么办,这就需要更多的冗余,而特斯拉就不能和Waymo一样,预留很多冗余,因为两者的商业逻辑不一样。”侯聪说道。

世界模型成就自动驾驶?

尽管存在分歧,但多位自动驾驶公司技术人员在接受采访时,也认同端到端大模型上车,能够提升当前汽车智能驾驶辅助系统的能力上限。多位从业者表示,端到端大模型呈现出了“跷跷板”的状态,端到端大模型上车能够提升智能驾驶辅助系统能力上限,但也会降低系统表现的下限。

“端到端大模型是基于一个概率模型训练,它有一个问题是对于比较简单、比较容易描述的场景,往往它的输出没有那么精确,底线比较低;特斯拉在这块已经做得相当不错了,但是还没有完全解决这个问题。我们认为在目前缺乏足够数据的条件下,还是需要逐步实现端到端,一个模块、一个模块去替代,完成端到端的同时做好安全兜底,以这种比较坚实的工程基建和快速迭代的方式,能够一步步提升系统的性能上限,同时也能够保证系统性能的下限。”地平线总裁陈黎明表示。

端到端大模型基于数据驱动,输入端是传感器数据,输出端是驾驶决策,但中间具有较强的不可解释性,人无法得知系统作出最终决断的过程,也常被比喻为一个黑盒。

侯聪认为,当前的端到端大模型智驾和此前的基于规则控制的智驾,和汽车的生产流程有一些相似,“以前造车,车企买不同公司的零件去拼在一起,一方面是方便采购,把供应商分散开,也不容易被‘卡脖子’;第二点是好维修,什么地方坏了就修哪里。多模块的自动驾驶也一样,优点是可以更好地定义问题、解决问题。”

以传统的多模块自动驾驶为例,如果系统在测试中出现问题,研发人员可根据情况在相应的板块发现bug,并进行修复。但对于端到端大模型这样的黑盒而言,研发人员只能训练策略,重新训练,或修改模型,但修改“黑盒”中参数。并且随着系统的升级和迭代,系统解决的问题越难,就需要越多的成本投入,这个给端到端大模型设立了较高的门槛。

另一方面,端到端大模型基于数据驱动,但海量的数据并不一定能够对系统产生正向的提升。

小马智行AI团队负责人肖波认为,即便算法很好、系统训练做得也很好,从海量人类驾驶数据里学习到的能力,差不多就是一个平均人类驾驶的水平,那么这足以应对L2级别的智能驾驶辅助;但L4或者以上的自动驾驶,能力需要达到人类驾驶员的10倍甚至更多,这一模式并不足以支撑。

就在端到端呈快速普及趋势的时候,国内车企和供应商们再度提出了新的“世界模型”概念。楼天城认为,世界模型是目前最佳最重要的东西,将其理解为通往自动驾驶的唯一解。

世界模型可以理解为对真实世界的仿真与建模,可以真实准确地还原比如十字路口等场景的变化。比如鬼探头时被遮挡的行人轨迹;车辆碰撞瞬间的行人与他车反应;甚至反映出人在跑步时减速度可以达到重力加速度等细节。同时,世界模型还是一个评分体系,对自动驾驶系统的表现做出评价,能够得知A系统和B系统相比谁更好。

此前,蔚来、理想等车企已经接连发布旗下的“世界模型”。

蔚来自动驾驶副总裁任少卿表示:“相比于常规的端到端的模型,新的世界模型有三个我们认为主要的优势。第一个是在空间理解上,通过生成式模型,从重构传感器的方式,更加泛化地抽取了信息。通过自回归模型,自动建模长时序环境。第三个,万千世界需要更多数据,通过自监督的方式,无须人工标注,它是一个多元自回归生成模型结构,让我们学得更好。”

楼天城则认为,世界模型可以理解成一个人类模拟出来的“教练”,对L2系统而言,它的驾驶能力等同老司机;对L4系统而言,它的驾驶水平远高于人类司机,由他来训练智驾系统,结果肯定也好于人类司机。

尽管仍存在争议,大部分受访者仍认为,在L2智能驾驶辅助阶段,端到端大模型的确可以提升相关系统的性能上限。大多数L4自动驾驶公司的从业人员所不认同的是,特斯拉、小鹏等车企大肆宣扬端到端技术加持下,产品以L2智能驾驶为基础,甚至在L2的硬件水平上实现L4自动驾驶能力。

“现阶段的车企大肆宣传端到端,把端到端塑造成一个通向自动驾驶的尖端技术,背后更多还是为了多卖车。”董军说道。