智驾再不卷“端到端 ”就晚了?

“今天L4公司很多的技术路线还是算法+小AI模型的组合,都在痛苦的犹豫,是否应该转入端到端。我个人的建议是:别犹豫,赶紧改,后面那个才是大家伙。”

7月11日,小鹏汽车董事长何小鹏今日在微博上分享了自己关于无人驾驶的看法,其中关于端到端的“个人建议”再次引发行业热议。

据悉,小鹏早在2022年率先成立了国内最大的自动驾驶智算中心“扶摇”,拥有600PFLOPS的算力规模,专门用于训练智能驾驶的算法模型。

自今年以来,“端到端”已经成为了智驾领域最火热的概念,涵盖车企、人工智能企业、自动驾驶技术公司以及自动驾驶芯片制造商在内的多种类型参与者也都纷纷加码布局,如鸿蒙智行、元戎启行、商汤绝影、小鹏汽车、零一汽车等等。

那么究竟什么是自动驾驶领域的“端到端”?离大规模落地还有多远?

据业内人士介绍,当前主流的智能驾驶系统仍然采用模块化模型,将任务分为感知、定位、预测、决策和控制等独立的模型,每个模型的技术栈差异较大,处于下游的规划模型需要依赖工程师编写大量代码去制定行驶规则。简而言之,传统的模块化架构就是像车间流水线一样,经过多个加工步骤,最终输出可执行驾驶指令。

但这种方式往往只能按照原有规划处理各种数据信息,面对各种突发情况出现并不能做到“随机应变”,就可能产生误差,并且随着模块间信息传递进一步放大,甚至造成“失之毫厘差之千里”。此外,各个模块进行数据处理和传输也可能因为特殊情况的出现导致整体延时。在瞬息万变的道路情况中,如果智驾系统不能第一时间做出准确判断,后果将不堪设想。

而端到端系统给出了不一样的“解题思路”,它并不再依赖于编程来处理特定驾驶场景,而是通过大量数据信息来不断学习和观察,能够像人一样做出驾驶决策。

端到端自动驾驶能够用更少的工程处理更多的数据,将完全基于数据驱动进行全局任务优化。马斯克甚至表示特斯拉采用端到端技术,能够用3000行代码,替代了原来的30万多万行C++代码。

端到端不仅降低对高精地图、激光雷达以及人工的依赖,还能降低中间环节的成本,也为自动驾驶技术向L4级别无人驾驶的发展提供了更多可能。当前,“端到端将是未来最主流的自动驾驶技术路线”已经成为了业内的共识。

尽管各家车企都叫端到端,但也分为不同的层次,分为显式端到端(将多个神经网络拼接形成端到端)、隐式端到端(不输出中间结果,直接输出控制信号)和基于大语言模型的端到端架构(将ChatGPT等模型与自动驾驶结合)。

在业内人士看来,即使车企都宣传自己是端到端甚至是“首个量产”,但具体采取的是哪种水平的端到端很难被用户感知,到底谁是“玩噱头”谁是“黑科技”还需要经过实际检验。

众多车企和自动驾驶公司也纷纷押注“端到端”模型。智驾头部玩家特斯拉已于今年1月向北美用户正式推送FSD V12,成为首家在量产车型上实现端到端自动驾驶的公司。小鹏汽车则是国内首个发布量产上车的端到端模型的整车企业,其端到端大模型由神经网络XNet+规控大模型XPlanner+大语言模型XBrain三个部分组成。

不久前,理想也首次公开了其端到端自动驾驶技术架构,该架构主要由端到端模型、VLM视觉语言模型、世界模型三部分共同构成。商汤科技、毫末智行、元戎启行等智能驾驶技术公司也都公布了自己的端到端智能驾驶量产方案。

除了端到端架构,想要实现更为先进的智能驾驶功能,还需要大家耳熟能详的激光雷达、摄像头、智驾芯片等配置,以及软硬件协同提供相应的算力支持。如果说硬件基础代表了智驾的“天赋”,那么算力则代表了后天的“学习”,而数据量则代表了“题库”。只有既有天赋,又肯提升学习效率且拼命刷题库的智驾系统才能真正成为能够应对各种复杂道路场景“考试”的“学霸”。

而随着各家车企卷向高阶智驾,对于算力和数据的需求也持续攀升。特斯拉此前预测公司算力规模将于2024年10月达到10万PFLOPS(是衡量超级计算机性能的指标之一,代表每秒一百亿亿次的浮点运算能力),相当于约30万块英伟达A100的算力总和。在今年4月,特斯拉宣布其FSD累计行驶里程达到超10亿英里。

据透露,FSD V12版本的训练初期,在输入超过100万个视频后,基于神经网络的自动驾驶系统才开始展现出良好的性能。在去年年初,特斯拉还上传了约1000万个人类驾驶视频片段,而且是经过筛选的优质司机。

目前,特斯拉在全球各地近200万辆的车队,每天可收集约1600亿帧视频用于训练,但这还远远不够。特斯拉预测,未来用于训练的视频将达到数十亿帧。

即使特斯拉FSD目前在北美表现不错,但业内一直也有观点认为是因为北美的路况较为简单,而中国的道路比美国复杂十倍。尤其是在中国各大城市的道路上,AI需要面对由车、泥土车、单车、行人、两轮车等组成的复杂场景。这也是特斯拉FSD入华要面临的难点之一。

此外,针对不同天气情况的驾驶场景,也需要有特定的驾驶视频进行训练。例如雾、雪、雨、沙尘等能见度低的天气以及像那些一天经历四季的地区,这无疑对于驾驶训练人员数量和优质训练视频数量提出了更高的要求。

而各家企业手里有多少训练算力资源也直接决定了智能驾驶模型的训练效率与水平。目前,商汤已经拥有4.5万张GPU,运营总算力规模达到12,000PFLOPS,预计算力在年底能达到2万PFLOPS。华为乾崑 ADS 3(参数丨图片).0在算力方面已达到3500PFLOPS。在此前的发布会上,小鹏汽车宣布每年会在算力上投入7个亿,今年会拥有超过7000张GPU,但并未透露具体的算力规模。

由于智能驾驶技术涉及到的核心资源众多,包括但不限于计算机视觉、语音识别、自然语言处理等方面,因此国内车企和人工智能公司之间的竞争非常激烈。为了争夺更多的市场份额,双方都在不断地进行技术创新和产品升级,推动着智能驾驶技术的发展和进步。

虽然国内各家企业将2025年实现大规模端到端量产作为发展目标,但在专家看来,端到端模型离大规模商业化应用还有一段较长距离,并且认为当前自动驾驶正处于商业化应用的前期阶段,预计2030年前后才能实现技术普及。此外,面对端到端模型尚未解决的黑盒问题和幻觉问题,还需要通过技术进步而逐步克服。

综上所述,在自动驾驶有望迎来彻底爆发的前夜,国内车企和人工智能公司都已经进入智能驾驶核心资源的军备赛阶段。随着自动驾驶行业马太效应更加剧,只有那些具备核心优势的玩家才能留在牌桌上。