作者|路世明
编辑|大风
8月20日,理想汽车6.1.0版本更新,并内测了E2E(端到端)-VLM Beta 2.1版本。
据悉,本次更新增加了端到端-VLM系统与NOA系统切换的功能,可感受不同系统的驾驶风格,系统相互切换时间约为20s。此外,本次更新还迭代了端到端模型,优化了跟随慢速骑行人不绕行、对邻车道大车点刹等问题,降低系统延迟,提升了系统稳定性。
新能源汽车发展至今,智驾已经成为了“灵魂”,成为了车企们的“兵家必争之地”。
不可否认,相比2020年前,如今的智驾技术相当亮眼,但也需要承认,近一两年智驾技术的发展速度有所减弱,甚至谈得上“缓慢”二字。究其原因,核心还是在于技术路线。
目前大多车企智驾技术架构,还是沿用更“靠谱”的模块化。然而这种不会“犯错”的技术路线,也意味着编写大量的代码、不断高企的任务量、信息传递减损……极大的限制了智驾的潜力和发展。
忽如一夜春风来。在经过数年缓慢前行之后,随着AI大模型的快速发展,端到端技术路线的落地,让智驾迎来了新的可能。步入2024年之后,端到端技术成为头部厂商的新风潮。眼下,包括特斯拉、华为、蔚小理在内,不少玩家都在加速迭代端到端智驾技术。
虽然各家在更进一步的技术层面呈现出不同路径,但这样的集体推动,却让人类智驾技术逼近了质变“临界点”。
什么是“端到端”?
一直以来,关于实现完全自动驾驶,业内有两种不同的声音,一种是模块化,一种则是端到端。
就目前而言,主流的智能驾驶系统普遍应用了模块化,即将自动驾驶任务分解为感知、预测和规划三个独立的模块,随后通过系统集成来实现自动驾驶功能。
模块化技术架构,能够将复杂的自动驾驶任务简化为多个相对容易处理的子任务,有效降低了系统开发的复杂性。由此构建的系统具备较高的可解释性,允许对每个模块的输入和输出进行详细的分析,一旦发生故障,可以快速定位到问题所在。
虽然优势明显,但这种方法也存在不少缺憾。
首当其冲的是,模块化技术架构需要编写大量的代码,并且在系统设计过程中过度依赖人为的先验知识。而这无疑限制了自动驾驶系统的潜力,导致其泛化能力不足,面对未知场景时往往难以有效应对。尤其是在国内复杂的道路环境下,局限性较大。
此前何小鹏在接受《每日经济新闻》采访时表示:“模块化智驾方案从技术上说,汽车在感知、定位、规划、控制方面都是分开处理的,每一个环节并没有关联。因此车辆在遇到一些场景的时候会因为人类写入的规则互相博弈而产生犹豫。”
与模块化技术架构有很大不同,“端到端”指的是一个AI模型,只要输入原始数据就可以输出最终结果。
将端到端应用到智能驾驶领域,意味着只需要一个AI模型,就能把摄像头、毫米波雷达、激光雷达等传感器收集到的感知信息,转换成车辆方向盘的转动角度、加速踏板的踩踏深度以及制动的力度等具体操作指令,让汽车实现自动行驶。
对比之下,模块化自动驾驶系统要一步步来,先识别路标,再预测其他车辆的动向,最后才决定怎么开。而端到端技术却能一气呵成,把感知到的一切都直接转化为行动。
并且,由于大模型会将过去的路跑经验吸收保留,还会使用过去的数据反复思考某场景下怎么行驶最好,因此在大量的数据积累下,端到端应对各种场景将会越来越灵活。
换言之,端到端无需程序员编写冗长的代码去制定规则,也不会出现信息传递减损,解决了模块化模型存在的核心“痛点”。
颇具优势,但挑战也多
借助大模型技术的深入应用,端到端自动驾驶系统的优势日益明显,为自动驾驶技术的进一步发展提供了一条高效率途径。
然而,对于押注这一技术路线的玩家们来说,仍然要面临不少挑战。其中,摆在玩家们眼前的第一道难关,就是数据。
大模型需要大数据,本质上来讲,端到端自动驾驶是海量驾驶视频片段的学习都需要极大规模的高质量数据,而数据的采集、清洗、筛选都是难点。
特斯拉CEO马斯克在去年的财报会上曾提到数据在自动驾驶方面的重要性:“用100万个视频case训练,勉强够用;200万个,稍好一些;300万个,就会感到Wow(惊叹);到了1000万个,就变得难以置信了。”
截至去年,特斯拉已经分析了从特斯拉客户的汽车中收集的1000万个视频片段(clips),他们判断完成一个端到端自动驾驶的训练至少需要100万个、分布多样、高质量的clips才能正常工作。
要知道,特斯拉在新能源领域的市场占有率非常高,单以国内市场来说,2023年纯电动车排名中,特斯拉以市占率19.9%夺冠,而比亚迪位居第二。眼下特斯拉采集的数据量都不够用,试想其他车企又有多少数据可用?
况且,并不是所有的行车数据都可以用来训练端到端模型。有自动驾驶工程师就发现,原本积累的路测数据只有2%可用。如何从海量数据中找出可以用于训练的有效数据,这又是一道难关。
除了采集、筛选这两道高门槛之外,数据的计算也对玩家们的算力规模提出了要求,厂商们需要不断提升GPU的采购规模,而这也意味着端到端模型的训练成本非常高昂。
不止于此,端到端技术不得不面对更棘手的问题——黑盒子不可解释。
前文说到,模块化技术架构下,决策过程是透明的,决策失误是可以准确定位的。但端到端技术,从输入到输出,这中间的过程却无法透明化。
试想,如果自动驾驶车辆在紧急情况下做出了错误的决策,人们却无法理解其背后的逻辑,也无法迅速准确定位原因,这意味着要付出极大的安全代价。
路线各有不同
虽然挑战不少,但在AI智驾趋势下,端到端大模型还是“上车”,成为了玩家们追逐的新玩法。而站在时间线上,端倒端这一思路最早是由特斯拉提出。
2023年12月,特斯拉的智驾工程师Dhaval Shroff向马斯克提出建议,抛掉手写规则,搭建一张神经网络,让它大量观看人类司机的驾驶视频,并自行输出正确的行驶轨迹。
直到今年1月,采用端到端架构的FSD V12正式向北美用户推送。据介绍,这一版本使用的正是单个端到端的神经网络,即用一整个囊括输入到输出端的大模型,直接进行训练。
在特斯拉宣布FSD V12将采用端到端大模型之后,国内亦掀起了端到端大模型应用的热潮,而紧随特斯拉积极拥抱端到端技术的是华为和小鹏。
但与特斯拉的单个神经网络不通,华为的ADS 3.0智驾系统,是将大模型拆分为感知与认知(预测决策规划)两个阶段,串联二者做训练,分别实现感知和规控的“端到端”。
至于小鹏,则是国内首个发布量产上车的端到端模型的整车企业。
今年5月20日,小鹏汽车端到端大模型量产上车;7月30日,端到端加持下的XNGP从“全国都能开”正式升级“全国都好用”,何小鹏在“小鹏汽车AI智驾技术发布会”上宣布:将向全球用户全量推送AI天玑系统XOS 5.2.0版本。
不过,在具体的技术路线上,小鹏与华为和特斯拉也有所不同。小鹏的XNGP则分为感知XNet、规划XPlaner、控制XBrain三个部分。这一做法等同于将感知、规划和控制三个模块串联在一起,用高端的方式统一训练。
除了以上三家,还有不少玩家也开始选择端到端。比如今年蔚来单独设立了一个大模型部,专门负责端到端的模型研发。
包括理想,在今年5月裁员中也保留了算法研发团队:由贾鹏管理,主要负责无图城市NOA的研发、落地,以及端到端智驾的预研。
不管选择什么样具体途径,也无论究竟谁在参与,提高驾驶安全性和便捷度永远都是智驾的核心。虽然眼下端到端模型的比拼愈演愈烈。但对于消费者来说,过程或许不那么重要,结果才是。