文|刘俊宏
一向强调产品大于技术的理想汽车(下面简称“理想”),也加入了智能驾驶的“端到端”竞赛。
就在7月5日的智驾发布会上,理想一反常态,先宣布了全国无图NOA全量推送。随后,理想宣布,下一版本即将落地的大模型“端到端”智驾。
这意味着,从2023年才开始将智驾领先作为核心战略目标的理想,不仅追平了高阶智驾落地,更是在端到端的技术路线上,比已经落地的华为和小鹏还要激进。
一年来,理想在智驾技术的追赶中几次经历变动。
在2023年5月时,理想汽车智能驾驶副总裁郎咸朋在一次采访中还表示,理想还在做无图化的BEV+OCC智驾架构。而在今年的中国汽车蓝皮书论坛上,郎咸朋就一步跨为了端到端赛道的拥护者,“端到端+大模型,是更接近于人类驾驶的智能驾驶方案”。
除了郎咸朋,理想智驾“端到端”背后的核心研发人员,包括智能驾驶技术研发负责人贾鹏和高级算法专家詹锟。
无论是理想、华为、小鹏还是长城汽车,中国智驾玩家们普遍采用“分段式”的路线,与特斯拉FSD一步到位的“跨越式”端到端方案,形成了鲜明的对垒。
不过,对于理想这家善于用产品定义智能汽车的公司而言,智驾最大的意义在于理想拿下了智能汽车设计“工具箱”的最后一环。在理想MEGA失利后,理想真正意义上的下一代产品快要来了。
“全国都能开”,追平一线智驾水平
“我们很羡慕理想,能在批量交付的车主中,选择种子用户来实验智驾。”一位传统车企的智能化负责人对光锥智能表示。
相比去年就开放“全国都能开”的鸿蒙智行,理想的城市NOA落地节奏还是稍微慢了一步,智驾能力显然和销量不成正比。
2024年,整个行业的高阶智驾落地再向前推进了一大步,理想也跟上了节奏。
在7月5日的智能驾驶夏季发布会上,理想终于结束了今年5月开始的城市NOA测试体验。在智驾OTA6.0的升级中,面向AD MAX版本的用户全量推送了城市无图NOA功能。
本次升级,理想智驾通过行业内比较成熟的BEV+OCC+Transformer技术,实现了理想车主期盼已久的城市NOA。针对具体能力,理想还总结出了“哪里都能开、绕行丝滑、路口轻松、默契安心”的四大特色。
其中,“哪里都能开”是智驾行业“去高精地图”的成果。在普通导航地图的指引下,智驾“有路就能开”。“路口轻松”和“默契安心”,主要基于BEV+OCC技术的应用,智驾系统能够认识到外部环境,并做出相应的反应。
“在我并线时,我看到了一个对象,汽车也看到并立即作出响应,这就是一种默契和安心”,智驾顺畅通行的能力,理想汽车产品部高级副总裁范皓称。
具体的特色功能,主要聚焦在“绕行丝滑”上。
在老城区场景中,经常会遇到前方车辆突然停下接人的情况。对于这种情况,行业内不少智驾玩家的决策是等待前车再次启动(或等一会再绕行)。而理想的“绕行丝滑”,则是与人类司机一样,等一秒钟便立刻“打一把方向盘”绕开。
“不磨叽”绕行的背后,是理想在BEV中添加了时序概念。让传统BEV视角下,只能感受单帧图像内障碍物的智驾系统,拥有了“预判”未来的能力。
智驾理解时间的重要性,恰如人类的时间知觉。就像是人类结合自身位置和飞行轨迹接飞盘一样,在多帧画面的综合理解下,智驾也能明白事物的延续性和顺序性。对应到具体操作上,是预测自车与他车的空间交互关系,规划未来时间窗口内的所有可行驶轨迹,进而无需“观望”果断绕行。
通过这四大功能,理想智驾已经能够适应绝大部分场景,保障行车安全。但安全只是智驾最基础的能力,通过部分演示看到,理想智驾在逻辑决策上存在着短板。
例如在转向中,面对斑马线上加速通过的小孩,理想智驾起初仍选择正常通过,随后触发AEB紧急刹停。诚然在结果上,理想智驾没有发生事故。但若是真人司机“操刀”,是看到异常情况立即减速观望,而非继续尝试通过。
出现如此情况,意味着理想智驾在逻辑决策与智驾控制能力的两个层面上,并未完全“对齐”。
逻辑问题,有望在落地端到端大模型后,在下一个版本中得到优化。
大模型的“快与慢”
理想的智驾团队和马斯克一样,都喜欢从本体论视角拆解目标。
马斯克从亚里士多德的第一性原理上,认识到能源的重要性。而理想智驾团队从《思考,快与慢》中认识到,学习人类的思维逻辑,是智驾达到人类水平的关键。
为了模拟人类的下意识反应和深思熟虑操作,理想智驾团队没有选择类似特斯拉FSD的“跨越式”方案,而是搭建了“快慢”双系统(对应系统一和系统二)。
其中,系统一是完全的端到端架构。与特斯拉FSD一样,都是在收到传感器信息后,直接操作汽车。就像是人类面对正常路况一样,“加减速”不需要思考太多。这部分的训练,理想选择了与特斯拉类似的训练方式,让智驾直接学习“五星好司机”的真实驾驶视频。并添加强化学习,让智驾在模仿之余,找到更优的解法。
在系统一的基础上,理想将大模型(主要是VLM)作为高级规控的方式,控制整个智驾系统的逻辑决策能力。系统二的底层技术原理,可以理解为参考人类的综合信息理解能力。理想在传统智驾的Transformer框架下,将视频、汽车状态等信息统一“扔进”一个编码器。从而让智驾获得“深思熟虑”的能力,避免闹出“白马非马”的笑话。
具体而言,在路口等待的场景中,行业不少解决方案只能“认出”红绿灯,但具体的读秒需要导航地图的反馈,无法实现智驾自动起步。而智驾有了理解能力之后,智驾不仅能“认出”红绿灯,还能明白读秒的含义。更进一步,当导航地图不够精确的时候,系统二会根据实际需要“纠正”导航地图的错误,避免汽车跟着导航开到辅路上。
可以看到,大模型在更好地应对路况的同时,也萌生出了“按照自己理解开车的想法”。为了放大模型能力的上限,理想也给出了更符合“大模型体质”的训练方法。
在自动驾驶领域中,单靠真实数据训练智驾远远不够。为了让智驾学到现实难以遇上的Corner Case,需要在仿真环节中让智驾模拟训练。
2021年,特斯拉分享了一套基于3D虚拟+现实重建的仿真技术。通过对现实数据采集,特斯拉在虚拟世界模拟重构一些如高速上有人奔跑、马路上挤满人等“超现实”场景。虽说这套方案促成了今天的FSD,但缺点也非常明显。在极大的信息标注量和算力需求下,马斯克买不到足够训练用的GPU,只能“干看着”。
理想的解决方案,也是行业内目前普遍使用的,是将现实重建与Diffusion技术相结合。以真实数据为基础,“画出”想象中可能遇到的具体路况。例如在一段汽车驾驶的画面中,理想的仿真方案能根据提示词生成晴天、阴天、雨天、雪天等多种场景用于训练。
“15秒经历一年四季,遍览世间繁华”,理想汽车智能驾驶技术负责人贾鹏表示。
如今,伴随着理想城市NOA落地,和即将开启的端到端大模型智驾测试,或许,理想能够凭借智驾能力,跳出理想ONE的“围城”。
跳出理想ONE的“围城”
理想可能是所有造车新势力们最羡慕的样子,但也是理想最想摆脱的样子。
羡慕的部分,是理想以单月超4万的销量,以实力碾碎市场上关于“增程落后”、“创新全靠冰箱彩电沙发”的争议。凭借对汽车产品理解,理想不仅成为了第一个盈利的造车新势力,更是以理想ONE开创了中国全新的汽车文化。
汽车工业过往时期,巨头们的崛起主要靠大时代下的错位竞争。在福特汽车制霸时期,是标准化生产让汽车走下“奢侈品神坛”;在日系车拿下美国市场时期,靠的是石油危机时提供的低出行成本;在中国自主品牌兴起的现在,一是靠供给侧降本实现“低价”对标合资车,二是通过电动化、智能化弯道超车。
但理想成功的路线,并非承接时代的机遇,只靠低价卷。而是从需求侧出发,以产品经理思维重塑了汽车行业过往从供给侧设计产品的模式。
在理想ONE上,理想基于用户画像、需求痛点、市场研究、用户体验等逻辑,给出了上市即交付、尽量少的选配、新能源与续航兼得(增程)、座舱空间享受等综合特性的汽车产品。在理想的“一揽子”产品思路下,汽车行业的后来者们纷纷开始效仿学习,理想也从理想ONE中差异化“裂变”出整个“L系列”。
但在此之后,理想真正意义上的下一代产品却“始终没有到来”。理想MEGA的受挫,完全可以认为是进军纯电赛道时选择了保守策略,以大型MPV的标签将自己限定在了一个相对小众的市场。或许,理想下一次产品的发力点,还得看今年未发的三款纯电产品。
但是,由高阶智驾带动的新一轮智能汽车需求,已经在揭开汽车市场的“下一幕”了。
随着2024年越来越多的车企宣布落地高阶智驾,在蔚来、理想、小鹏、小米、广汽、长城等车企,华为、毫末、Momenta、元戎启行、商汤绝影等头部智驾供应商的共同表态下,智驾端到端的技术架构也被“提”到了台前。
甚至,英伟达汽车事业部副总裁吴新宙还称,“端到端,正是智驾三部曲的最终曲”。
智驾玩家们如此看好端到端,并不只是看到了特斯拉FSD的成功经验、技术架构对信息的处理能力,或是大模型训练下的迭代速度。最核心的看好的,是端到端带来的“主动智能”。
正如长城汽车智能平台开发中心的高级总监姜海鹏所言,“真正智能驾驶终点一定像人一样有思考,对场景有理解,基于对场景有理解基础之上做智驾的动作”,端到端的路线,让“机械”的智驾有了“媲美人类思维”的可能。
不过,目前国内已经(或准备)落地玩家的情况,大多都是部分端到端的“分段式”方案,而非特斯拉FSD的“跨越式”架构。
其中,华为和小鹏的架构比较类似,大致方向是将之前智驾中感知、规划、控制“三部曲”,拆分成感知、规控两个“端到端”模型。长城的SEE大模型是将感知部分进行“端到端”处理,规控阶段有专家策略参与。理想的方案,则是用VLM充当完整端到端架构的“高级规控”,方案最激进。
国内智驾玩家采用“分段式”端到端架构的原因,可以参考李想在今年汽车重庆论坛上对于系统二用途的解释,“用于端到端的训练,大概一个月十轮左右的训练,基本就可以完成一个无图 NOA 的上限水平。但是面对中国的复杂路况,只有端到端不够,我们要思考什么是系统二。系统二的启发在于,解决各种各样的Corner Case和各种泛化的问题”。
换句话说,国内智驾系统们对于当前大模型能力的不足,在想办法通过“更强规控”的工程化方式去落地。
“当数据达到特斯拉级别的百万量级以上,通过对模型的强训练,智驾可学习视频流,就能直接告诉司机驾驶的方向,像当下流行的ChatGPT一样”,曾在特斯拉主导建立机器学习团队的谷俊丽在WAIC上如此表示。
但正所谓“罗马不是一天建成的”,李想在端到端智驾的变革中也找到了自己的方向,“我们认为端到端 + VLM + 生成式的验证系统,也会是未来整个物理世界机器人最重要技术架构和技术体系”。