文/周雄飞
如何让自动驾驶算法,实现人类大脑的工作效率?
这一课题,一直都是自动驾驶行业探索的重要领域。因为就目前来看,大多数的自动驾驶算法模型,以及引得全行业追逐的端到端模型,都是基于海量数据训练和调优实现的,由此在业内看来,现阶段自动驾驶行业,是处于数据驱动的时代。
但与此同时,数据驱动也存在着诸多的问题。就比如随着对端到端技术的研究和应用走向更加深入,对于数据质量的要求变得越来越高,以及还存在泛化性能不足和效率不高等问题,更为重要的是,在应对一些Corner cases时不如人类大脑的反应速度。
在这样的行业背景下,以Nullmax为代表的一些自动驾驶企业们也提出了创新性的思考。
这两天,Nullmax举办了主题为“AI无止境,智变新开端”的技术发布会,正式推出了最新的自动驾驶技术——Nullmax Intelligence(以下简称NI),是一套基于端到端技术架构的技术,包含多模态大模型和安全类脑的神经网络。
基于多模态大模型,NI可实现对声音、文本和手势等众多信息输入的支持,输出端则支持包括文本、运动轨迹等可视化结果信息;此外,NI还引入了规模对应斑马鱼的神经网络,换句话说就是把类脑的神经网络引入自动驾驶架构,让脑科学与自动驾驶实现结合。
凑巧的是,作为特斯拉掌门人的埃隆·马斯克,通过布局脑机接口公司Neuralink,也算同时布局自动驾驶和脑科学两大领域的企业家,只不过目前这两项业务并没有完全融合起来,这意味着Nullmax或许比马斯克更进一步。
如今,Nullmax发布Nullmax Intelligence,在业内看来Nullmax试图解决以上这些行业问题的同时,也为整个自动驾驶行业向智能驱动进化带来了新的启发。
01、让自动驾驶行业向智能驱动进化
“自动驾驶技术,需要更聪明和更拟人。”
在发布会上,Nullmax创始人兼CEO徐雷说出了他对自动驾驶技术的看法,为了做到这一目标,他在NI架构中引入了多模态大模型和安全类脑的概念。
先来看多模态大模型,区别于只支持输入视频信号的大模型,NI基于参数量达到十亿级别的多模态大模型,可支持视频、声音、文本以及手势等多种信号的输入。
翻译一下,NI除了能识别摄像头采集的诸多视频信号之外,还能“听懂”和“看懂”环境中出现的声音和文本信息,以及交警的手势信息等等,以便做到“眼观六路,耳听八方”的目标。
输入端输入这些信息后,NI端到端架构的输出端就会输出包括人机交互画面(HMI)、场景描述和运动轨迹等可视化结果。
对于为何会输出这么多可视化结果的原因,徐雷向飞说智行解释为“要让端到端模型具备可解释性,让其不再是一个‘黑箱’”。
一直以来,端到端架构“黑箱”问题一直困扰着自动驾驶行业,对此也有英国自动驾驶企业Wayve,国内自动驾驶企业毫末智行等企业,试图引入LLM大语言模型和VLM视觉语言模型来解决这一问题。
但就在之后的实践中,行业也发现LLM存在一定幻觉的问题。就比如毫末智行CEO顾维灏认为,LLM存在较为严重的幻觉,来指导自动驾驶算法有较大的风险。
或许Nullmax看到了这一风险,由此在基于LLM给出场景描述的同时,NI还会输出人机交互画面(HMI)和车辆运动轨迹等可视化结果,以便达到交叉验证和干涉调整的目的,从而打破端到端“黑箱”问题。
如果以上过程属于NI输出结果后的一级仲裁,那么Nullmax还在此基础上加入了“安全类脑”架构和一级仲裁结果并行的二级仲裁。
所谓“安全类脑”,按照徐雷对飞说智行的解释,参考了斑马鱼脑部神经网络,搭建了一个参数量为十万量级的神经网络,以便让自动驾驶算法具备“趋利避害”的生物本能,能够根据环境情况作出反应,从而实现更高程度的安全、智能、自由。
其实,把类脑神经网络引入自动驾驶算法中,除了Nullmax之外,在学术界也有尝试。
2020年,奥地利科技学院(IST Austria)、维也纳工业大学(TU Wien)和麻省理工学院(MIT)三所高校,由于受到线虫等小型动物大脑的启发,把类脑神经元引入至自动驾驶算法中,从而让其控制车辆。
在该项目负责人Radu Grosu教授看来,由于少量神经元的参与,自动驾驶网络不再是深度学习的“黑箱”,研究者可以知道每个网络运行的情况,这项研究也刊登在当年的《自然-机器智能》期刊中。这应该也是徐雷认为NI端到端架构不再是“黑箱”的原因所在。
虽然Radu Grosu等人的研究面世早于Nullmax,但从产业落地和量产交付方面,后者走在了自动驾驶行业的前端。按照徐雷透露,NI架构预计会在明年初上车落地,由此自动驾驶行业有望进入智能驱动的时代。
但对于Nullmax来说,野心不止于此。
02、不止于ADAS,还有运货和具身智能
高开放性和高适用性,是Nullmax智能驾驶方案最明显的标签。
按照Nullmax此次发布的方案来看,主要分为以下三种:
(1)仅搭载1颗摄像头的1V方案,基于一颗来自TI的2 TOPS算力芯片,可实现基础的L2级别辅助驾驶;
(2)搭载5-6颗摄像头,基于8 TOPS的算力芯片,实现包括高速NOA、记忆泊车等智能辅助驾驶能力,且在泊车过程中可检测障碍物。
(3)搭载11颗摄像头,实现L2+高阶智驾的能力。
基于这低中高三大方案,可以看到Nullmax的智驾方案,可以实现适配不同硬件和算力的配置,同时根据徐雷的介绍,他们的智驾方案还可以适配不同车企旗下的不同车型产品,从而满足不同车企客户需求的目的。
按照Nullmax的计划,未来基于智能驱动的智驾方案,可以实现以小于100 TOPS的稀疏算力,实现全场景NOA;也能实现对2 TOPS-2000 TOPS算力区间方案的全覆盖。
Nullmax能实现这些,得益于他们对于软件平台化的布局。简单说,通过多模态输入token化、多模态模型推理和自动驾驶功能集成这三个环节进行抽象,再加上自研中间件MaxOS平台,从而可以让整体算法适配不同车型的传感器搭载和不同算力的芯片,且易于部署。
除了开放性和适用性之外,智驾方案的成本是否具有优势,也已成为行业和车企们重点关注的方面。
按照Nullmax官方的介绍,他们的智驾方案成本已低至千元级级别,具备行业优势。一方面的原因是因为采用了纯视觉、真无图的技术路线,不依赖高精地图、轻地图、低精地图、众包地图等资源,从而降低了成本。
另一方面,Nullmax也降低了算法训练的成本和提高了训练的效率,这是基于他们构建的数据和算法平台——基石架构。除了利用真实路测数据之外,基于这一架构,还能通过AIGC方式生成高质量虚拟数据,推动算法的迭代。
相比于真实数据,虚拟数据在成本方面可大幅降低,与此同时还提升了算法仿真训练的效率。
依靠以上这样高开放性和高适配性、以及高性价比的智驾方案能力,Nullmax目前已收获众多合作伙伴,包括奇瑞、上汽、比亚迪、长城和福特等头部车企,以及德赛西威、黑芝麻等上下游生态伙伴。
在提出智能驱动的背景下,除了乘用车ADAS之外,Nullmax还想把版图扩展到更多的领域。
按照他们的展望,在推动全场景的载人和运货应用,实现真正有价值的大范围无人驾驶的同时,还能复用成套的AI技术能力,开拓更广阔的具身智能应用。
这也意味着,Nullmax此次推出Nullmax Intelligence的同时,也迈出了奔向未来的一大步。
参考资料:
1、Mathias Lechner, Ramin Hasani, Alexander Amini.Neural circuit policies enabling auditable autonomy[C].Nature Machine Intelligence volume 2, pages642–652 (2020).