量产智能驾驶的决战已经打响了。
那些有志向、有能力参与决战的企业已经嗅到硝烟气味,正在厉兵秣马。
在他们当中,成立不足4年的自动驾驶初创公司毫末智行,将面临未来2年的决战期。
一
10月11日,毫末举办第9届HAOMO AI DAY。在2023之秋,由于坊间期待的特斯拉AI Day 3未见动静,毫末的这场中国国内自动驾驶AI技术现状的展示,备受业界关注。
毫末迎接决战的姿态,从这次活动上发布的全新产品中可见端倪:
1.推出三款“极致性价比”的HPilot2.0智驾产品。

HP170,定位3000元级行泊一体方案,AI算力5 TOPS,传感器标配1个前视、4个鱼眼、2个后角雷达,12个超声波雷达,可选装1个前视雷达和2个前角雷达,可实现高速/城市快速路上的无图NOH,以及E-NCAP五星AEB安全标准。
HP370,定位5000元级城市记忆行车和记忆泊车产品,AI算力32 TOPS,传感器标配2个前视+2个侧视+1个后视+4个鱼眼,以及1个前雷达、2个后角雷达,12个超声波雷达,可选装2个前角雷达,可实现360°无死角感知,支持高速、城市快速路以及部分城市道路的记忆行车。无需学习、仅通过导航地图就能覆盖多城多区域的通用路线,也能通过一次学习定制智驾路线,还具备免教学记忆泊车。
HP570,定位8000元级城市全场景无图NOH产品,AI算力可选72 TOPS和100 TOPS两款芯片,传感器标配2个前视+4个侧视+1个后视+4个鱼眼,以及1个前雷达、12个超声波雷达,并支持选配1颗激光雷达。仅通过导航地图实现城市全场景覆盖,同时支持全场景泊车。
这些产品将把NOH(导航辅助驾驶)这样的高阶智驾功能,带入到10-20万级别的车型上。这对于同级别同价位的传统燃油车,是比电动化更致命的打击。
以HP170为例:包括传感器、域控平台和相关线束的整套智驾方案,成本来到3000元级别,在BOM成本约10万元的整车中仅占3%。
这意味着,像哈弗枭龙MAX、哈弗猛龙、欧拉好猫,甚至哈弗H6(图片|配置|询价)这样的主销产品,都将具备NOH功能。
从2020年开始的“电动车快速替代燃油车”的局面,将在今后两年转变为“智能车快速替代功能车”。在这一过程中,毫末“极致性价比”的智驾产品,将助其争夺更大的市场份额。
这是为何,毫末智行董事长张凯敢于给出“2025年,城市NOH车型将占L2及以上车型的70%”的预测。
2.搭载毫末HP550(原HPilot3.0)产品、具备城市NOH功能的魏牌蓝山,将在2024年Q1上市。
HP550采用不依赖高精地图的“重感知”方案。相比依赖高精地图,“重感知”开发难度更大,但具有更好的泛化性、更快的开城能力——2024年内,毫末的城市NOH将实现全国100城落地。
覆盖更多城市只是解决了“有没有”的问题,要解决用户“用不用”的问题,城市NOH功能还需覆盖更多极端场景,让用户接管率更低、体验更丝滑,用得更放心。
例如,毫末HP550通过感知算法的优化,可识别障碍物的数量和范围不断扩大,目前可在最高时速70km、50m距离下检测到高度35cm的小目标障碍物,并做到100%成功绕行或刹停。
想象一个在城市道路上偶尔会遇到的cornercase:突然蹿出的小猫小狗,100%的绕行/刹停率,将会确保小动物和车上人员的安全,让用户感到安心。
类似这样的体验提升还可以列举出很多,人机共驾时代的智驾系统需要不断耐心打磨,但归根结底,技术提升是一切的基础。
自今年年初发布自动驾驶生成式大模型“DriveGPT雪湖·海若”以来,毫末在近200天里取得了以下进展:
在数据方面,截至目前,毫末已筛选出超过100亿帧互联网图片数据集,480万段包含人类驾驶行为的4D Clips,用于大模型的训练。

在感知算法上,毫末引入多模态大模型,可实现文本、图片、视频等多模态信息的整合,获得识别万物的能力。
在仿真与预测上,通过整合NeRF渲染技术,毫末实现了4D空间的重建,可针对三维空间和时序建模。
在认知、决策方面,毫末借助大语言模型(LLM)让自动驾驶具备世界知识,从而基于对物理世界、人类社会的常识优化驾驶策略。
毫末认为,未来的自动驾驶系统会像人类司机一样,不但具备对三维空间的精确感知,还能像人类一样理解万物之间的联系、事件发生的逻辑和背后的常识,从而做出更好的驾驶决策。
引入多模态大模型做感知、大语言模型做认知,是毫末对自动驾驶技术的新探索,值得业界关注。
二
毫末智行CEO顾维灏在活动中笑称,今年1月推出DriveGPT时,很多人的第一反应是毫末在蹭ChatGPT的热度。但深入了解之后才发现,生成式AI模型在自动驾驶领域有着巨大的潜力。
关于DriveGPT的由来和演进路线,顾维灏在本次AI Day上再一次作了阐述:
过去,我们通过多个小模型、以case驱动的开发模式来解决自动驾驶问题。这种模式基于任务的问题特征来采集和人工标注数据,完成解决该特定问题的小模型的训练,其弊端有二:一是存在“以问题为导向”的滞后性,二是“限定特定问题”导致的泛化性差,无法应对真实开放世界的无穷问题。
如今我们采用数据驱动的开发模式,其核心特征是大模型、大数据、大算力。在感知阶段,通过海量数据训练感知基础模型,学习并认识客观世界的各种物体;在认知阶段,则通过海量司机的驾驶行为数据和世界知识来训练认知基础模型,学习驾驶常识,通过数据驱动不断迭代、提升整个系统的能力。
下一阶段车端智驾系统的演进路线,一方面是逐步全链路模型化,另一方面是小模型逐渐统一到大模型内。云端大模型可通过剪枝、蒸馏等方式部署到车端,而在通讯环境好的场景下,大模型甚至可通过车云协同的方式实现远程控车。在最终阶段,车端、云端都将是端到端的自动驾驶大模型。

关于端到端、关于自动驾驶模型的架构,让我们先放下毫末,去看看特斯拉FSD在北美的进展。
特斯拉FSD的感知,经历了从单帧,到BEV,再到Occupancy Net的演进,本质上都是在做物理世界的数字映射。
单帧图片无法表达距离关系,所以将8个摄像头的图片融合成BEV。
但BEV只能表达二维的位置关系,无法表达障碍物的高度,于是有了Occupancy Net来表示空间中的每个体素(voxel)是否被占据。
然而在一些场景下,voxel是否被占据,仍不足以作为驾驶决策的依据——例如当车辆前方有一团浓雾,或一大片塑料袋,空间虽被占据,但车辆实际可以直接开过去。
于是在今年6月的CVPR上,特斯拉又分享了世界模型(World Model),它可以根据前几帧视频内容,预测出后面几帧的视频内容,包括每一帧里每个像素的RGB数值等,但是是否具备识别万物、理解万物背后的规律还有待考察,理论上讲,只要输入的数据足够多、算力足够大,模型就应该能学到这种能力。
参考大语言模型的特性,特斯拉将世界模型看作自动驾驶的基础模型(Foundation Model),这就类似于GPT作为大语言模型的基础模型。有了这个预训练的基础模型之后,用人类驾驶数据对其做微调,只要数据量不断增加、算力同步匹配,理论上就可以得到驾驶能力的“涌现”。
世界模型可以用于自动驾驶,也可以用于机器人等一切需要与物理世界进行交互的设备上,也可以用于仿真、数据生成等各类应用。
这便是为何,特斯拉声称2024年在超算基础设施Dojo上的投入将超过10亿美元。
世界模型提供了一种潜力:一个融合了物理世界规律、人类社会常识,并能够基于前序给定场景预测生成后续场景的端到端模型,是整个物理世界的模拟器,其给出的每一个移动物体的轨迹和速度、每一个静止物体的尺寸和位置,都完全符合现实规律。在此基础上,自动驾驶车辆做出的驾驶决策,将只是该模型输出结果的衍生品。
回到毫末的方案:
毫末的感知模块,也经历了与特斯拉相同的进化过程。但是,毫末认为仅以目前毫末收集到的数据规模、数据分布和数据质量,以及有限的算力资源,是无法训练出一个识别万物、具备常识的世界模型的。于是,毫末将多模态大模型引入感知、将大语言模型引入认知(决策规划),希望借助外部力量来用更低的成本达到这个目标,这是与特斯拉不同的尝试。
具体的做法是:
1.在感知阶段引入多模态大模型,让自动驾驶可以识别万物。这包括3个关键模块:4D编码器、多模态教师、NeRF渲染器。

4D编码器将视频中的时空特征编码到一个4D特征空间里;多模态教师是一个引自外部的、经过毫末自动驾驶数据微调(Finetune)过的多模态大模型,可将视觉特征对齐到文本语义特征;NeRF渲染器则通过预测未来视频的方式,监督4D特征空间对世界的感知和预测。
通过这种方法,毫末DriveGPT可实现在一个模型中同时学习到空间的三维几何结构、语义分割和纹理信息,具备识别万物的能力,由此可更好地完成目标检测、目标跟踪、深度预测的感知任务。
可以看到,经过上述三个步骤,最终实现的效果与特斯拉世界模型非常相似。
2.在认知阶段引入大语言模型(LLM),使自动驾驶能看懂驾驶环境、理解社会常识。

毫末认为,一个老司机不仅要会操纵汽车,还必须具备人类社会的常识、懂得这个世界的普遍规律,即世界知识。仅通过自动驾驶数据是无法学到这些知识的,但大语言模型已经学习并压缩了人类社会的全部知识,所以毫末引入大语言模型来辅助驾驶决策。
为了让引自外部的大语言模型更好地适配自动驾驶任务,毫末采用自身积累的自动驾驶数据,通过LoRA的方式对LLM做微调(Finetune),使其能看懂驾驶环境、能解释驾驶行为。这样,认知大模型除了获得来自感知大模型的物理世界信息之外,还能像人类司机一样具备世界知识,并基于这些知识衡量驾驶决策。
,时长01:48
为什么世界知识对驾驶任务至关重要?今年8月,美国旧金山,一辆Cruise旗下的Robotaxi陷入一片没有干透的水泥里动弹不得——正是因为Robotaxi的感知系统只识别到一段平坦路面,却不知道车在未干透的水泥里无法行驶。
现实世界中有无穷无尽的极端场景,需要具备“车辆无法在未干透的水泥里行驶”这样的社会常识,才能完成驾驶。
特斯拉打造世界模型,毫末引入多模态和大语言模型——在这些新的尝试背后,都是希望让自动驾驶像人类一样具备常识、懂得万物背后的规律。特斯拉与毫末都采用了端到端训练的方式,这样的模型尺寸巨大、成本高昂,毫末仅在云端实现了端到端自动驾驶,而车端依然是传统的分模块架构,即基于感知模块,再根据感知结果输出预测、规划、决策、控制的智能驾驶架构。特斯拉则宣称在车端也完成了端到端改造,FSD v12即是这一端到端自动驾驶架构的成果。
基于分模块架构的智驾系统,或许可以提供体验不断优化、接管率不断下降的城市NOA,但要追求更进一步的L4级自动驾驶,它或许并不是最终解决方案。
在这样的局面下,自动驾驶行业需要多样的探索,寻找新的可能性。
如果说特斯拉的世界模型是全球最领先的工程探索,毫末的方案则是中国厂商领先技术的代表。
三
毫末城市NOH的开发进度处于行业前列。从2022年至今,搭载毫末城市NOH的工程车辆,已在北京、上海、保定等城市做过多轮展示,预计到2024年Q1,该功能将在魏牌蓝山车型上交付到用户手里。
与此同时,2023年,其他一些头部厂商城市NOA的落地进度超出预期:
首先是企业的量产进度在急剧加速:小鹏城市NGP到2023年底要落地50城市;华为甚至宣称,ADS 2.0高阶智驾功能将于今年12月覆盖全国。
其次是用户对智驾的认知在急剧变化:今年新上市的小鹏G6、2024款小鹏G9,以及问界新M7等产品,智驾版的订单比例超过60%。
中国是全球智能驾驶竞争最激烈的市场。华为、理想、小鹏、蔚来都在全力推进城市NOA的开发和落地,并尽己所能地投入资源,用于扩大销量、部署云端算力、提升数据能力。
自研智能驾驶的投入究竟有多大?
根据埃隆·马斯克提供的数据,特斯拉在2023年7月至2024年底的约18个月里,仅投入到云端超算Dojo项目中的资金就超过10亿美元。
中国的厂商们要保持竞争力,未来2年的投入也要向这个标准看齐。
到2024年底,预计头部厂商的城市NOA都已全量交付,进入打磨和PK使用体验的阶段。到那个时候,无法交付城市NOA功能的车企,将无法在中国市场参与20万元以上的竞争。
到2025年,如果没有销售到用户手中的庞大车队收集数据、没有充足的资金投入云端基础设施,那么“从城市NOA到L4”的演化路径是走不通的。
极高的门槛决定了,只有少量几个玩家,能在那个时候仍然留在牌桌上参与这场自研智驾的竞争。
那些不具备自研智驾能力、无法承担巨额资金投入的车企,需要基于第三方提供的方案打造智驾产品——若终端销售无法走量,成本上很难有竞争力;而非自研带来的功能迭代、体验一致性等方面的考验,又从产品力层面阻碍销量的起飞。
这些都会使至今还以燃油车为主营、无法建立智能化自研能力的传统车企,处境更加艰难。
作为由长城汽车孵化的自动驾驶初创公司,毫末与长城的量产车型已达到20款以上,量产的规模优势有助于提升成本竞争力和数据的收集,是非自研车企不错的供应商选择。
但同时,极端且迅速演进的竞争环境下,在长城旗下中高端车型上量产的城市NOH,才是毫末竞争智驾头部玩家的关键战役。
量产进度加速冲刺,是当前毫末全员的工作主线。
总结
自2019年成立以来,毫末智行在自动驾驶算法架构、模型训练范式、数据闭环等技术领域保持在行业前沿。
面对未来2年的“大决战”,毫末的战略是坚持大模型、数据驱动的路线,最终用端到端自动驾驶模型,实现城市NOA及以上的智驾能力。
评论·0