
大家好,厉叔的这篇文章主要阐述了,现在的汽车是如何处理特殊情况的
以前的自动驾驶总让人觉得有点笨,会因为一个远处的行人就突然急刹车,而现在的车,却能看懂旁边货车打转向灯的意图,甚至提前减速让行。
从只会死板地执行命令到学会主动预判,汽车到底发生了什么变化?

过不去的智能门槛
最早期的自动驾驶系统,在设计上把开车这件事给拆分成了好几个独立的步骤。
有一个模块专门负责看路,识别周围有什么东西,下一个模块专门负责猜测路上其他人或者车下一步会干什么。

再下一个模块负责规划自己的车要怎么开,最后一个模块就负责动手,去控制方向盘,油门和刹车。
这个流程听着清楚,但实际上路跑起来,问题就暴露无遗,最严重的问题,就是错误会在这些模块之间传递和放大。
举个例子,负责看路的第一个模块,可能在识别车道线的时候出现了10厘米的微小偏差,这个偏差本身不算大。
但当这个带有偏差的信息传到下一个负责规划路线的模块,它基于这个错误信息进行计算,偏差可能就被放大到了30厘米。

最后等到控制车辆的模块去执行这个指令时,车子实际偏离的位置可能已经多达50厘米,这就非常危险了。
每一个环节单独看,犯的错都不大,但连在一起,小问题就滚雪球一样变成了大问题。
另一个麻烦是信息在传递过程中会丢失,汽车的摄像头和雷达这些传感器,其实收集了特别丰富的原始数据。
但是为了让这些独立工作的模块能相互沟通,大量原始信息在中途被简化和抛弃了。
这导致系统做决策时,依据的信息从一开始就是不完整的,它的性能上限也就被牢牢地限制住了。
更让工程师头疼的,他们发现真实世界的路况太复杂了,根本不可能提前写好所有规则来应对所有突发情况。

为了解决这些难题,行业后来换了一个全新的思路,别分那么多步了,干脆合成一步来做。
正好当时神经网络技术发展很快,工程师们就想,能不能用一个功能强大的神经网络,直接把摄像头拍到的画面,一步到位地转换成方向盘该转多少度的指令。
在2016年,英伟达公司通过一篇论文证明了这个想法是可行的,他们成功地让车辆通过看图像来模仿人类驾驶。
这种端到端的方案,确实让车子变聪明了,但很快大家又发现了新的问题。
这个新方案的能力,完全取决于它训练时看过了多少数据,但现实世界里的路况组合几乎是无限的,这让整个行业陷入了另一个困境。

从过去写不完的规则变成了更难地喂不完的数据,就在这个时候,视觉变换器技术出现了。

作弊级的全局视野
这种技术从根本上改变了汽车看世界的方式,不再是孤立地看一个物体,而是把整个图像画面分解成很多小方块。
然后通过一种叫作自注意力机制的算法,去分析每一个小方块和画面里其他所有小方块的相互关系,这样一来,汽车就获得了对整个场景的全局理解能力。
拥有了这种全局视野,汽车就能把各种传感器信息整合起来,在内部建立一个完整的,上帝视角的周边环境地图。

它所感知的不再是零散的物体和像素点,而是一个动态的,各个元素间充满联系的真实世界。
但是光看懂还不够,它还需要学会像人一样去思考,才能真正从容地应对路上发生的各种事情。

为了让汽车学会思考,而不是只会记忆,行业想到的办法是引入大语言模。
这里的目的不只是为了让汽车能和你聊天,而是要利用语言背后强大的逻辑和知识体系,给汽车植入一个真正具备认知能力的系统。
为了实现这一切,系统会把来自视觉的图像,代表车况的数据还有人类的指令,全部转换成一种统一的,标准化的数据格式,叫作词源。
在这个统一的格式下,大语言模型可以综合处理所有输入的信息,然后对当前的环境和任务,建立起一个全面而统一的认知。
现在汽车不仅有了敏锐的眼睛,还有了一个会思考的大脑,它能观察,能推理,也能预判。

但最后一步,是如何把这些聪明的想法,转换成在道路上平稳,精准且让人安心地驾驶操作,这还需要解决另一个关键问题。

从想明白到开得好
当一台装备了大语言模型的智能汽车在内部完成了复杂的思考过程后,它最终输出的结果,是一系列包含了驾驶意图的行为词源。
这串数据更像是一个详细的行动计划,里面既包含了供机器精确执行的参数,比如和前方卡车的距离维持在35.2米。

当然,也包含了能让人类乘客理解的决策和理由,比如说因为侦测到前方拥堵,即将提前并入右侧车道。
这种做法,让汽车的行为变得非常透明,乘客不再需要紧张地猜测汽车下一步要干什么,因为系统会主动把它的想法告诉你。
这让人心里非常有数,信任感也就自然而然地建立起来了。

不过有了这份周全的行动计划之后,还需要一个高水平的执行者,把它完美地在现实中操作出来,这个执行者就是行为解码器。
早期的行为解码器,采用的是一种自回归的架构,它在执行时需要一个指令一个指令地生成,速度比较慢。

而且生成的动作之间缺乏连贯性,导致驾驶体验很差,经常有顿挫感,也就是大家常说的车开得不够平顺。
在瞬息万变的道路上,又慢又不平顺是很难让人接受,因此现在更先进的方案,比如理想汽车所采用的,是更为复杂的扩散模型来进行行为解码。
扩散模型的能力实现了巨大的飞跃,不再是一个一个地生成孤立的指令,而是可以一次性地,直接生成一整段连贯,平滑而且内部逻辑自洽的完整驾驶轨迹。
这项技术的优势在实际驾驶中表现得非常明显,使用扩散模型的系统,会生成一个一气呵成的完整动作,给人的感觉和一位经验丰富的人类司机几乎没有差别。
这些技术加在一起,带来了驾驶体验上的根本性改变。

汽车从一个只会执行答案的机器,进化成了一个能够思考的老司机,让乘坐体验从过去需要时刻保持警惕,变成了现在可以真正地放松和享受。

结语
从看得见到看得懂,再到开得好,智能汽车的进化核心,就是给它装上了一个会思考的大脑。
随着技术发展,它不仅能理解世界运行的规则,还能预判路面上其他人的行为,最终,这一切让驾驶体验变得更安全,也更让人心里有底了。
信源
经济日报2025-12-06「忠阳车评」增强智能网联汽车供需适配性
中国经营报2025-12-06智能网联汽车冲刺万亿赛道
渝公网安备50010502503425号
评论·0