VLA是视觉语言动作模型(Vision-Language-Action Model),融合了视觉语言模型VLM的感知能力和端到端E2E的决策能力,更引入了“思维链”,具备全局上下文理解与类人推理能力,从“功能时代”迈向“体验时代”,是未来两年内改写智驾市场格局的胜负手。

对于自动驾驶来说,VLA 从传感器数据中提取环境信息,借助语言模型理解人类指令并生成可解释的决策过程,最后将多模态信息转化为具体的驾驶操作指令。相比传统的VLM/端到端方案,VLA解决了应对突发不力的短视性、缺乏信任的解释力以及应对复杂场景的全局性问题,这将有力推动城区NOA的渗透率提升,头部车企的智驾体验会被显著拉开差距。

VLA技术的落地有三要素——技术积累、数据规模、算力支持,天然有利于头部先发优势的再扩大。但凡高阶智驾车型为车企积累了海量驾驶数据,基本都能为VLA的训练和优化打下坚实基础。而高性能芯片的量产上车,又为云端训练和本地化部署提供强大的算力保障。这可能会让中小玩家的后发赶超变得更加困难,毕竟部署高性能芯片和VLA模型的长期性投入已经非常高了。

大家觉得,最早一批部署VLA智驾的玩家会有是些车企呢?
评论·0