业务合作发布作品

    2025大会上,理想汽车自动驾驶研发负责人揭开MindVLA神秘面纱

    在 NVIDIA GTC 2025 大会的聚光灯下,理想汽车自动驾驶技术研发负责人贾鹏揭开了 MindVLA 的神秘面纱。这款全栈自研的视觉-语言-行为大模型,不仅是技术的突破,它更像是通向未来的钥匙。MindVLA 正在努力让自动驾驶技术迈入所谓的 "iPhone 4 时刻",在三维空间编码、逻辑推理与扩散模型的深度融合下,重新定义人与机器的交互边界。

    图片来源于网络

    MindVLA 的核心技术,实际上是在对现实世界进行“双重建模”——它不仅能够精准还原三维场景的每个细节,还能预测未知视角的动态变化。换句话说,MindVLA 就像是为世界搭建了一座数字化的双向镜,它能够从多个维度对现实进行反向推演。借助自研的“重建 + 生成”云端统一世界模型,系统通过仿真环境的反复训练,使自动驾驶车辆能够在数字世界里完成高达90%的决策训练,而在真实世界中通过物理验证不断优化。

    图片来源于网络

    这种虚实交融的训练方式,让车辆能够快速获得类人的空间认知能力,像人类一样在复杂场景中做出反应。比如,车辆能够自动识别“前方路口左转”或“车库断头路倒车”等复杂情况,并进行三维语义解析。这种突破传统模块化架构的行为生成方式,可以让车辆在感知、思考、行动的闭环中自动生成行动指令,进而通过扩散模型优化出最佳的轨迹规划。

    图片来源于网络

    当系统理解了环境之后,车辆不仅能做出精准的决策,还能以惊人的速度响应。用户只需简单的一句指令:“找星巴克”,车辆便能自动规划路径、调整车速、并完成停车,速度比传统系统提高了300%。最令人惊叹的是,这种智能系统在处理复杂场景时的置信度高达98.7%。

    图片来源于网络

    理想汽车的 CEO 李想称 MindVLA 为“机器人大模型”,并指出它的革命性在于打破了空间、语言和行为这三大智能维度之间的界限。通过这种跨模态的互动,车辆不仅能理解环境,还能根据用户的需求进行自主导航。比如,当用户通过手机拍摄环境并发送接载指令时,系统可以自动匹配视觉特征点,无需预设路线,便能自主完成导航。

    在封闭园区测试中,搭载 MindVLA 的车辆已经在98.5%的场景中实现了零接管率。这意味着,车辆不仅具备了超强的自主决策能力,还能在多变的环境中展现出极高的可靠性。

    图片来源于网络

    MindVLA 的云端训练集群采用了第三代英伟达 DRIVE Thor 芯片,每秒可处理1200万亿次操作,保证了系统强大的计算能力。通过持续吸纳全球100万辆车的行驶数据,系统每月都会进行三次全量模型的迭代。这种数据驱动的进化模式,使得自动驾驶系统不仅能应对“施工路段绕行”或“临时交通管制”等长尾场景,还能展现出超越常规规则的决策智慧。

    更为惊人的是,内部预测显示,这一架构的成熟将使 L4 级自动驾驶的商业化落地提前18至24个月。这一变革将彻底改变我们对智能出行的认知,或许就如李想所说的,这将成为智能汽车时代的“寒武纪大爆发”。

    图片来源于网络

    站在 GTC 2025 的舞台,理想汽车带来的不仅是技术上的突破,更是一种未来出行的全新愿景。MindVLA 让车辆不仅仅是交通工具,它赋予了汽车类人的空间感知、语言理解以及行为生成的能力。未来的路,不再是我们预设的单一线路,而是由智能与感知共同织就的全新图景。

    次阅读
    评论
    赞同
    收藏
    分享
    评论
    赞同
    收藏
    分享

    评论·0

    头像头像
    提交评论
      加载中…

      热门资讯