端到端+VLM大模型到底是什么意思？

刚刚在咖啡厅，遇到一个老乡是理想车友，问我端到端+VLM大模型到底是什么意思？
我说，我如果口头上说的话你也很难理解，可以理解为一个机器人咖啡师：
1.他最早只会打美式出来（规则行驶）
2但后来他学会了做拿铁（无图NOA+先验信息）
3.更牛逼的是后面他学会了各种水果味的气泡咖啡（你点单就行，他会自己选水果，不用预先验证）
4.而到今天他竟然可以拉花了，他会自己设计拉花的图案出来（端到端），更牛逼的是他像人类有了个小脑（VLM模型），他拉花不会拉到杯子外面，也不会拉一些奇怪的图案。而且这个机器人的作品会拿去参加世界机器人咖啡比赛（理想的世界模型，云端辅助），系统会反馈给他说：这个咖啡温度如何，甜度怎么样，哪里要优化，拉花到底好不好看。
这就是一个通俗的表达，倒推回技术逻辑也是一样的。
1.最早的NOA，你可以想象成一个规则机器人。他要依赖先验信息，从传感器的感知，到车辆定位，规划，配合导航出来行驶轨迹。所以问题很明显，没有先验信息不行，另外就是计算流程更慢，这个机器人的体验肯定有落差。
2.更新的版本里，机器人系统直接通过传感器+感知，配合导航后就可以出规划了。所以去除了先验信息，让整个泛化做得更好。
3.升级到端到端后，就是一个有脑子的机器人，他有学习的能力，不需要再依靠规则来完成辅助驾驶。
而且我们知道人的行动力是分系统1和系统2的，新手司机为什么开车手忙脚乱，就是系统1没训练好，但是系统2告诉他你该怎么做，反而乱了。
而老司机就是系统1很熟练了解规则和玩法，系统2也训练得很成熟能够去帮助系统1开好车。所以系统1是基础。
在理想这里，系统1就是端到端，系统2就是VLM大模型，可以做视觉和文字识别的辅助工作。再有一个云端的训练和反馈，共同组成了今天理想智驾的成果。
今天回过头来看理想智能驾驶夏季发布会，再加上自己手上L6MAX车型的实测，不得不说，理想汽车对自己的路径想得很清楚。现在没有启动智驾行程的品牌，或者说启动还没成效的，几乎很难追上这些头部的速度和领先度了。

端到端+VLM大模型到底是什么意思？

评论·0

热门资讯