业务合作发布作品

    端到端+VLM大模型到底是什么意思?

    电车室长头像电车室长头像
    电车室长2024-11-28

    刚刚在咖啡厅,遇到一个老乡是理想车友,问我端到端+VLM大模型到底是什么意思?
    我说,我如果口头上说的话你也很难理解,可以理解为一个机器人咖啡师:
    1.他最早只会打美式出来(规则行驶)
    2但后来他学会了做拿铁(无图NOA+先验信息)
    3.更牛逼的是后面他学会了各种水果味的气泡咖啡(你点单就行,他会自己选水果,不用预先验证)
    4.而到今天他竟然可以拉花了,他会自己设计拉花的图案出来(端到端),更牛逼的是他像人类有了个小脑(VLM模型),他拉花不会拉到杯子外面,也不会拉一些奇怪的图案。而且这个机器人的作品会拿去参加世界机器人咖啡比赛(理想的世界模型,云端辅助),系统会反馈给他说:这个咖啡温度如何,甜度怎么样,哪里要优化,拉花到底好不好看。
    这就是一个通俗的表达,倒推回技术逻辑也是一样的。
    1.最早的NOA,你可以想象成一个规则机器人。他要依赖先验信息,从传感器的感知,到车辆定位,规划,配合导航出来行驶轨迹。所以问题很明显,没有先验信息不行,另外就是计算流程更慢,这个机器人的体验肯定有落差。
    2.更新的版本里,机器人系统直接通过传感器+感知,配合导航后就可以出规划了。所以去除了先验信息,让整个泛化做得更好。
    3.升级到端到端后,就是一个有脑子的机器人,他有学习的能力,不需要再依靠规则来完成辅助驾驶。
    而且我们知道人的行动力是分系统1和系统2的,新手司机为什么开车手忙脚乱,就是系统1没训练好,但是系统2告诉他你该怎么做,反而乱了。
    而老司机就是系统1很熟练 了解规则和玩法,系统2也训练得很成熟能够去帮助系统1开好车。所以系统1是基础。
    在理想这里,系统1就是端到端,系统2就是VLM大模型,可以做视觉和文字识别的辅助工作。再有一个云端的训练和反馈,共同组成了今天理想智驾的成果。
    今天回过头来看理想智能驾驶夏季发布会,再加上自己手上L6MAX车型的实测,不得不说,理想汽车对自己的路径想得很清楚。现在没有启动智驾行程的品牌,或者说启动还没成效的,几乎很难追上这些头部的速度和领先度了。

    次阅读
    1评论
    赞同
    收藏
    分享
    1评论
    赞同
    收藏
    分享

    评论·0

    头像头像
    提交评论
      加载中…

      热门资讯