
2022年12月,OpenAI推出了ChatGPT,之后一年时间里,文心一言、kimi AI、豆包、星火等AI产品也陆续推出,被认为是AI对话产品的元年。
但似乎AI真正“出圈”成为全民讨论对象,还是要等到DeepSeek。
有人总结DeepSeek能够超越众多“竞品”,甚至将AI这个话题带入到普通大众的视野中,有三个主要原因:性能出色、训练成本相对较低、开源。
这其实和汽车领域智能驾驶的发展路径颇为相似,在技术积淀和发展多年之后,“全民智驾”一词在2025年开年被点燃。
当DeepSeek成为众多车企争相拥抱的对象时,智能驾驶的“DeepSeek时刻”还要多久?
商汤绝影的答案,是很快了。
2月22日,商汤大模型生产力论坛,商汤绝影CEO,商汤科技联合创始人、首席科学家发布了行业首个“与世界模型协同交互的端到端自动驾驶路线R-UniAD”。
商汤绝影说,R-UniAD将加速智驾跨越式演进,“跨越式”的自信源自哪里?
王晓刚在采访中和我们分享了一段人工智能发展的历程:“过去一年,大模型行业的发展实际遇到了一些瓶颈,这个瓶颈主要在于互联网的数据价值被榨干。通过原来尺度定律,在它的指引通过扩大模型的规模以及增加单纯的算力,大家得到的收益相对来说是比较有限的。DeepSeek的出现,通过引入强化学习长思维链,其实解决了数据瓶颈,造出了很多人类知识之外的数据,甚至超越了人类的一些认知水平。”
而R-UniAD和DeepSeek的技术创新思路一致——从模仿学习向强化学习升级,通过对端到端模型的强化学习训练,实现超越,而不是“类人”的自动驾驶表现。
DeepSeek对自动驾驶的启发
首先解释一下什么是模仿学习和强化学习。
所谓模仿学习,就像是用一本字帖(人类示范数据)教小朋友写字,他照着字帖一笔一划模仿(算法学习),最终小朋友可以写出相似的字,但其实并不知道为何要这样写。
而强化学习,像小朋友玩超级玛丽,一开始可能不懂规则,但随机尝试后会发现吃到金币可以得分,碰到乌龟会扣分,一遍遍试错后,就会找到吃最多金币的通关路线。也就是说,通过强化学习,机器可以通过环境反馈的奖励/惩罚,自主摸索最优策略并不断提升。
其实你会发现,DeepSeek的创新其实和人类的学习路径非常相似,先通过模仿、观察掌握基础,再加入自己的理解、经验、创意实现自我突破。

将这套理论放到自动驾驶系统中,其实就是让机器从“模仿人类开车”到“自主学习开车”。
现在我们经常可以听到车企宣传其端到端智驾“x千万clips大模型”上车,背后是端到端自动驾驶的本质,即通过海量的高质量人类驾驶数据来实现最佳的“模仿”驾驶效果。
但“模仿”就会带来一些问题。
首先,基于模仿学习的技术范式可以做到接近人类,但难以突破人类能力的上限;其次,高质量场景数据的稀缺以及人类驾驶数据质量的参差,让触及“天花板”本身的难度和成本都会很高。
如果说激光雷达这样的硬件,或许随着规模化效应和制造能力的提升,门槛有机会逐渐降低,王晓刚说:“决战的分水岭,还是在云端的能力。”
DeepSeek-R1的关键创新,就是通过强化学习使得大模型性能的提升不必只依靠扩大算力规模和增加模型参数,而是通过自行涌现长思维链能力,以更小的数据规模获得更强的推理效果。
自动驾驶的学习训练若能复制DeepSeek模式,就意味着车企对于算力基建和数据规模的需求将大幅降低,从而降低自动驾驶的成本,提高训练效率。
更重要的是,在体验上,这种技术路线可以实现端到端智驾体验的上限从“类人”变成超越人类驾驶。
王晓刚解释了这套系统如何更好利用数据,他说:“我们通过强化学习,更好地挖掘了数据的价值,甚至是产生了一些额外的数据。”
比如,在复杂交通场景下,端到端的处理是依赖人类驾驶行为的学习,但人类司机面对复杂场景时,可能会解决,但更多可能是直接避免。这使得哪怕系统采集了复杂场景数据,但90%以上的驾驶行为数据并没有成功解决场景,只有很少量的司机行为数据才能符合要求。
但在强化学习模式下,给定这个复杂场景后,系统可以通过模拟仿真反复试验,最终不仅能够顺利通过,甚至还能发现多条不同的驾驶行为和路径来解决问题。“在这个场景里,它对于数据的利用率可能就是10倍、100倍的提升。”王晓刚说。
在此之前,“高质量驾驶行为”需要一个非常熟练的老司机来完成,但如今,系统看到复杂场景的图片或是一小段视频,就可以以此为起点,通过强化学习完成后面的工作。
降本、效率和量产落地
商汤绝影预计在年底交付量产端到端智驾方案,而在4月的上海车展,也会展示“与世界模型协同交互的端到端自动驾驶方案”的实车部署。
当“全民智驾”已经成为2025年的市场营销关键词时,意味着相比于技术本身,无论是自动驾驶公司还是主机厂,都要将技术落地到产品,并且是一个“物美价廉”的产品。而一旦谈及量产落地,就意味着技术、体验、成本的“妥协”与平衡。
在智能驾驶领域,一方面是车端算力有限,量产车需要考虑算力成本、能耗、体积甚至是发热的工程问题;另一方面,是从硬件到软件的成本与体验的平衡。
强化学习可以突破数据的瓶颈,相比于从量产车数据中提取有效数据,依托世界模型的模拟仿真可以提升效率,降低对基建的要求。
这也是商汤绝影作为一家AI公司,在这个时代的机遇和优势。
“如今激光雷达对于各种环境并不是一个非常鲁棒的状态,所以很多时候我们要达到性能和成本的平衡点,对于降低成本、提高鲁棒性都有进一步的要求,那么大数据驱动其实是未来的必然。”王晓刚说。

首先,商汤绝影R-UniAD的“多阶段强化学习”端到端自动驾驶技术路线包括了三个阶段:
1、依靠冷启动数据通过模仿学习进行云端的端到端自动驾驶大模型训练;
2、基于强化学习,让云端的端到端大模型与世界模型协同交互,持续提升端到端模型的性能;
3、云端大模型通过高效蒸馏的方式,实现高性能端到端自动驾驶小模型的车端部署。
而这其中关键的第二步,要求大模型与依靠世界模型生成的仿真环境进行在线交互,并获得闭环奖励反馈,从而实现强化学习。因此,生成高保真的场景数据、保证长时推演一致性、并支持在线交互的强大世界模型是核心基石。
商汤绝影的“开悟”世界模型,可以实现1个GPU产生的仿真数据相当于500台量产车数据采集效果。以此为核心,实车数据和云端仿真数据在“车云一体”的新范式下闭环流转,可以使端到端智驾系统的训练更加全面、高效,从而缩短研发周期,降低成本。

此外,芯片上部署类似于DeepSeek的MOE架构(混合专家模型),可以在更低算力、成本的芯片上更好地运营大模型,因为它每次只需要激活部分参数,使用部分算力,会比传统模型更加节省。
它类似于医疗会诊,不同科室专家分别给出诊断意见,再由协调员综合意见形成最终结论。在深度学习中,MOE可以在每次推理中仅激活部分专家,大幅降低计算量,同时不同专家专注于处理不同任务。对应到汽车自动驾驶领域,就是可以适应多模态数据的处理和融合,同时降低对车端芯片算力的要求。
我们可以借用特斯拉FSD在中国市场落地的表现作为参考。
马斯克此前曾表示,特斯拉使用了互联网上公开的中国道路和标志视频,将其用于模拟训练。事实上,特斯拉官方并未明确说明其如何解决FSD在中国落地背后的数据、算力跨境合规问题,而结合首批用户体验与马斯克的表述,似乎特斯拉仍然受限于数据问题,并且影响了FSD的能力。

而如果使用商汤绝影R-UniAD技术路线,特斯拉可以在美国大算力基础与中国丰富本土行车数据无法兼顾的情况下,通过不依赖大算力的仿真训练,实现FSD的体验提升。
“我觉得未来的发展趋势一定是基础设施和云端研发占比越来越高,如今我们看到的各种数据蒸馏、工程优化方法的存在,使得我们将来在越来越多的更加便宜的低算力芯片上,可以实现更强大的功能。”王晓刚说。
大公司视点
“人工智能技术的发展并不像之前大家想象的,到了‘端到端’以后就到了终局,它还是在持续发展,这就给了我们作为人工智能公司的一个更大发展空间。其次,即便有了强化学习的世界模型,数据本身依然非常重要,而我们与车企合作共建数据基础设施,也可以更好地发挥优势。”王晓刚说。
“全民智驾”的落地,其实也意味着淘汰赛的真正开始,有人拿到越来越多定点,但同样也有人消失在了历史的进程当中。
对于商汤绝影来说,一方面跟上节奏,布局地平线J6E、J6M,与广汽、奇瑞、东风达成了战略合作,很快会推出基于J6M的量产产品。另一方面看到核心优势与长期方向,通过在基础设施领域与车企的合作,帮助车企建设数据生产管线、对齐研发体系,同时结合车企自身拥有的丰富数据,实现双赢。
评论·0