
近日,中国电动汽车百人会论坛2025在北京召开。会上,卓驭提出了一种端到端世界模型架构,最底层为硬件平台,包括智驾控制器和不同类型传感器;在模型输入部分,卓驭通过Vision Enconder和若干Tokenizers来编码多模态数据,此外,模型还会编码用户的驾驶风格以及语音文本输入;模型的输出,则包含了周围环境的语义和几何理解,以及对未来多种可能性的生成。最终输出的驾驶轨迹,则是与用户风格偏好、语音指令对齐后的结果。
而对于端到端世界模型的训练,卓驭采用大模型典型的预训练+后训练的方式来进行,并且能够实现“硬件无关”的平台化训练。
此外,卓驭还首次分享了L3、L4级智能驾驶的规划,传感器配置从惯导三目升级为独有的激目系统,域控制器采用英伟达Thor芯片的期间算力平台,这不仅可以将L2++辅助驾驶体验提升到极致,也可以支持未来L3、L4智驾能力的落地。

卓驭科技AI首席技术官陈晓智博士在采访中,也和我们分享了卓驭对于智能驾驶发展的技术思考与未来发展。
以下为采访整理(在不改变原意的情况下有所删减)
Q:L3是否有落地时间表?
陈晓智:我们今年要做的事情是把L3、L4的硬件做出来,包括控制器、传感器,满足L3、L4冗余的架构要求,这个传感器除了视觉摄像头,还会增加激光雷达,控制器也会有主系统和备份系统的架构设计。
再下一步,才是软件功能的落地,我们认为还需要一段时间,今年的重点还是硬件预埋。我们认为整个行业也是这个趋势,先预埋L3、L4硬件,等到算法,包括安全、接管率、效率都提升上去后,再在一些特定场景将L3、L4释放出来。软件的落地时间可能还需要两到三年的维度。
Q:“全民智驾”和“智驾平权”的背景下,成本还会不会继续下探?
陈晓智:“全民智驾”其实一直和卓驭科技所倡导和推动的高阶智驾普及相契合,过去几年我们也一直在做这样的事情。比如2023年,我们将全国无图高速领航辅助驾驶下放到10万元出头的车型,2024年我们又把记忆城市领航下放到10万出头的车型,把高阶智驾功能下放到更低价位区间的产品是我们所擅长的。今年,我们也会和客户加深这方面的合作,帮助他们更轻松地标配这些智驾功能。
具体到成本方面,我们现在比较关心像城市领航功能的降本,比如目前用7V摄像头,加上32TOPS算力平台就可以跑城市领航,这和目前常见的需要激光雷达、几百算力平台有较大的成本压力不同,我们能支持更简单的硬件跑城市领航,下放到低价位区间车型会有一点的优势,对于客户来说推动标配也会更容易一些。
Q:“智驾平权”下,10万元和20万元甚至更贵的车,用户在体验上的感知区别是什么?
陈晓智:这其实取决于每个车企对于不同价位车型所设置的功能区别,但对于卓驭来说,我们对于不同价位方案的区分度,绝大部分场景能力要做到一致,只有在一些比较极端的工况会有区别。
类似于不同的车有的单电机,有的双电机,从开车的角度其实没有区别,你用单电机还是双电机都能完成开车驾驶这个任务,你可能只在一些特殊场景,比如说地面湿滑,容易打滑的场景,或者下雪天,双电机可能会好一点。或者追求极致运动,等红绿灯的时候,希望起步“嗖”的出去,可能会有这些区别,但是基本能力是没有差异的。
智驾也是做到类似这样的区别,大部分场景都有相同的安全性、舒适性、拟人性,只有在一些具体场景有区别。比如低成本方案,在一些狭窄的路段不能通过,就会告诉用户需要接管,它没能力通过,但是安全性、舒适性是不影响的。更高成本的方案,这样的场景可能就可以通过。
Q:具体像“丝滑绕行”、“驾驶预判”、“路口灵活通行”这些场景,高成本和低成本方案的解决方式有什么区别?
陈晓智:我们认为在常规场景下,不同成本方案的安全性、舒适性和拟人性可以做到非常接近,但必然会有个别场景存在差异,这个差异可能是高动态场景、需要精密操作的场景,比如说突然快速横穿一个外卖小哥的车,高成本方案可能会刹得更快一些,响应更快一些,而低成本方案可能会慢一点,当然肯定也刹得住。或者像非常复杂的人车混行,各种快速响应周围行人,与电动车的交互,这时候高成本方案的模型处理分辨率更大、算力更大,它还是会体现出更安心的感觉的。
Q:相比于特斯拉FSD,我们的优势是什么?
陈晓智:我们认为FSD的基础能力是非常强的,但是短板也很明显,对于中国路况,特别是遵守交规、走对路的方面做得还不够好,还需要时间去适应。
对于卓驭科技来说,其实并不会与FSD有直接竞争关系,它是主机厂,我们是供应商,我们可以帮助国内OEM,为它们提供与FSD竞争的智驾能力,同时我们在国内的数据以及适配的进展会更好一些。
今年,我们在技术上还会升级到端到端的世界模型,在功能体验上会有更大的升级,不仅能够提供基础的安全舒适的智驾体验,还能做到千人千面的风格,通过自然语言控制车辆行为,这可能是包括FSD在内,其他智驾车型看不到的。

Q:如何做到千人千面和动态调节?是怎么实现的?
陈晓智:千人千面的智驾能力,背后的技术关键在于我们研发的端到端世界模型,它与传统端到端的区别在于,传统端到端是基于模仿学习,从大量的驾驶员数据中学习他的行为,但因为你的数据里面各种风格的司机都有,你学出来的风格就是一个平均的司机,没有区分度,所以很难做到千人千面,并且它的推理过程也是基于直觉式的端到端,就是看到一个传感器输入就做一个驾驶动作,它是直觉式的一次性动作的预测。
而为了做到千人千面,其实要有一些推理能力,并且要区分不同的风格。而世界模型的特点就是有推理能力,而不是直觉式的,它可以生成未来可能发生的N中情况,类似于N个平行宇宙,这里面可能有非预期的,有一些不符合用户驾驶意图的,可能需要一个推理过程结合用户意图选择最有可能的驾驶轨迹,大概是这样一个思路。
在数据量方面,这更多是算法上的创新,引入强化学习之后,长尾数据的积累,数据甚至还会减少。因为模仿学习,你要模仿一些极端场景行为,你得采集这个场景的数据,有一些场景的数据又是很难覆盖的,而强化学习可以通过仿真手段生成这种场景,从而降低数据采集的要求。
Q:DeepSeek开源对于AI领域有怎样的影响?卓驭科技会如何运用?
陈晓智:对于自动驾驶来说,DeepSeek的作用和原有的大模型区别不大,目前它主要还是自然语言的能力,多模态能力可能也比较常见,并没有特别突出。对自动驾驶的应用更多是技术上对我们会有一些启发,比如它引入强化学习,以及通过整个训练系统的优化,在训练的成本上控制得很好。但如果直接用这个模型到车上去跑,其实是不太行的,所以更多是借鉴它的技术和能力。
Q:卓驭科技之前提出过智驾硬件可以“插拔更换”,现在鸿蒙智行与赛力斯也建立了专门的改装站,尝试智驾硬件的升级,卓驭科技未来会不会将这个概念正式落地为产品?
陈晓智:这个我们已经落地了,比如在传感器不变的情况下,同样是7V摄像头,可以通过更换算力芯片,从32TOPS提升为100TOPS算力,功能体验可以进一步提升。这样的方案我们可以做到“Pin to Pin”更换,或者整车替换都可以,别的传感器和接插件都不需要改变,这个我们已经给客户提供了,预计今年上半年就会在一些车上有相应的升级。
Q:不同车厂目前在激光雷达的搭载态度上有所分化,如何评价?卓驭科技在激光雷达应用上的规划是怎样的?
陈晓智:卓驭科技对这个问题的观点是一贯的,我们认为激光雷达的作用是提供冗余安全性。不同车企的不同观点,不管是标配激光雷达还是减少激光雷达,我们认为他完全是对于智驾系统本身的考量,因为他最终是要卖车,装不装激光雷达要考虑整车的成本、定位,甚至是市场营销的需求。
从技术角度来看,激光雷达主要就是冗余安全性。没有激光雷达不影响基础能力,像特斯拉FSD已经进入到国内,我们体验后也发现它的基础能力非常强,这里的基础能力是指安全性、舒适性、拟人性,它没有激光雷达但是也可以做到很好,所以有没有激光雷达不影响开车的是否是老司机,或者是否安全。
但如果你要应对一些极端场景,比如说夜晚的逆光大灯,遇到了一个静止的黑衣人,这的确是视觉弱势的场景,加上激光雷达肯定是有价值的,对于L3、L4确实要考虑比较极端的场景。所以这是一个综合的考量。
Q:很多主机厂选择了自研+供应商合作的技术模式,供应商的角色从单纯的方案交付这转变到技术赋能者的地位,您认为供应商和车企的协作模式未来会发生怎样结构性的变化?哪些环节有深化合作的可能性?
陈晓智:首先,卓驭科技作为供应商,我们给客户提供的合作方式本身就是非常灵活的,我们在硬件、软件、算法各个层面都可以提供相应的合作。比如有的客户想要一个交钥匙方案,软硬件都给它,我们可以做到整套方案的交付;有的客户可能自己做硬件,或者在第三方采购硬件,我们也可以只提供软件算法;甚至有的客户用自研团队,希望我们赋能,提供工具链,或者部分的算法,我们也是可以提供的。
至于自研,其实本身是有一定的挑战的,未来不同车企的字眼占多大比重可能还是要看持续的产品迭代能做到什么程度。
Q:有人说VLM可能只能做到L2+,做L3或L4需要做VLA大模型,您如何看自动驾驶终极解决方案的讨论?
陈晓智:我们无论是VLM还是VLA,与是否L3、L4没有必然关系,L3、L4与L2是安全责任的区别,谁来承担事故责任,并不是功能的区别,L3、L4就是你的接管率要足够好,MPI要高,比人类司机高几个量级,你选用什么技术只影响你的接管率,而即是接管率很低了,也不代表你就一定能做到L3、L4,它更多是一个安全责任,驾驶员不监管,就意味着系统必须还有另外一个备份系统代替驾驶员监管。
Q:电动化时代,续航是有泡沫的,但从严重的续航焦虑到现在大家已经讨论不多,大概用了10年的时间。智驾行业也存在这样的情况,在您看来这个“挤泡沫”的过程会是怎样的?
陈晓智:我理解您说的“泡沫”可能是指比如过度宣传导致消费者的一些使用误区。
如果从技术发展角度来讲,认知的普及是一个必然要经历的过程。比如高速领航,两年前可能很多人不敢用,不愿意用,但现在使用率越来越高了,并且越来越好用,这需要一个过程。而城区的智驾,目前的确还没有达到成熟,所以也会经历一个像高速智驾一样的普及过程,但现在还有一定的距离,可能还需要两年的时间。
Q:中国汽车出海已经成为一个热门话题,从技术角度看,出海是否会有一些挑战?
陈晓智:我们目前主要做的是欧洲的海外适配,这方面更多的挑战并不是技术性的,技术其实相对简单,我们的算法模型在国内场景训练之后到国外场景的泛化性比想象中要更好,比如国内做到100泛化,海外工况可以做到80,甚至更多一些,不太会有适配性的问题。主要是针对一些长尾的场景或者当地一些特殊的场景,比如标识牌、特殊交规等等做相应适配就可以了。更多的挑战可能主要在于数据的采集,还有相应的路测,要符合当地的法规要求,当然我们也有对应的合规方案去做海外适配。
评论·0