业务合作发布作品

    元戎启行周光:智驾最终拼的是 AI 技术,不只是规模丨具身智能对话

    晚点LatePost头像晚点LatePost头像
    晚点LatePost4天前

    先有一个移动能力的 “通才”,才有更强的智驾系统。


    张家豪

    编辑程曼祺


    全无人驾驶,始终被视作自动驾驶行业皇冠上的明珠,就像登顶珠穆朗玛峰有 19 条路线一样,不同的公司选择了不同的路线通往无人驾驶的最终目标。


    Waymo、小马们选择了基于高精地图的 RoboTaxi 路线,在特定的路线已经实现了 RoboTaxi,为市民提供没有司机的出行服务;以特斯拉为代表的车企与供应商,则是通过渐进式路线,卖车搭配辅助驾驶方案,收集数据一步步迭代方案,试图逼近技术极限。


    没有人能笃定哪条路线一定能成功登顶,也还有不同的公司,在尝试不同的登顶路线。


    在今年的英伟达 GTC( GPU Technology Conference)上,元戎启行周光提出了一套新的解法,他说,大语言模型的发展,经历了从弱专家模型(初代 Siri)、到通才(ChatGPT)、再到强专家模型(垂直模型)的过程。智驾也可以复制这样的路线,一个移动能力的通才,能开好汽车、能骑好摩托车、能让配送小车随时找到你,之后就可能进化到强专家模型——L5 级别自动驾驶,这套系统被元戎启行称为 RoadAGI,移动能力的通才系统。


    在演示 Demo 中,一辆快递小车除了可以在公开道路行驶外,还能在园区行驶、找到商店、避让行人,进入写字楼后,小车还能找到电梯,自己进出。周光说,如果没有这套通才系统,元戎可能也实现不了 L5。


    过去几年,智驾供应商市场经过了几轮技术范式迭代。


    从 Transformer 到 BEV,再到端到端,辅助驾驶技术范式的迭代过去主要由特斯拉引领,特斯拉做出来,同行按照既定路线投入研发资源、攻坚。


    特斯拉不再公布技术路线和细节后,技术路线出现了分歧。当路线不再确定时,除了考验研发能力与工程能力外,也开始考验技术判断。


    周光说,元戎启行是行业里少数做技术判断的公司。从最早提出前融合(感知阶段就提前融合激光雷达、摄像头等数据),到无高精地图、端到端,元戎启行每次都是最早拥抱新技术范式的公司。截至目前,元戎也是国内三家量产上车城市 NOA 的智驾供应商之一(另外两家是华为、Momenta)。


    今年以来,自动驾驶行业竞争持续升级。一季度,特斯拉 FSD 正式进入了中国市场,一条更大的鲶鱼。周光说,中国 FSD 还不是完全体,不认识中国的路,但也没法忽视它强大的基础能力;与此同时,比亚迪、吉利等车企打响了智驾的普及战,把智驾的门槛拉低到 10 万元以下车型。


    行业现状是,真正有能力自研、还在持续自研的车企越来越少,大量车企最终还是选择了与智驾供应商合作;但与此同时,智驾供应商也经历了一轮洗牌,若干二线供应商被淘汰出局。


    活下来的供应商一方面要继续迭代技术,另外也要提升交付能力,服务更多客户。周光说,元戎启行的目标就是实现 L5、再下一步是物理世界的通用 AI,“一定要往 AI 走,而不是一味追求规模。你能抓住这个机会一定是你的 AI 能力足够好,不只是你的规模足够大。”


    大模型和智驾的相同进化:初级专才→通才→高级专才


    晚点:你们最近在 GTC 和百人会上都在提一个新概念 “RoadAGI”,简单来说就是给所有移动物体都提供一套不基于高精地图的自动驾驶能力,比如摩托车、快递小车、移动机器人等等。为什么此刻要提出 RoadAGI?希望通过它实现什么?


    周光:其实更准确说产品是 RoadBrain,RoadAGI 是战略,是个更吸引眼球的说法。


    我之前在 GTC 上分享过大模型的进化路线,最早它是比较初级的专家系统,比如初代 Siri,到 ChatGPT 出来后它变成了一个通才,但它最初是一个大专水平的通才。这之后,随着在推理、数学等垂直能力上的强化,它变成了一个博士级的专才。再下一步是博士级通才。


    类比到自动驾驶,如果我们定义 L5 级自动驾驶是开车和移动这件事上的 “博士级专家”,L2 是弱专家,那中间一定有一个 “通才” 的阶段,我们现在要做的 RoadBrain 就是一个具备移动通才能力的这个中间阶段。


    元戎启行认为智驾系统也会像大语言模型一样,经过从初级专才到通才,再到高级专才的迭代过程。


    如果这个通才模型能在自行车、摩托车等不同移动终端上都做到 1000 公里接管一次,这个系统再回去开车,就有可能做到 10 万公里接管一次。而只靠在车上来突破,硬突破是突破不了的。


    晚点:所以你认为如果我们想把一个车的智驾大模型做好,不光需要车的数据,也需要人走路的数据、自行车的数据、快递车的数据。


    周光:对,不同终端的数据会丰富你的知识,会让你懂更多,模型都不用变,只是需要不同的数据。我觉得做单一的场景,理解是有限的,你一个小孩如果每天都宅在家里不出去,哪怕你是爱因斯坦的智商,你对物理世界、通用知识的理解也不会很高。


    晚点:你们已经有一些小规模实验的结果了吗?仅靠类比大语言模型,似乎不足以验证这个思路能行得通。


    周光:我在去年 3 月份就在想这个事,纠结了很久,下半年开始做,我做了一些思想实验。我们要等到模型具备通用架构,我们最近的模型就是这样的,它不能是过去那种专家系统,那是没法迁移的。


    晚点:你最近也提到过,你们的下一代车端智能驾驶方案会是一个统一的、数据驱动的大模型,大模型和 RoadBrain 就是一回事吗?它和现在大家提的端到端的关系又是什么?


    周光:不是一回事,端到端是说感知决策是一个模型,我们说的大模型,更多是指它是符合大语言模型的工艺和流程,以前的端到端更多的是传统工艺。大模型不一定是参数量非常大,你要部署到车上也不可能弄那么大。


    晚点:为什么现在要来做这件事?你们的同行现在的焦点都是拿下更多订单、服务更多客户。


    周光:不冲突,我们也在服务客户。而且,如果没有这个通用能力,我认为我们也做不出车上更进阶的能力。


    我们也不会花太多精力去做 RoadBrain,如果这件事需要我们花特别多精力、还做得特别痛苦,那我们一定是走在错误的道路上。


    晚点:你们在提出 RoadBrain 的同时,也发布了一个配送机器人的 demo,这是为了展示技术,还是你们也会进入移动机器人市场,把它当做一个新业务。如果要成为一个新业务,怎么分配投入精力?


    周光:现阶段更多是展示技术,不会是一个业务,所以也不太牵涉精力、资源分配问题。还是刚才说的,我认为实现 L5 需要其它的交通工具共同提供数据,先是通才再是专家。


    晚点:从什么开始有了这个想法的?之后怎么推进的?


    周光:大概是 2023 年 3、4 月份,我在白板上画算法的结构,当时我们做的事就是端到端、无图,看怎么把模块越变越少,到最后我发现,下一步就是只有一个模块了。前融合少了一个模块,无图少了几个模块,端到端比之前又少了几个模块,只有一个模块,这就是 single model,当时我就豁然开朗了。


    晚点:当时有这个思考,是元戎本来的智驾方案遇到了什么瓶颈吗?


    周光:我当时的感觉是 L5 太难了,要做到百万公里一次事故太难了。但其他 AI 场景,比如大模型十句话里就有一句错的,也有这么大商业化的价值。当时我就在想,我们这个移动的通用能力,如果放在其他场景,早就商业化了。


    另外就是这套算法是可以迁移的,如果是以前的算法网络,你做一个新的场景,比如汽车到自行车,那少说得两三百人,但现在没有了。总之,我当时就觉得这个是应该做的。


    晚点:你想做 RoadBrain 的出发点是觉得 L5 太难了,换言之,你想实现 L5,也认为 L5 可以实现?Waymo 前 CEO 约翰·科拉菲克(John Krfcik)之前说过 L5 遥不可及,普及还要几十年时间。


    周光:那肯定想实现,任何一个做智驾的人都想实现 L5。我觉得 AI 的皇冠就是把人类复杂、繁琐的工作去掉,我觉得这就是 AI 的最终答案。


    做量产就是掉一层皮


    晚点:从最早的前融合、到无高精地图、再到端到端、VLA,元戎是少数一直都在采用新技术范式的公司,你们也是目前行业里少数在推进 VLA 模型(视觉-语言-动作模型)的智驾公司。相比较端到端,在做 VLA 智驾的公司就更少了,你觉得行业对于 VLA 行业是有共识的吗?


    周光:没有共识,我也不希望有共识,我巴不得大家都还继续去搞高精地图,对于我们来说,只要技术能做到断代领先,那商业机会多的是,马上就能洗牌。技术判断是我们的优势,现在我们现在工程能力也上来了,能接得住。


    当时我们无图做出来以后,好几家车企找到我们,都给了车,但我们工程上接不下来,如果那时候有更强的工程能力,这些机会就都拿了。我们第一次量产没有工程经验,你如果都同时做就炸了,一个都做不出来。


    晚点:那你们后来是怎么提升工程能力的?


    周光:做量产就是掉层皮。你必须要有体系能力,以前我们完全没有,做完第一个量产项目后你就能建立体系了,有了体系才能规模化,才能迭代。比如我们现在接一个项目 30 人,之后再接项目可能只要 10 个人,那你就能同时接好几个项目,继续迭代。如果你工程能力上来了,技术能做到断代,那订单能全抢完。


    我们有一个合伙人是专门管这个的,他带着我们总结了很多工程化的经验。能活到现在的智驾公司肯定都有自己的强项,我们也向同行去学习。


    晚点:在智驾供应商这个行业里,技术能力和工程能力哪个更重要?


    周光:都很重要,缺一个都活不下来,我们意识到工程重要就补工程的课,有些公司是补技术。工程补课很痛苦,但工程是你只要挨打了就一定会长记性,但是补技术就不一定了。两个难度不一样,但是都同样重要。有的公司是技术强,有的公司是工程强,各有各的活法。


    晚点:你们现在量产的车型有多少台?这个数量够你们收集数据、迭代吗?车数量的多少,会是接下来竞争的关键吗?


    周光:我们现在是 4 万多台,说少也不少,说多也不算多。有的供应商定点多,但是车本身卖得不好,我们车型少,但是卖得还可以,今年我们能做到 20 万台。


    数量上,我觉得在一个数量级之内没有区别,几万跟十几万没有本质区别,可能到 100 万会有区别,数量级要取 log(对数函数),你可以认为 10 万跟 100 万的差距是 1 倍,而不是大家想的 10 倍。今年也没人能做到 200 万台,50 万顶天了。


    晚点:一个老生常谈的问题是,你们跟车企合作,他们是很愿意跟你们提供用来迭代模型的数据是吗?


    周光:这东西都是相互帮忙的,你不给我你也好不了,你给我是共赢,我能迭代,你也能有更好的效果,卖得更好。


    抓住 L5 的机会:一定要往 AI 走


    晚点:特斯拉 FSD 最近进中国了,你肯定在中国和美国都已经试过了,你怎么评价 FSD 当前的水平?


    周光:我觉得 FSD 在美国非常强,领先一代。中国目前智驾的水平也就是在 FSD V12 这个阶段,跟 V13 差了一代。FSD 在中国,像是一个美国的好司机第一次在中国开车,他不知道中国的法律法规,不知道各种各样的场景,但是车跟车之间的交互、博弈,FSD 还是非常强。


    这也确实能说明,他们真的没有在中国训练。


    晚点:可以描述一下你体验 V13 相比 V12 最大的提升是什么吗?


    周光:就是让你完全没有接管意愿,它预判了你的预判。现在很多智驾你说是没接管,但其实一路都想接管,只是你忍住了。V13 在美国真的可以做到让你没有接管意愿,它跟 Waymo 的差距明显缩小。Waymo 还是更好一点,毕竟它是开卷考试。


    晚点:特斯拉 FSD 进中国之后,你觉得它会给市场带来什么影响?会让车企更迫切地需要高阶智驾方案吗?


    周光:现在车企都是防守型的,我们特别需要有人去进攻。总会有人跑得更快,当时我们是第一个做出无图方案的,所有车企都是知道的,但是当时没有无图方案的车卖得很好,所以车企也不着急,都是防守心态。


    后来华为是第一个交出无图方案的车的,卖得特别好,所以我说华为是点燃中国智驾之火的公司。


    我现在特别希望理想能做到断代领先(理想也在推进 VLA 技术方案),那就又是一波技术洗牌,车企肯定就又慌了,我们就有更多的机会。


    晚点:你觉得智驾到了终局有差异化吗?还是同质化严重?之前地平线余凯表达过一个观点,就是智驾长期来看没有什么差异化,只有好和更好,不像车本身有五花八门的需求。


    周光:智驾到终局就是一个司机,消费者要做的就是评价这个司机适不适合自己,有的人喜欢开快车,有些人喜欢开得平缓一点。最终可能确实没有太多差异化,但是目前离这个阶段还有点远,现在的智驾还谈不上真正好用。


    晚点:前几年行业对自动驾驶供应商最大的质疑是,车企如果自研,就不会有供应商的市场空间。但近几年实际情况是,真正能自研自动驾驶的车企其实非常少,大量车企还是依靠供应商的。你觉得为什么车企自研智驾这么难?


    周光:互联网科技公司离 AI 公司是相对更近的,新势力、特斯拉这都算科技公司,在人才储备方面有很大优势。


    晚点:智驾供应商,上游都是英伟达、高通这样的大公司,下游是车企,也是大公司,你们都是在夹缝中求生存,上下游有可能挤压你们的利润和议价空间。有什么可能改变这种情况吗?


    周光:我们希望 L5 早点到来,到时候整个商业模式都不一样了。特斯拉现在进展很快,如果它能 3 年内跑通,那整个行业都变了,对我们是非常大的利好,对滴滴也是非常大的利好。


    我觉得 L5 五年之内实现的概率不低,尤其是大模型这一套方法出来之后。


    晚点:那你们怎么抓住这个机会?


    周光:一定要往 AI 走,而不是一味追求规模,你能抓住这个机会一定是你的 AI 能力足够好,而不是你的规模足够大。


    “做成物理 AGI,我这辈子就不算一事无成了”


    晚点:你参与的上一家创业公司 RoadStar 到最后是失败了,公司内部有一些风波,你们几个联创到最后还有一些矛盾。你觉得你之前那些经历,给你带来最大的改变是什么?


    周光:最大的改变就是做决定之前要做全面的评估,我们做技术判断都是很准的,但是在其他事情上的判断太草率了,这可能也是 Roadstar 当时出问题的一个原因。


    晚点:你从 Roadstar 出来以后,一开始就想好要重新创业吗?你经历过第一次失败,为什么投资人还愿意投你呢?


    周光:当时我们车子的表现非常好,我说如果我们技术不行,那失败了我能接受,但当时我们技术是很牛的,因为这个原因失败了,那我无法接受,必须重新搞,兄弟们都不能接受。就好比你玩游戏前边打得都挺好,最后因为踩了个香蕉皮摔死了,这谁能接受?


    当时所有研发兄弟全部都是 “成建制” 跟过来的,兄弟们知道这个东西怎么做出来的,我带着大家做出来,他们也信任我。


    晚点:我们了解到,雷军曾经想投 Roadstar,后来他见了你们没投的原因是,你们三个联创股权太平均,遇到事情不知道谁来拍板。现在元戎你是最核心的人了,这段经历给你的启示是什么?


    周光:我觉得你干这一行,一定要舍得跟大家分享,我特别希望我们公司的人比我更出名、比我更厉害,但是你想让这样的人来,那你一定要把足够的利益让出去,同时公司的控制权要留在手里。


    晚点:所以元戎创业最开始股权、期权池这些都是设计好的吗?


    周光:对,让公司核心的人拿很多股权,但他们可以把投票权给你,你能控制公司,也让厉害的人有足够的回报,这个股权结构很关键。


    晚点:这个过程里你觉得最艰难、最沮丧的是什么时候?


    周光:最艰难的就是一开始没融到太多钱,发了这个月工资就没有下个月的了。我们一开始融的都是小钱,直到阿里投完了,我们才敢去做更难的事。


    晚点:你第一次创业时是首席科学家,现在是 CEO。你怎么适应这样的角色转换?你需要更多考虑的是什么?


    周光:CEO 最重要的事就是融资、商业机会,现在我比较少去考虑具体的技术了,更多是做技术路线判断。


    晚点:怎么保证自己做技术判断的正确率?


    周光:没有能力保证,我也不知道怎么能保证,只能说 “you are what you eat”,保证你身边团队的人才质量,还有我自己 Network 的质量。


    晚点:之前一个报道里提到,你在清华本科的时候一直玩游戏,去了美国留学才开始重新努力。


    周光:我在清华的时候就大一好好学习,刚去的时候压力还是很大的,觉得身边都是什么竞赛金牌、状元,但是相处时间长了也觉得就那么回事,我就开始打游戏了,那时候基本上就是天天玩,从早玩到晚,中午去吃个饭,课也不上,考试前一天看一下,考个 80 分,也挺好。


    晚点:那你从什么时候开始投入到学习中的?为什么一下子发愤图强了?是去参加同学会受刺激了吗?


    周光:那差不多 14、15 年时,当时我其实不去同学聚会,没脸去。我就是突然觉得,我都快 30 了,不会这辈子一事无成吧?


    这之后就开始更系统性地钻研 AI,然后去刷了个大疆的榜(周光在得克萨斯大学期间与团队在 2015 年获得大疆创新开发者大赛冠军),拿了第一名。


    晚点:做到什么,对你来说就不算一事无成了?你长期想做的事情是什么?


    周光:刚创业的时候是想实现 L5,后来 GPT 出来以后,我们觉得实现物理的通用人工智能会是一个更大的成就。


    晚点:你的这个评价标准里,没有说一定要把公司做到多大、变成一家什么样的公司。


    周光:能让跟我一起拼的兄弟们在财务上有好的回报,这肯定也是我的目标。但是达成了这个目标之后,更重要的就是去实现通用物理 AI。


    题图来源:元戎启行 CEO 周光在中国电动汽车百人会论坛上演讲。

    次阅读
    评论
    赞同
    收藏
    分享
    评论
    赞同
    收藏
    分享

    评论·0

    头像头像
    提交评论
      加载中…

      热门资讯