业务合作发布作品

    特斯拉FSD还是“纯视觉”吗?

    建约车评头像建约车评头像
    建约车评2023-02-28

    在自动驾驶世界里,特斯拉的一举一动都备受关注。


    Hardware4.0上车在即,网络上几乎每天都有新的消息和谍照曝出。


    特斯拉将在HW4.0上对感知硬件做哪些调整?这一问题的揭晓,将在很大程度上为业界提供“自动驾驶最基础硬件配置”的指引。


    在“实现自动驾驶需要什么样的感知硬件”这个问题上,多年以来,Elon Musk的立场都是:用纯视觉——人类行,汽车也行。


    过去两年,特斯拉也在不遗余力地移除车上的毫米波雷达、超声波雷达等测距传感器,践行纯视觉路线。


    2021年5月,特斯拉宣布移除北美市场Model 3/Y上的毫米波雷达,将依靠由摄像头和深度神经网络组成的「Tesla Vision」实现FSD、Autopilot和主动安全功能。2022年2月,销往欧洲的Model 3/Y也去掉了毫米波雷达。


    2022年10月,特斯拉又开始移除Model 3/Y上的超声波雷达,通过使用基于视觉的Occupancy Network(占用网络),实现比超声波雷达更精准的空间定位、更远的探测距离,以及识别并区分障碍物的能力,解决泊车、智能召唤等场景的需求。


    进入2023年,随着最新批次的Model S(图片|配置|询价)/X也去掉了超声波雷达,特斯拉向“纯视觉”的演进似乎就要大功告成。


    然而,推特上的知名黑客“绿神”(Greentheonly) 曝出的信息,确认了特斯拉将在HW4.0套件中重新加入一颗代号“Pheonix”的毫米波雷达。


    这番“一边做减法一边做加法”的操作让很多人不解。特斯拉的纯视觉路线出现回撤了吗?



    永别了,超声波雷达


    首先,笔者认为,超声波雷达不会再装回特斯拉汽车了。


    去年10月,当特斯拉宣布不再使用超声波雷达时,对其表示质疑的人们主要有两个观点。


    一是认为,超声波雷达成本低廉、测距效果稳定,即使特斯拉的视觉能力达到了取而代之的水平,也犯不着拿掉它们,而应留作感知冗余。


    关于超声波雷达的成本,美国拆车大师Sandy Munro频道的Mike Lane介绍称,特斯拉搭载的每个超声波雷达价格约为8美元,加上线束、支架、连接器等关联成本,砍掉12颗超声波雷达将为每辆车节省114美元。



    以年销100万辆的规模计算,这意味着每年超1亿美元的成本下降。


    从汽车成本管理的角度,在不损失产品功能/体验的前提下,莫说单车成本下降100美元——哪怕是10美元、5美元,都是值得且必须采取的行动。


    如果特斯拉有信心依靠摄像头实现与超声波雷达相当(甚或更强)的感知效果,砍是一定要砍掉的。


    另一种声音是从技术角度,认为超声波雷达是不可替代的。


    一方面,由于特斯拉车身上没有安装环视摄像头、无法形成360影像,若再将前后保险杠上的各6颗超声波雷达也拿掉,泊车场景的距离探测能力将会受限,存在安全风险。



    另一方面,由于特斯拉的前视摄像头位于风挡上端,车头保险杠前面约3英尺长、1英尺高的区域是视觉感知的盲区。即使可通过在视觉算法中加入时序信息,实现在车辆行进过程中的盲区检测,但当车辆从静置状态启动时,倘若车前恰好有低矮障碍物、小动物或儿童,摄像头还是无法检测到。



    对于前一个问题,马斯克早在2020年10月就曾表示,FSD将通过视觉算法,实现向量空间中的鸟瞰影像(效果类同于360影像)



    到了2022年,特斯拉鸟瞰影像在中控屏上的显示效果是这样的:



    在去掉超声波雷达之前,特斯拉已通过装有激光雷达、短距角雷达的测试车,对Occupancy Network的近距离感知结果进行了长时间的标定。正式宣布抛弃超声波,意味着视觉识别的效果已得到充分测试验证。


    去年11月2日,“绿神”发现在特斯拉2022.40.4版本更新中,不包含超声波雷达的测距代码已经出现在后台车机。但在当时,购买了未搭载超声波雷达车辆的北美用户纷纷留言表示,自己的车辆尚不具备近距离障碍的测距功能。


    到了今年1月底和2月初,来自美国和波兰的网友发布的视频,分别证实了绿神的发现:无论是未搭载超声波雷达,还是超声波雷达接口被断开的车辆,中控屏上都已开始显示以英寸或厘米计的距离信息。




    特斯拉在FSD Beta研发过程中,通过Occupancy Network生成车辆周围环境的体素空间(Voxel Space),并在这一空间中识别障碍物、定义可行驶区域。


    与毫米波、超声波、激光雷达等可以直接输出距离信息的传感器不同,摄像头对距离的识别非常依赖算法。但无论算法的成熟度如何,距离越近,摄像头在判断距离时,误差总是小于远距时的判断的。


    因此,在数据驱动下,随着Occupancy Network的成熟,当其对近距离障碍物的识别性能超过超声波时,特斯拉没有理由继续保留主要在低速、近距离场景发挥作用的超声波雷达。


    此外,从近日曝出的新款Model X的照片来看,位于翼子板的侧后视摄像头,角度比旧版更偏向侧面,这也将更利于车身侧面近距离目标的识别。



    对于盲区问题,就特斯拉HW3.0的8颗摄像头布置而言,似乎还没有很好的解决方案——尽管通过调取汽车里程计的数据并与时序信息对齐,可在车辆行进中“借助前一秒看见的路面信息预测下一秒的路面信息”,但仍无法解决极端情况下(车辆停放后起步)的绝对盲区,需要驾驶员用人眼检查并手动行驶一段距离后再启动FSD。


    但此次HW4.0的硬件调整,或许是解决盲区问题的机会——若“绿神”的猜测被证实,特斯拉HW4.0新增的3路摄像头,将会布设在前、后保险杠,从而消除视觉盲区。


    回顾特斯拉和超声波雷达的缘分,以泊车辅助功能为例:


    在最初,特斯拉泊车完全依靠超声波雷达,由于没有视觉感知,甚至看不到车位线,且需要左右两侧都停有车辆(或墙壁)时才能自动泊入。到后来,特斯拉将摄像头融入泊车功能,才实现了基于车位线识别的泊入能力。


    从初时的弱不禁风、需要其他传感器帮持,到逐渐成熟上位——可以看出,自研视觉能力才是特斯拉自动驾驶的“真命天子”。


    尽管HW4.0的摄像头布置仍待揭晓,但无论如何布置,随着数据积累和算法迭代,Tesla Vision实现的效果将会让超声波雷达再无出头之日。



    毫米波雷达“浴火重生”?


    毫米波雷达的情况完全不同,我们可以通过两条主线来观察特斯拉与毫米波雷达的故事。


    一是特斯拉抛弃毫米波雷达的过程。


    从2014年10月开始,特斯拉就在Hardware1.0上搭载了由博世提供的毫米波雷达(后于2017年切换为大陆的ARS 450)


    2016年9月,特斯拉官方博客发布一篇题为《Upgrading Autopilot: Seeing the World in Radar》的文章,热情阐述了其8.0版软件更新如何通过算法提高了毫米波雷达在Autopilot感知中的权重,从而使车辆在行驶中更安全。


    然而,同样在那个9月,据《纽约时报》报道,Elon Musk在一次电话会议上回复分析师提问时,承认毫米波雷达在识别目标物时面临挑战:


    “雷达眼中的世界看上去很奇怪……由于金属对雷达波反射力更强,它检测到的金属物会比实际更大;而木头和塑料在它眼中几乎是透明的……雷达会造成误报(False Positives),从而导致误刹车。”


    很显然,Elon Musk对毫米波的效果并不满意,但圄于其时远未成熟的视觉能力,才不得不使用毫米波雷达。


    但从第一性原理考虑:地球上唯一能完成驾驶任务的是人脑,而人类在驾驶时接收到的绝大部分有用信息来自视觉。摄像头是最接近视觉的传感器、能够获得最丰富的语义信息,因此Elon Musk认为,解决自动驾驶的问题本质上是打造模仿人脑工作的“硅基大脑”。


    2021年4月,在正式移除毫米波雷达之前,Elon Musk在推特上写道:


    “传感器的本质是比特流,而摄像头比特/秒的信息含量要比毫米波雷达和激光雷达高出几个数量级。雷达必须显著提升比特/秒的信噪比,才值得被集成到车上。”


    尽管Elon Musk花了几年的时间、在多个不同场合阐述了去掉毫米波雷达的合理性,但在特斯拉正式移除雷达后,美国《消费者报告》、美国高速公路安全保险协会(IIHS)、美国高速公路安全管理局(NHTSA)等机构纷纷调低了对特斯拉车型的安全评级,引起广泛关注。


    当然,在相关车型完成补测后,上述机构的评级又纷纷调了回来,但公众对这个消息的关注就远没有那么热情了。


    2021年6月,Elon Musk对美国媒体Electrek再次谈到毫米波雷达:


    “使用纯视觉的安全系数已经高于视觉+雷达,因为视觉的效果已变得非常好,而加上雷达反而会降低信噪比。”


    他又补充说:“一个分辨率非常高的雷达会比纯视觉更好,但这样的雷达还不存在。我是说,视觉+高分辨率的雷达,会比纯视觉更好。”


    这样的表达,表明特斯拉并没有对毫米波雷达关上大门。


    特斯拉当然不会对毫米波雷达关闭大门,因为特斯拉一直在开发更高性能的毫米波雷达——这也是我们的另一条故事线。


    早在2016年10月,特斯拉就开始了毫米波雷达的自研,彼时负责人是前德尔福雷达系统工程师Duc Vu。


    2018年1月,Duc Vu离开特斯拉加入Argo ai,雷达项目转由统筹Autopilot所有传感器硬件的Kedar Shirali负责,此后的进展并不顺利。


    到了2020年10月,“绿神”曝出特斯拉自研的毫米波雷达代号为“Phoenix”。


    由于以色列毫米波雷达初创公司Arbe Robotics的旗舰产品也叫Phoenix,很多人猜测特斯拉采用的正是Arbe的产品,或至少是由Arbe提供技术支持。


    然而,根据Teslarati汇总美国联邦通信委员会(FCC)的登记信息,特斯拉的Phoenix雷达,尺寸与Arbe的Phoenix雷达并不相同。




    总之,不论特斯拉是否与Arbe合作,或是恰巧与Arbe的产品撞名,或是用“凤凰”一词隐示毫米波“浴火重生”后再归来——不久后HW4.0的面世就将揭晓答案。


    可以确定的是,特斯拉的Phoenix将是一颗4D成像雷达,其与传统毫米波雷达(可理解为3D雷达)最大的区别是分辨率更高,并在距离、方位、速度之外,新增了第四维的高度信息。


    在经历了漫长、曲折的自研之路后,特斯拉HW4.0上的Phoenix成像雷达值得我们期待一下,因为它将为视觉提供强大的性能提升(特别是在极端天气环境下的高速测距和测速能力)——即使摄像头换成了500万像素也仍然成立。


    过去两周,在HW4.0和4D毫米波雷达的消息曝出后,即使在中国,与4D成像雷达相关的企业和股票都不免火了一把。


    值得注意的是,在中国智能电动车厂商当中,理想汽车从L系列开始,将毫米波雷达的数量从5颗减到了1颗,与特斯拉的选择相似。此外,根据供应商森思泰克宣布的消息,在不久前上市的理想L7上,已经搭载了4D成像雷达。


    一股4D成像雷达上车的热潮,已经扑面而来。



    视觉才是基础


    对于自动驾驶,“纯视觉”究竟意味着什么?


    我们可以试着从前特斯拉视觉总监Andrej Karpathy的表述中找寻答案。


    2022年10月,Karpathy在Lex Fridman访谈中再一次系统地表述过他对纯视觉 vs 多传感器融合的看法:


    • 人类建造的世界(包括公路)是基于视觉打造的,因此要实现自动驾驶,视觉是必要的。

    • 视觉是最大带宽、最大信息量的传感器,如果投入全部的资源建立一个基于视觉的数据引擎,进步的潜力是巨大的。

    • 要新增一种传感器,你必须非常非常确信它是必要的,因为它会带来熵增、带来新的需解决的问题,且每一种传感器都意味着一整套供应链,要分散原本可集中于视觉的资源和专注力。

    • 既然视觉是必要条件,要回答的问题只剩下:视觉是不是充分条件?Karpathy认为是的。


    Elon Musk的看法也大体相同。


    在2020年评论特斯拉申请的一项《用图像数据估算目标属性》的专利时,Elon Musk称:“通过纯视觉精确地计算距离是基础,其他传感器可提供帮助,但它们不是基础。”



    写到这里,笔者可以得出的结论是,特斯拉并没有在毫米波雷达的问题上出现反复,而是在知行合一地尝试用纯视觉实现自动驾驶。


    这是为何,特斯拉通过Occupancy Network实现了类似激光雷达的功能。


    这也是为何,特斯拉的摄像头数据不再经过ISP处理,而是基于光子计数(Photon Count)进行感知处理,以期提升暗光环境下的视觉能力,并获得更丰富的原始光学信息。


    截至目前,人类仍没能解决L4级自动驾驶的难题,因此也没人能准确地预测,“纯视觉”是不是解开这道难题的充分必要条件。


    但通过以上这些试图甩掉其他传感器的尝试,特斯拉的自动驾驶团队打磨出了全球最前沿的计算机视觉能力。


    若去询问同样奋斗在这道难题面前的理想、蔚来、小鹏、毫末、华为的团队,几乎没有哪个从业者会不认可“视觉才是自动驾驶感知的基础”这一判断。


    4D成像雷达、激光雷达能够带来更强的测距能力和分辨率,从而提供冗余感知、提高安全性,但再多的传感器也无法带来自动驾驶。



    结语


    特斯拉是否在“纯视觉”中加入雷达并不重要,它带来的启示或许是:


    自动驾驶感知的真正目的是理解语义,而不是获得深度(景深)信息。


    视觉神经网络的进化由数据驱动,而激光雷达、毫米波雷达、超声波雷达等传感器虽探测性能稳定,但难以随着数据的增加而迭代进步。


    对使用更高性能的工具保持开放,并始终聚焦于最基础的东西。




    次阅读
    1评论
    赞同
    收藏
    分享

    评论·0

    头像头像
    提交评论
      加载中…

      热门资讯