打败你的不是对手,而是跨界!
TikTok也就是抖音团队发表了一篇论文《 无所不能》,其训练出的全方位 学习模型 ,只需单张照片帧即可进行LiDAR质量 估计。换句话说,只需拍摄一张照片,学习模型便能精准获取照片中物体的三维位置,比LiDAR技术还要出色。
毫无疑问,抖音的 学习模型打败了激光雷达。新的模型表明纯视觉方案是可行的,实现无人驾驶并不需要激光雷达。对特斯拉,以及国内的极越等纯视觉智驾车企来说,这无疑是巨大的利好。
自动驾驶在技术路径上,主要分为两派系。
多模态融合派主要是依靠激光雷达的回波反射,为车辆在行驶环境中提供静态和动态物体的识别数据,绝大多数自动驾驶公司均采用这一方案。“纯视觉派系”使用摄像头等被动探测设备,不发射任何探测信号,不依赖雷达回波感知外部世界。目前仅有特斯拉、极越两位玩家。其中特斯拉主要针对海外市场,极越主要针对国内。
两大派系的最大争议在于感知系统要不要使用激光雷达。
多模态融合派认为摄像头捕捉到的信息均为平面信息,无法获取物体的三维信息。激光雷达捕捉到的是点云信息,可以获取物体的三维信息。
纯视觉派系则认为只要具备完善的算法大模型,纯视觉方案也可以提供可靠的物体识别信息。目前纯视觉路径已经形成了BEV+Transformer为核心的技术体系。
需要特别强调的是,尽管多模态融合派系倡导激光雷达,但在感知算法中依旧采用了纯视觉派系的BEV+Transformer。激光雷达仅在部分极限场景时使用。从去年的发展来看,多模态融合派正在大幅砍掉激光雷达使用量,主流车型从此前的三颗激光雷达降低到现在的单科方案。
在国内的智驾车企中,仅有极越一家坚定走纯视觉路线。这主要是因为纯视觉方案有着更高的技术要求,非常考验车企的团队能力,以及算法能力和数据积累量。国内的新势力车企由于成立较早,并没有强大的算法团队,也就是专业的数学人才队伍。无人驾驶方面,新势力尚未实现,无法积累有效的可用数据。鲜少新势力直接上纯视觉。
另一方面,极越是由百度和吉利强强联合赋能。尤其是百度作为无人驾驶的全球顶级企业,在团队和算法以及数据积累方面,具备得天独厚的优势。
例如,在L4/L5级纯无人驾驶的数据积累和商业化运营中,截至2023年9月,百度Apollo L4自动驾驶安全运营测试里程累计已超7000万公里,百度萝卜快跑已经提供了累计400万次无人出租车服务。
由于百度已经实现了L4级自动驾驶,极越纯视觉方案可以轻车熟路,快速发展。这也使得极越并不需要在BEV+Transformer的算法架构中进行过多的停留,而是一步到位,直接引入OCC占用网络技术,形成完整高阶智驾体系,领先“BEV+Transformer”路线一代。
特别是OCC占用网络,作为“纯视觉”方案核心技术之一,OCC将空间划分为多个立体小方格,每个小方格被称为“体素”。当摄像头捕捉的图像连续不断的输入给OCC,OCC就会观察图像对应的空间,每个体素的状态是被占用还是自由。正如我们面前的电脑一样,我们可以用无数个小方格形成一个电脑,这样我们就不需要知道面前的到底是电脑还是木板,只需要知道它多大,能不能避开。
在极越CEO夏一平看来,占用网络上车的一个最主要初衷,就是替代激光雷达对目标的距离、位置关系等等感知能力。
根据极越发布的OCC演示视频,极越01对周围环境有着强大的感知能力,用3D体素清晰地展示了栏杆、绿植、路障等标准障碍物,同时还精准识别出了施工中的工程车、树木中的路灯等异形障碍物。
其中蓝色网格代表静态建筑物,如隔离带、施工围栏;橙色代表动态交通参与者,包括机动车、非机动车;还有紫色马路沿、绿色绿化带等。每一个网格约15厘米,感知质量非常高,识别也相当准确。
在算法优势的赋能下,极越01作为全球唯一一款依靠“纯视觉”感知算法,“全程0接管”跑通中国复杂城市道路的智能汽车,极越01在开启PPA状态下,可以在高速、高架中,完成自主变道超车、上下匝道、轻松避障等一系列智驾领航;在城市道路中,还能够实现精准识别斑马线、红绿灯,完成礼让行人、无保护左转、避让非机动车等能力。
值得一提的是,极越的高阶智驾并没由局限在高速和城市道路。极越01还能实现AVP代客泊车,支持最远距离为2公里,室内和室外停车场均可使用,且支持任意车位到停车场出入口的泊出泊入。在狭窄车位,用户还可以实现车外语音泊车。业界将这种融合行驶场景和泊车场景的智能驾驶称为“行泊”一体。
截至目前,极越高阶智驾的核心功能点到点领航辅助PPA已覆盖全国90%的高速高架,城市NOA已经北京、上海、杭州、深圳等四大主流城市实现落地,今年将覆盖全国200多个城市。
据夏一平透露,极越“纯视觉”方案端到端的训练以“周更”的速度快速迭代,并且随着交付量的快速攀升,还将让极越高阶智驾呈现指数级进化。
坦率的说,目前的高阶智驾方案绝大多数均是“纯视觉”方案的衍生。包括华为在内的融合感知派并没有摆脱对纯视觉“BEV+Transformer”架构的依赖,也没有硬件方面能去掉摄像头。反倒是引以为豪的激光雷达从四颗全向覆盖,砍到三颗,最后砍到单颗,象征性存在。也因此,在智驾行业中有一个十分有趣的说法,算法不灵,才上激光!
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )