从机器视觉到数据智能,特斯拉、毫末智行们所发现自动驾驶的技术通路

摘要

2013 年,麦肯锡选出了 12 项决定未来经济发展的颠覆性技术,无人驾驶技术就是其中之一。

2013 年,麦肯锡选出了 12 项决定未来经济发展的颠覆性技术,无人驾驶技术就是其中之一。

严格来说,无人驾驶技术是一种技术簇的集合,融合了人工智能、认知科学、自动控制、传感器等多领域的技术成果,是最先进的数字信息技术的综合体,也被称为人工智能皇冠上的明珠。

自动驾驶技术所能带来的产业机遇和经济价值也同样难以想象,人类社会的出行方式,物流运输,交通设置,城市规划乃至社会服务方式都将被重塑。存在于科幻片中的机器人世界也会因为自动驾驶的实现而走进现实。

在欢欣鼓舞之余,我们对自动驾驶始终存在着一丝疑虑和担忧,那就是作为承载人们生命安全的出行技术,到底能不能真正走向成熟落地,来到寻常百姓间。

由微知著。除了泛泛谈论自动驾驶实现的可能性之外,不如回到自动驾驶技术的发展源流当中,对自动驾驶技术脉络有一次详细的梳理,从而理解今天自动驾驶正在迈向的技术阶段和挑战。

实际上,从上世纪 50 年代,自动驾驶的概念就已经诞生。但是和今天通行的自动驾驶技术框架诞生在上世纪 80 年代,而让今天自动驾驶技术大放异彩的技术雏形则是出现在 2005 年左右的美国 DARPA 第二届无人驾驶挑战赛上,其标志性事件就是 AI 技术应用到无人驾驶当中。

2009 年以后,自动驾驶正式确立多传感器+算力+自动驾驶算法的技术方案框架,并伴随着谷歌 Waymo 无人车与特斯拉 AP 和 FSD 的先后落地,以及中国自动驾驶企业和新造车开头投入自动驾驶,以算力为基础,大模型算法与量产数据驱动的技术路线成为趋势。

DARPA+CMU:自动驾驶的「开路先锋」

自动驾驶,顾名思义,就是车辆具有自主感知、判断和决策行驶的能力。而最早一台可以称为「无人驾驶汽车」的原型车是 1958 年美国 RCA 通过在道路上预埋线圈的方式来指导车辆的速度、方向和加减速。可以说,这台无人驾驶车辆只是形式上实现了「无人驾驶」,但是它既不是自主也不智能。

真正称得上无人驾驶汽车的里程碑是 1983 年由美国国防部先进研究项目局(DARPA)支持,卡耐基梅隆大学(CMU)研发的一台笨重的卡车。

(1984 年,DARPA 与美国陆军合作,发起 ALV 计划)

这辆车首次利用了激光雷达、计算机视觉及自动控制技术完成对周边环境的感知,并据此做出决策,自动控制车辆,在特定道路环境下最高时速可达 31km/h。其最为重要的意义就是确立了自动驾驶的技术框架:感知、决策和控制。

但是在人工智能技术应用到自动驾驶之前,在复杂环境中的视觉感知问题就成为一个极具挑战性的问题。一台汽车如何看见世界,又如何理解世界?对于当时的技术来说,一切都太初级了。

时间来到 2004 年,DARPA 以 100 万美元作为冠军奖金,率先面向社会举办了第一届自动驾驶技术大赛,不过由于第一届 15 支队伍的车载软硬件过于粗糙,当年没有一支参赛队伍能够完成比赛。

值得一提的是,第一届里行驶里程最远的参赛队伍在开赛前几个月便来到比赛场地,将摄影得到的图像信息转为代码,并通过雷达与摄像头进行感知后,将采集到的数据交由电脑进行处理。这几乎与当下主流的自动驾驶路线非常一致了。

(DARPA 自动驾驶大赛中的参赛车辆)

DARPA 在 2005 年举办了第二届自动驾驶大赛,这不仅使得参赛队伍的数量暴增,也成功吸引到了众多科技界厂商与算法专家的的参与。2005 年 DARPA 挑战赛也成为自动驾驶发展的一个临界点,有 5 辆无人驾驶汽车采用了 AI 识别系统,成功通过了路况恶劣的沙漠赛道。其中,斯坦福大学获得了第一名,因其率先使用了机器学习这一 AI 技术来处理道路图像,而 CMU 的一台名为 H1ghlander 的车辆成功完成对一辆人类驾驶车辆进行了超车。

这一阶段,自动驾驶技术所包括的传感器、摄像头、计算机与感知算法开始得到确立,成为此后各家自动驾驶技术发展的标准范式。

接下来进入到了第二阶段,也就是早期自动驾驶先行者的技术积累阶段。

Waymo 与 Tesla:「分道扬镳」Or「殊途同归」

DARPA 吹响了自动驾驶行业发展的号角,而第一个发起冲锋的就是谷歌。

2009 年,谷歌将 DARPA 后两次大赛中获胜车队的技术人员组织起来,成立了 Project Chauffeur 项目,正式进入了自动驾驶领域。

2015 年,谷歌当时还是自动驾驶项目负责人 Chris Urmson 在 TED 演讲中戏谑地称道:辅助驾驶想要通过不断迭代达到完全自动驾驶水平,就如同「相信自己努力练习跳跃,终有一天就可以飞起来」一样。

是的。这一时期的谷歌选定了直达 L4 的无人驾驶的技术路线。而在自动驾驶产品架构上,谷歌,也就是此后的 Waymo,则采用了「高精地图+激光雷达+摄像头」的传感器路线,丰富的传感器配合谷歌在地图领域的积累,让 Waymo 的无人车在加州和凤凰城的道路上出尽了风头。

(搭载谷歌 Waymo 自动驾驶技术的路试车辆)

Waymo 之后,同样为大众熟悉的特斯拉的 Autopilot 辅助驾驶系统。早期的特斯拉同样适用摄像头+传感器的方案,但坚决不采用激光雷达这类「又丑又贵」的设备。如今,更是激进到只采用纯视觉方案来实现自动驾驶。

与 Waymo 试图「一步到位」的发展路线不同,特斯拉遵循 L2 至 L4 渐进式策略,借助其量产车优势,特斯拉 FSD 获得了海量的驾驶数据,使其高阶自动驾驶系统 FSD 的能力得以大幅提升。可以说,这两点是 Waymo 和 Tesla 主要的「分道扬镳」之处。

但具体到自动驾驶算法层面,两家又有着「殊途同归」的一面。

算法方面,谷歌 Waymo 采用 AutoML 神经网络架构,这一架构并不是固定的,会以准确性与推理成本为依据进行筛选测试,并以此结果为基础进行数据收集、标注、评估、验证、测试及部署,再进行不断的更新与迭代。

(特斯拉 AI DAY 演示的 HydraNet 架构)

对比 Waymo,特斯拉对于视觉算法有更深入的应用,其为每一个摄像头都配备了多任务学习神经网络架构 HydraNets,首先利用 RegNet 残差网络和 BiFPN 算法模型统一处理,得出不同精度下的各类型图像特征,然后再使用 Transformer 深度神经网络完成跨时间的图像融合,实现基于 2D 图像形成具有 3D 信息的输出,这使其敢于抛弃传感器,仅依靠摄像头感知并搭建真实世界。

显而易见,谷歌 Waymo 多传感器方案对复杂环境的兼容性更好,但量产能力与数据获取成本影响了其深度学习与进化速度;而特斯拉则能够依靠庞大的量产车队获得海量的数据,并且强大的算法优势也弥补了没有激光雷达的感知数据对场景搭建的影响,但在应对复杂环境时依然存在实践上不足。我们会发现早期出现一些因车主开启 Autopilot 功能时,因识别准确问题又接管不及时导致交通事故的问题。

(特斯拉于 AI DAY 上发布的 AI 训练芯片 D1)

此外,特斯拉与谷歌都非常重视自动驾驶的深度学习算法的能力,但除了终端 HW4.0 芯片外,特斯拉还准备了云端 Dojo 超算系统以提升算力,以保证 Transformer 与海量数据的高效融合,这使得特斯拉的前景变得更令人期待。在马斯克看来,特斯拉已经是一家计算公式,软件公司,也是一家机器人公司。自动驾驶正是让特斯拉具有这种「凡尔赛」底气的原因。

谷歌与特斯拉的对比让我们认清了自动驾驶技术的发展趋势,在算力性能已经达到阶段性平稳发展期的环境下,由量产能力决定的数据获取量与算法性能决定的 AI 大模型训练已经成为自动驾驶领域的竞争关键。

「蔚小理」与「毫末们」:免走弯路的后起之秀

如果说自动驾驶行业是一片尚待开发的红海,那么 Waymo 与特斯拉 FSD 的成功则无疑成为自动驾驶企业可以参照的风向标——在此启发下,国内也出现了参照 Waymo 模式的 Apollo、AutoX、小马智行等,也有参照特斯拉模式的蔚小理等新造车。而以「车企+自动驾驶团队」为模式的毫末智行则成为当前阶段非常具有代表性的一家。

单从自动驾驶的技术演进来说,大规模正是的路测数据成为各家跨越自动驾驶「最后一公里」的终极屏障。

在奔向无人驾驶终极「圣杯」的两条路线上,我们也在看到,走一步到位的玩家们尽管正在雄心勃勃地推出其自动驾驶出行产品,但仍然面临着量产规模有限,路测数据不足,适应环境有限的增长问题。

反观以辅助驾驶起步,逐步解决限定场景的自动驾驶的渐进式玩家们,因其可规模量产的商业模式和大量的真实道路数据,使其辅助驾驶的迭代速度正在加速,显示出非常强劲的态势。

作为一家拥有长城这样百万级产销量规模背景的自动驾驶公司,毫末智行无疑成为国内成立最晚,但进步最快,将辅助驾驶产品最快上车,成为当前自动驾驶阶段最值得关注的初创企业。

在对自动驾驶技术发展的判断中,毫末智行的顾维灏同样将自动驾驶技术发展的核心锁定在了数据。他认为,数据是人工智能最大的驱动力,也是这个进步过程中最大的成本,自动驾驶产品的完善是个漫长的进化过程,就像是智人在漫长的历史过程中,一定要找到用最低能量消耗维持生命的方法,这样才有机会开发智力和积累经验进化人类文明。

因此,对于自动驾驶技术的迭代进化,毫末推出了数据智能体系 MANA,并围绕 MANA 建立起了属于毫末智行的自动驾驶技术体系。

我们可以简单对比下毫末和特斯拉的技术思路。在特斯拉的纯视觉与多传感器的路线之争中,毫末智行选择了更为务实的后者,并采用 Transformer 深度神经网络进行数据在空间、时间、传感器三个维度的融合。

视觉数据方面,毫末智行的思路与特斯拉 HydraNet 类似,由摄像头拍摄的图像首先经过 ISP 进行数据处理,随后交由主干网络 Backbone 进行特征输出,再输送至不同的 Head 进行全局任务、道路任务与目标任务,这些共用主干网络的特征,每个任务自己拥有独立的 Neck 网络,用来提取针对不同任务的特征。但与 HydraNet 不同的是,MANA 为全局任务设计了一个提取全局信息的 Neck 网络,这一点其实是非常重要的,因为全局任务非常依赖于对场景的理解,而对场景的理解又依赖于全局信息的提取。

传感器数据方面,毫末智行则采用了业界常用的 PointPillar 算法,该算法能够将三维信息投影到二维,并在二维数据上进行类似于视觉任务中的特征提取和物体检测。这种做法的优点在于避免了计算量非常大的三维卷积操作,算法的整体速度非常快。

感知融合方面,业界习惯以「后融合」方式分别处理视觉与感知数据,这导致神经网络无法充分利用两个异构传感器之间数据的互补性,来学习最有价值的特征——对此,MANA 引入了 Transformer 做空间和时间上的前融合,首先 Transformer 编码图像特征,将其解码到三维空间,而坐标系变换已经被嵌入到了自注意力的计算过程中,实现空间前融合;其次时序数据作为 Transformer 的老本行,可以被自然地提取到时序特征。

除感知领域外,毫末智行还在认知领域进行了布局,即通过场景数字化和大规模强化学习,在保证安全、舒适与高效三要素的前提下,对不同环境下的人类驾驶行为进行学习与训练——这不仅需要大量来自驾驶员的真实驾驶数据,也需要自动驾驶系统自行对数据进行大量的标注、仿真与验证工作,这恰好都是背靠长城汽车量产优势、以数据智能 MANA 为核心的毫末智行的优势。基于量产能力带来的海量数据,毫末智行能够快速迭代算法交付覆盖更多场景的自动驾驶系统。

从谷歌到特斯拉,再到国内的蔚小理新造车、毫末智行等自动驾驶技术公司,伴随着自动驾驶技术在近 20 年中的快速发展和落地,依托量产车型的规模效应为自动驾驶系统的迭代提供海量的数据支持,已经成为业界普遍认可的通向高阶自动驾驶的必经之路。

谁将摘取「皇冠明珠」?

限于篇幅,我们快速梳理了自动驾驶技术发展的几个阶段,并且可以清晰地看到深度学习等 AI 算法在自动驾驶技术发展中的决定性作用。

在这一进程中,谷歌 Waymo 和特斯拉在其中发挥了技术路线引领者的作用,同时他们的技术实践也为后来者提供了极具价值的参考。

回到当下,我们看到通过 AI 大模型以及海量数据所训练的自动驾驶算法,正成为摘取的实现完全无人驾驶这一「皇冠明珠」的不二法门。

可以预见,面向未来,那些能够获得海量数据,持续推动数据智能的自动驾驶企业,无疑将成为笑到最后的那个幸运儿。

来源:搜狐网

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。