智能驾驶的「GPT 时刻」,怎么就被特斯拉搞出来了?

摘要

特斯 FSD V12 走通了大数据、大模型、大算力,成为彻头彻尾的端到端学习。

5 月 15 日,针对特斯拉 FSD(Full-Self Driving,全自动驾驶)付费选装率仅 2% 的消息,特斯拉 CEO 马斯克在 X 平台上回复称,实际情况远远超过了这个数字。

这一回应是针对知名特斯拉投资者加里·布莱克对未来 FSD 接受率的质疑而作。根据信用卡数据提供商 YipitData 提供的数据,在试用了一个月 FSD 的美国特斯拉车主中,只有 2% 的用户选择继续订阅该服务,远低于预期的 6%。

布莱克认为,这可能是因为 FSD 服务的附加值不高,或者订阅价格(每月 99 美元)过高。他呼吁特斯拉需认真评估这些因素,以更好地迎合车主需求。

与此同时,马斯克 4 月底访华,引发了关于特斯拉 FSD 在中国落地的讨论。不过,据中国日报报道,尽管特斯拉提出在中国推出「无人驾驶出租车」,但中国政府尚未完全批准 FSD 在中国全面落地,可能会先支持其在国内进行测试和示范。

那么,处于风口浪尖的特斯拉 FSD 实际体验如何?是否会再次引发鲶鱼效应?

智能驾驶的 ChatGPT 时刻

随着新能源汽车进入智能化下半场,智能驾驶一直是行业追逐的技术制高点之一。人们不仅关注驾驶场景通过率和通勤效率,还更加关心智能驾驶是否更加人性化。

之前特斯拉 FSD 的 V11 版本,和很多智能驾驶系统一样,速度控制生硬,处理突发情况时会突然刹车或加速,带有明显的机械感。尤其是在狭窄路段或恶劣天气等特殊情况下,这种生硬的速度控制会让用户感到不安。

但现在,特斯拉 FSD V12 的出现改变了这一格局。体验过特斯拉 FSD V12 的知乎博主「EatElephant」表示,它最大优势之一是其拟人化的能力。V12 版本的最大提升在于速度和转向控制的顺畅度。乘客即使在后排坐着,也几乎感觉不到在红绿灯启停和路口转弯时的任何顿挫感。

第二,V12 在处理一些非结构化场景(比如缺少车道线与交通规则的约束)有了很大的提升,比如在转弯的时机和幅度、减速的具体程度等方面。例如,在 V11 版本中,当车辆在直行时遇到前方远处左转的车辆时,智能驾驶系统的反应是明显减速。虽然这样可以规避碰撞风险,但减速的幅度通常过大,导致明显的顿挫感,也增加了被后车追尾的风险。

而在 V12 版本中,面对类似情况,系统似乎能够更准确地判断前方车辆的行驶路线和速度。因此,它可以以非常合适的速度减缓,让车上乘客几乎感觉不到,同时又留出足够的安全距离,避免了不必要的不舒适感和后方车辆的追尾风险。

第三,V12 应对各种场景的能力显著提升,大大减少需要人工干预的次数。比如,特斯拉 FSD V12 不仅能够识别并绕过路面上的铁皮等障碍物,还能在道路施工时根据引导标识在临时开辟的道路上行驶,就像人类司机一样灵活应对。即使需要驶向对向车道,也能够不受逆行标识和中心黄线的限制。在夜间行驶时,它能够像人类一样先右转驶入两辆靠边的停车之间巧妙的避让对向来车,待对向来车驶离后再向左打方向盘继续前进,展现出了出色的驾驶技能。

试驾时的场景,蓝色为导航路线,绿色为 V12 自主变动的路线 | 图片来源:知乎博主「EatElephant」

同时,知乎博主「EatElephant」还提到,FSD V12 展示了一些类似智慧涌现的能力。在测试中,车辆遇到这样一个难题:路口前有一个车道,V12 无法使用倒车档完成掉头。在乘客等待时,V12 发现了一个小停车场,果断改变路线绕过,尝试代替标准掉头。尽管最后出口处系统提示接管,但这一行为是自动驾驶技术中的一次重大突破,因为通常系统会严格遵循导航路线,自行偏离导航的行为几乎不可接受。

这些进步也体现在人工干预的次数。相比之前版本,V12.3 版本在城市环境下的无关键接管行驶里程大幅增加,从约 100 多英里(约合 160 公里)提升到了 386.7 英里(约合 622 公里)

相比之下,同济大学教授、汽车学院副院长熊璐曾表示,北京、上海、广州等地的自动驾驶企业,平均每百公里需要接管 3.5 次到 10 次不等,基本上每行驶十几或几十公里就需要人工接管一次

目前,特斯拉 FSD 或许正迎来自己的「ChatGPT 时刻」,尽管仍存在一些不足之处。例如系统在驾驶时有时会让人感觉距离路边太近,让人有些担心;对来车的识别和避让不够及时,比如遇到消防车时的反应不够灵敏;对一些特殊路标或车道的识别可能出现错误,对于坑洼的识别和避让也有些问题。

不过,这并不妨碍特斯拉大幅增加对智能驾驶的投入。据了解,到今年年底,特斯拉计划在自动驾驶技术上累计投入达到 100 亿美元。考虑到 2016 年至 2023 年的总支出在 20 亿美元左右,这意味着今年特斯拉在智能驾驶上的支出将达到 80 亿美元左右。这是一笔巨额投资,表明特斯拉对进一步提升 FSD 技术的决心。

FSD V12 是如何炼成的?

特斯拉 FSD V12 的体验显著提升背后,是其技术路径逐渐收敛的结果。

自从 2020 年推出 FSD 功能以来,特斯拉一直在引领智能驾驶技术发展方向。与传统的依赖激光雷达和高精度地图的方法不同,特斯拉坚持采用了纯视觉技术,使得车辆能够更好地理解周围环境。

2022 年特斯拉 AI Day 上的占据栅格技术框架 | 图片来源:特斯拉

在随后的两年中,特斯拉通过一系列活动,如 AI Day 等,公布了大量关于 FSD 技术的方案。这些方案涉及到数据闭环、共享主干网络、BEV 感知以及占据网络等概念。尽管这些技术处于行业领先地位,但之前的版本一直受到用户诟病,认为其用户体验改进不够明显。

然而,随着 FSD 的发展到 V12 阶段,情况发生了变化。与 FSD 11 相比,FSD V12 最大的变化在于采用了端对端神经网络技术(End-to-End Neural Network, E2E NN)。这种技术使系统能够更好地理解和处理复杂的驾驶环境,减少驾驶员的干预,提高了自动驾驶的精准度和自动化程度。

以往,FSD 的基本流程通常包括感知、决策和执行三个阶段。在早期版本中,感知阶段需要通过视觉或雷达获取周围物体信息,并对其进行识别和分类,而决策阶段则依赖于预先编写的控制规则。

特斯拉 FSD 车辆变道 | 图片来源:特斯拉

然而,在 FSD V12 中,采用了端对端神经网络技术,这些步骤发生了革命性的变化:感知阶段不再需要手动识别和分类物体,决策阶段也不再需要预先编写的控制规则。系统只需要通过大量视频输入来让神经网络学习,就能够在不同情况下做出正确的决策。这使得特斯拉在 FSD V12 中能够减少大量代码,使系统更加轻便、灵活,同时即使在没有网络连接的情况下,也能够在陌生的环境中正常运行。

马斯克去年底曾表示,特斯拉的 FSD Beta V12 从头到尾没有编程,没有程序员写一行代码来识别道路、行人等概念,全部交给了神经网络自己思考,C++代码只有 2000 行,而 V11 有 30 万行。

其实,端到端模型并不是一个新概念,早在之前就有人提出过。然而,许多人对神经网络的可解释性和可靠性一直存在疑虑。尽管端到端系统提高了模型的能力上限,但也放大了神经网络作为「黑盒」的不可解释性问题,这会给研发迭代和问题解决带来巨大挑战。所以,很多公司不敢轻易尝试。

特斯拉 FSD 让大家看到端到端模型的潜力。当然,这个过程并不是一蹴而就的。特斯拉一直在自动驾驶技术中,强调端到端的「纯度」。从 V10.9 版本开始,他们去掉了车道线感知的后处理代码,改为由模型直接输出车道线。在 AI Day 上,特斯拉也展示了如何将学习型轨迹生成和神经网络决策模型引入规划控制模块。

然而,特斯拉的技术更新主要集中在技术栈的中上游,如感知和预测,而控制行车功能的决策规划模块却很少改变。这导致用户体验的改善不够显著。

V12 的重大突破在于打通了整个技术栈的最后一环(决策规划),使系统能够进行端到端数据驱动,最终实现了更自然、更智能的驾驶行为。

随着 V12 采用了端到端技术架构,直接优化了规划控制输出,因此用户体验的改善将会更加迅速。5 月初,马斯克宣布,特斯拉的 FSD 系统即将迎来三大更新版本,分别为 V12.4、V12.5 和 V12.6。

其中,V12.4 版本预计将在 5 月中旬推出,该版本将全面更新模型训练,以提高系统的准确性和可靠性。其次,针对用户反馈的加速过猛和刹车过急问题,V12.4 以及后续版本将重点优化驾驶舒适度,从而提升乘客的驾乘体验。

回到本文开头,马斯克造访中国,似乎正在让 FSD「落地中国」这件事变得更具可信性。甚至,外网盛传比亚迪和特斯拉在 FSD 将展开合作的消息,更将 FSD 入华的潜力获得更大的释放——世界上最大的两家新能源车公司的合作,会产生怎样的结果?

如果传言成真,特斯拉 FSD 是否会改变当前智能驾驶领域的局面?中国车企的智能驾驶「故事」又将如何继续发展呢?

这大概是所有人都会幻想,却不太敢问的问题。

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。