OTA 6.2 正式全量推送
2024 年 8 月 30 日,理想汽车携理想 L 系列和 MEGA 亮相 2024 成都国际汽车展览会,发布智能驾驶的最新进展与未来规划,宣布基于端到端及 VLM 视觉语言模型的全新一代理想智能驾驶正式开启万人体验团招募。此外,理想汽车宣布 OTA 6.2 正式全量推送,新增车位随心画、低速自动紧急制动、开放理想演示厅、超充站不下车降地锁等重磅功能,持续围绕智能驾驶、智能空间和智能电动提升产品价值。
在发布会后,我们有幸采访了理想汽车的智能驾驶研发副总裁郎咸朋博士与智能驾驶高级算法专家詹锟。他们详细介绍了理想汽车在智能驾驶领域的最新进展,并对未来技术发展的趋势和挑战进行了深入探讨。这次访谈不仅揭示了理想汽车在自动驾驶技术上的成果,也为我们提供了独特的行业洞察,展现了理想汽车在推动智能驾驶技术商业化方面的前瞻性思考。
首先,詹锟专家详细介绍了理想汽车在 VLM 视觉语言模型上取得的突破。面对模型规模的大幅提升和车载芯片的部署挑战,他们通过优化记忆模块、算子融合、内存带宽和投机采样等技术,显著提高了模型的推理效率和实时性。这些技术的进步,不仅提升了用户体验,也为智能驾驶的未来发展奠定了坚实的基础。
在讨论端到端技术时,詹锟强调了理想汽车采用的一体化端到端方法,这种方法直接将传感器输入送入模型,减少了中间环节,提高了效率。而郎咸朋博士则从投资的角度,阐述了智能驾驶研发的长期性和持续性,指出了算力和数据在智能驾驶发展中的核心地位。
在智能驾驶的安全性问题上,郎咸朋博士提出了端到端模型的核心能力,强调了数据与算力的重要性,并介绍了理想汽车的安全机制与兜底策略。他们的目标是通过 AI 驱动的迭代和内部测试,确保系统的安全性和性能提升。
此外,郎咸朋博士还分享了理想汽车在世界模型方面的研究进展,以及如何通过模拟和重建技术,加速自动驾驶的迭代。他们的目标是构建一个虚拟世界,为端到端模型和 VLM 模型提供考验,从而确保技术的成熟和可靠性。
在智能驾驶的未来发展上,郎咸朋博士和詹锟都表达了对端到端+VLM 构架的信心。他们认为,这种构架不仅能够模拟人类的认知和思考,还能够适应未来智能驾驶的长期发展需求。
最后,郎咸朋博士还谈到了理想汽车在智能驾驶领域的竞争力,以及他们如何通过技术创新,满足用户的实际需求,提升产品体验。他们的目标是通过不断的技术迭代,实现智能驾驶的商业化和普及化。
(以下为访谈内容,有节选)
Q1:VLM 视觉语言模型在实际应用中的挑战是什么?有哪些解决方案,特别是关于克服推理时延问题和提高模型实时性的策略?
詹锟:我们在解决 VLM 视觉语言模型应用中的挑战时,投入了近半年的时间。VLM 模型的规模相较传统智能驾驶模型大幅提升,参数规模几乎增加了一个量级。在车载芯片上部署 VLM 面临巨大挑战,尤其是在主流的 Orin-X 芯片上,该芯片在设计之初并未考虑大模型的应用需求。因此,我们在部署过程中需克服诸多工程难题。经过优化,我们成功将推理时延从最初的水平提升了 13 倍,并已在实车上推送给数千名用户使用。
视觉模块的优化:
-
记忆模块:自动驾驶过程中,视频数据是连续流式的,因此需要保存历史信息,以避免在推理过程中重复分析。通过增强缓存能力,我们提高了推理效率。
-
算子融合:我们与英伟达合作,通过融合多个算子,显著提升了模型的性能。
语言模块的优化:
-
内存带宽瓶颈:由于语言模型规模庞大(接近 2B 参数),内存带宽成为限制推理效率的瓶颈。我们通过量化技术,将原本 16 位的字节压缩至 4 位,从而提高传输速度。
-
投机采样:在语言模型生成过程中,通过「投机采样」技术,模型能够基于已有词语快速联想到后续词语,提升了推理效率。例如,生成「公交车道」这一词组时,模型在生成「公」字后能够快速联想到「交车道」。
通过这些优化,我们将推理速度从原来的每 4 秒一次提升至每 0.3 秒一次,效率提高了十几倍。
Q2:如何从技术角度定义真正的端到端?如何评价其效果?
詹锟:端到端是一种研发范式,指的是在一个任务中,从输入端到输出端,中间不经过任何其他处理环节,由一个模型完整实现输入到输出的全过程。只要满足这一条件,就可以称为端到端。
理想汽车采用了一体化的 OneModel 端到端方法,直接将传感器输入送入模型,推理完成后直接用于轨迹规划和车辆控制,这就是一体化的端到端,过程中没有任何其他步骤。
另一种端到端方法是在中间分为两个模型,感知模型的输出作为信号传递给控制模型,这种方式虽然在技术上也可以称为端到端,但我们认为它并非真正的端到端。理想汽车的一体化端到端旨在避免中间信息的损失。如果中间加入人为的信息处理过程,可能会降低效率或限制系统的能力上限。因此,我们认为一体化的端到端更符合端到端的本质。
Q3:有人提出「500 亿做不好智驾」的观点,你们怎么看?
郎咸朋:关于 500 亿的讨论,首先要明确这是一次性投资还是长期投入。就像我们今天提到的,每年在智能驾驶研发上的投入达 10 亿美元,如果持续 10 年,总投入将超过 500 亿人民币。
端到端加 VLM 的技术架构是智能驾驶发展的一个重要分水岭。此前,我们采用的是传统方法来开发自动驾驶技术,而现在,才是真正用人工智能来实现自动驾驶。从一体化的端到端模型来看,虽然在模型结构和训练方式上存在一定难度,但它最大的优势在于,通过数据驱动模型训练,使得模型输出结果成为一个自然的 AI 训练过程。而在传统模型中,往往会涉及人为规则的制定和判断,这就无法做到完全依赖数据驱动的过程,难以达到纯粹的 AI 效果。
现在,我们是真正进入了用人工智能方式开发自动驾驶的阶段。以往的开发过程包括需求分析、产品设计、功能开发、验证和迭代等环节,最终效果往往受到「设计」的影响,设计了的场景可以实现,未设计的场景则可能无法应对。而使用 AI 方式,则是通过输入「老司机」的驾驶数据来训练模型,让模型自行学习,形成类似「老司机」的驾驶风格。这一过程没有场景设计的干预,完全由数据驱动,体现了真正的人工智能。
在这一背景下,未来自动驾驶研发的核心竞争力将集中在数据质量和算力支持上。而算力和数据的获取,取决于投入的资源和资金。部分资源,如高质量的训练数据和行驶里程,是难以通过金钱获取的,各家车企的数据互通性有限。而另一方面,算力需求也在不断增长。我们目前拥有 5.39 亿 EFLOPS 的算力,预计到今年年底将达到 8 亿 EFLOPS,这意味着仅算力一项每年就需要 20 亿人民币的投入。随着技术进入 L4 阶段,数据和算力的需求将呈指数级增长,每年至少需要 10 亿美元(约六、七十亿人民币)的投入。未来 5 年内,这种投入将持续增加。
因此,讨论智能驾驶的发展,不应只关注投入的资金总额,而应考虑是否有充足的算力和数据支持,以及这些资源的投入是否能够支撑技术的发展。
Q4:如今,许多品牌宣称自己是智能驾驶的引领者。理想汽车也表示自己跻身第一梯队。如何评价端到端的技术水平?
郎咸朋:从技术角度来看,普通消费者并不在意技术细节如「有图」或「无图」、「端到端」或「非端到端」。他们关心的是产品的使用体验和实际价值。因此,我们并不是要与谁竞争,而是希望为用户提供最好的产品和服务。
过去,高精地图辅助的高速 NOA(Navigate on Autopilot)已经满足了用户的需求。在开发城市 NOA 的过程中,我们尝试了多种方式。最初,我们考虑使用有图方案,但发现没有任何图商能够提供足够高精度的城市地图,只有「轻图」可用。然而,轻图方案存在问题,因为地图的迭代可能导致功能的时效性问题,用户体验因此受到影响。为了解决这一问题,我们最终决定采用无图方案。
传统的无图方案依赖于感知、规划等模块化方法,并涉及大量人工规则和实车测试。这种方式在时间和成本上都非常困难。为加快迭代速度,我们转向了端到端加 VLM 技术架构,这是一种真正的人工智能方案,依赖于模型的自主学习和成长,而不是人为设计的规则。
此外,我们引入了「世界模型」来加速自动驾驶的迭代。传统方法需要大量的车辆、人员和时间来测试,而现在,我们可以通过生成和重建技术,收集以前的场景问题,构建「错题场景库」。每次模型发布前,我们会针对这些问题场景进行超过一千万公里的有效测试。这种方式比原来的整车测试或路试更加可靠,并且可以涵盖一年四季的各种场景。
我们是否领先于其他品牌并不重要,重要的是我们完全从用户需求出发,确保技术迭代能够解决用户的实际需求,并提升产品体验。我们迭代技术,不是为了追求技术本身,而是为了提供更好的用户体验。
Q5:世界模型是由多个模型组成的架构吗?相比系统 1 和系统 2,开发世界模型的难点是什么?理想汽车会将世界模型部署到车上吗?如果会,时间和前提条件是什么?
詹锟:我们从去年 7 月开始预研世界模型,到今年才将其用于实际业务中。世界模型由两个主要部分组成:错题集重建和生成模型。
-
错题集重建:这是一个重建方案,通过收集和还原数据,构建 3D 虚拟世界。在这个虚拟环境中,可以根据不同的行为模拟各种场景。比如,车辆左偏移后的视角重建,都是通过重建模型实现的。
-
Diffusion Transformer 生成模型:这个模型使用了我们海量的数据,规模相当庞大,与智谱和 OpenAI 的模型规模相近。它具有强大的想象能力,能够生成以前未见过的场景,例如模拟不同时间、不同情况下的行人横穿马路。
关于未来的部署,我们目前主要将世界模型用于仿真器,因为直接部署在车上非常困难。世界模型需要处理海量数据,规模庞大,难以直接在车端运行。因此,我们通过 VLM 模型来简化并替代部分世界模型的功能,在车端进行推理和判断。例如,VLM 可以在看到路上的球时,预测是否会有行人或小孩出现,从而作出更谨慎的驾驶决策。这是 VLM 在当前系统中的作用,虽然规模还小,但已具备一定能力。
郎咸朋:关于世界模型在车上的应用,当前在有监督的自动驾驶中,端到端模型和 VLM 模型已经足够胜任。VLM 主要起到辅助提醒作用。然而,随着我们向「无监督自动驾驶」或 L4 级别自动驾驶迈进,系统将需要具备更强的处理未知场景和突发情况的能力,这时候需要依赖一个更强大的系统 2 模型。
在未来的 L4 自动驾驶中,世界模型不仅能够识别路上的球,还能预测可能出现的更多复杂情况,确保车辆控制得更加精准。但这需要更大规模的数据和算力支持,是下一个时代的发展方向。
目前,我们的云端世界模型承担了测试和训练的任务,它构建了一个虚拟世界,为系统 1 的端到端模型和系统 2 的 VLM 模型提供考验。在模拟世界中通过测试后,才会将这些模型交付给用户使用。未来,在车端的世界模型将逐步发展为支持 L4 级别自动驾驶的系统 2 模型,这是我们正在努力的方向。
Q6:在数据量不大的情况下,理想汽车如何保证模型的安全性?与其他品牌相比,理想的端到端与 VLM 系统中,安全机制是如何发挥作用的?我们能否将 VLM 模型理解为一种安全性机制?
郎咸朋:安全性是一个关键问题,很多人会关注是否有独立的安全模块。这种担忧源自传统的非 AI 自动驾驶研发思维。以前,开发者通过规则设计来应对各种驾驶场景,但在 AI 驱动的端到端系统中,这种方法已不再适用。
端到端模型的核心能力:
-
数据与算力的重要性:要实现真正的端到端模型,必须具备足够多的数据和强大的算力。没有这些,端到端只是空谈,因为它是 AI 方法的核心。
-
端到端的高上限与下限:端到端模型有巨大的潜力,就像 CNN(卷积神经网络)取代传统机器学习算法一样。我们发现,端到端模型在各种场景下表现优异,尤其是在纵向控制方面,模型能自然地处理复杂情况,而无需我们手动调试规则。
安全机制与兜底策略:
理想汽车也设有兜底策略,确保车辆的安全性。例如,当端到端模型输出了极端轨迹(如急转弯),我们在控制模块中设有约束机制,以防止危险行为的发生。但这些规则相较于传统方法已大大减少。
AI驱动的迭代与内部测试:
我们的迭代过程非常严格,确保每个版本都达到高标准。例如,某些版本未达到内部的安全性和合规性要求,因此未推送给测试用户。我们的 AI 评价体系保证了系统的安全性和性能提升。我们不断为模型提供高质量数据,使其在城市驾驶中的表现越来越优异。
在当前的版本中,系统每 20 公里才需一次人工接管,这个数字看似不高,但在城市短途出行中已体现出明显的提升。随着未来数据量的进一步增加,我们预计接管率会进一步下降,最终实现城市中的百公里一次接管,这将标志着有监督自动驾驶的成熟。
Q7:随着 MPI(每次接管之间的平均距离)从 20 公里提升到未来可能的 100 公里,如何定义最理想的驾驶安全?有人认为接管频率越低反而越危险,您怎么看待理想的人机交互模式?
郎咸朋:首先,需要区分不同类型的接管。有两类接管:一类是出于安全考虑的接管,另一类是为了提升驾驶效率和舒适度的接管。我们提到的接管主要是后者,即为了提升用户体验而进行的非必要接管。
在用户交付时,我们的目标是提供与现在不同的驾驶体验。即使在未来长时间内不需要接管,若驾驶员的注意力不集中,我们也有办法确保他们在需要接管时能够及时响应。为此,我们正在研究一种「有监督的自动驾驶」下的新型交互体验,包括通过中控屏幕的视觉和声音提示,帮助驾驶员保持必要的注意力。
此外,我们的评测体系能够识别出在哪些场景和地区接管率较高,并提前向用户推送相关信息,以便他们做好准备。未来,我们会推出一些新功能,进一步增强人机交互的效果,确保驾驶安全。
Q8:发布会上提到马上就会推出 OTA 6.2,目前内测 OTA 6.2 和端到端只能二选一,这是基于什么考虑以及在什么阶段我们可以不用做这个选择?
郎咸朋:现在是因为版本基线不同,所以我们不能够做到同时推送,但是我们认为端到端量产交付之后就可以实现合二为一了。
Q9:过去几年智驾的技术战快速变化经历了几次大迭代,您判断这种态势会继续吗?端到端+VLM 会是一个有长期生命力的构架吗,为什么?
郎咸朋:端到端+VLM 是模拟人类思考认知的架构,因为我们做人工智能,最终是希望可以实现拟人或者类人。看到《思考,快与慢》这本书之后受到了很大启发,最终就想知道人是怎么做认知和思考的,目前的人工智能的框架我们认为是做的非常合理的,而且我们也很欣喜的看到,在我们提出后,行业内很多企业也开始提起双系统理论的好处,并且在尝试跟进。而且双系统理论,不仅可以用在自动驾驶上,它也是未来人工智能甚至智能机器人的范式。自动驾驶可以说是一个轮式智能机器人,只是工作范围是道路。所以,我觉得是有一定的长期行为力的,但技术发展是无穷无尽的,我们会保持对先进技术的敏捷感知,如果有新的技术我们也会追踪。
Q10:端到端的研发周期大概多久?
郎咸朋:端到端模型+VLM 视觉语言模型万人体验团开启招募,实际真正的研发分两个阶段,RD 阶段和 PD 阶段,RD 阶段从去年就开始,我们从《思考,快与慢》领会精神,讨论系统的研发和架构,技术本身是更好的事情,但是认真做端到端+VLM 是从去年开始的。我们在 RD 阶段是一个非常小而精的团队,这也是我们理想内部智能驾驶一直在做的事情。实际上,我们做无图的时候已经在预研端到端,现在做端到端,实际已经预研下一代技术了。刚开始是 RD 阶段,当判断条件已经成熟和初步验证成功,会转到 PD 阶段。在今年 4-5 月,我们无图基本交付,再转到下一代端到端的交付,这是我们研发模式。
Q11:理想目前感受自己和特斯拉智驾的差距有多大,大概什么时候能够追赶上?
郎咸朋:去年的时候,我回复过差半年,今年可能还会再小一点。
第一,从技术架构上,我们跟特斯拉没有太大差别,甚至更领先一点,因为我们有 VLM,有系统 2,特斯拉只是有系统 1,端到端。
第二,在中国的训练算力和训练数据上,我们认为至少从现在看我们是领先于特斯拉的,因为特斯拉不管是数据的合规性,还是受到中国的一些约束,以及训练算力的部署,在中国还需要搭建。在这个层面上看,我们在中国,可能跟特斯拉差距并没有那么大,我们也特别希望特斯拉能加入进来,互相学习,专注做自身的提升。
Q12:端到端量产交付之后能给销量带来多大的增量?
郎咸朋:无图 NOA 全量推送之后,门店的试驾量和销量都有大幅度的提升,近两个月,我们试驾翻了一倍(专门进店试驾 AD Max)。第二,30 万以上的车型,AD Max 占比达到 70%,原先 AD Pro 会多一些,L9 AD Max 甚至占比 90% 以上。
Q13:有观点认为智能驾驶的AI路径存在问题,尤其是在 L2 阶段更注重低成本和通用性,而 L4 阶段需要先解决安全性才能实现通用性。您怎么看待量产车能否实现 L4?
郎咸朋:首先,我们的核心理念始终是围绕用户需求和用户价值展开。理想汽车推出的任何产品,都是为了满足或超越用户的期望。我们坚信用户对自动驾驶有实际需求,因此我们不会设计一款只能在特定地点(如成都)运行 L4 功能的车,而其他地方却无法使用。
其次,对于技术路线的选择,无论是渐进式还是跨越式,各品牌都有不同的策略可以讨论。理想汽车选择了一条符合用户需求的技术路线,即通过人工智能实现自动驾驶。过去的辅助驾驶主要是系统辅助人来驾驶,驾驶主体是人。然而,随着我们进入端到端+VLM(视觉语言模型)阶段,我们认为车已经具备了自主驾驶的能力。模型训练完成后,车辆能够自主驾驶,人只需在必要时进行监督或接管。如果能达到这一水平,就能满足用户对自动驾驶的需求,这是我们选择这条技术路线的逻辑。