过去 18 个月最大的产业成果,或许就在于「从一颗颗躁动的心」,变成了「一条条明确的路」。
先问一个问题:从体感上看,AI 领域的节奏你觉得是变快了还是变慢了?
客观上看,从去年 2 月开始,ChatGPT 开始在中国成为了所有人谈论的话题,短短几个月就形成了一个「共识」——AGI 是一场工业革命,大模型会改变未来。
对一个新技术如此迅速地达成共识,放在全球科技史上这可能都是第一次。躁动心开始跳动,FOMO 情绪开始翻涌,有人怕错过,有人怕失去。
而过去 18 个月,可用的新模型和新产品层出不穷,但效果惊艳、非它不可的不多。曾经期待(或担心)的颠覆性变革看起来依旧在路上,而 AI 巨大投入难道就是诞生了一些局部领域的效率工具?这看起来确实也有点算不过账……于是无论在中国还是美国,对于之前的「共识」开始有了动摇,觉得 AGI 是个大泡沫的「舆论应力」开始不断积聚,有点共识达成太快所以「始乱终弃」的趋势。
其实「预期」这个东西,很容易因人而异的主观。而「信心」这个东西,也很需要有现实论据的逻辑支撑。那么过去 18 个月 AI 技术到底经历了怎样的发展,未来到底应该有什么样的「预期」和「信心」,回答这个问题最好的方式,还是去看看进程中的细节,回到客观的视角做判断。
带着这样的视角,在今年阿里云云栖大会上,我跟在一线「摸爬滚打」的 AI 创业者、从业者,以及阿里云这样的产业巨头做了一系列交流。作为离 AI 最近的人,他们是撸起袖子亲自下场的 Doer,他们看到的东西应该能更好地帮我们做出自己的判断。
01 AI 不是减速,而是狂奔
技术进展常常以 18 个月为周期,从创业者的视角看,无论是过去的 18 个月,还是未来的 18 个月,模型技术并没有在减速,而是在加速。
对 AGI 进展感到快或慢的差异背后,是「打游戏的人」和「看游戏的人」在不同视角下的体感。在「看游戏的人」眼里,怎么老是那几个「妖怪」,情节推进太慢了,快看睡着了;玩游戏的人会说,新技能点出来又要「洗点」了,又多了好几个诱人的新任务,血压都要 160 了。
客观地讲,过去 18 个月里的三个里程碑事件,让他们看到了大模型在明显提速。
第一是 GPT-4o 的发布。
在 GPT-4o 之前,OpenAI 有 GPT-4V 视觉理解模型、有 Dall·E 视觉生成模型、有 Whisper 声音模型、和 Sora 视频生成模型,但 GPT-4o 让原本这些孤立的模型融合在一起了。而多模态融合这件事的意义在于,可以更好地模拟真实世界、为我们的物理世界建模,这让模型又上了一个新台阶。
第二件事情则是特斯拉发布的 FSD v12,一个端到端的大模型,可以直接把感知信号直接变成一个控制序列。它的意义不仅在于智驾本身,这套方法论为智能设备如何和大模型相结合,更好地探索物理世界指明了一个方向,从数字世界走向物理世界一个真实的应用场景。
第三件事情是上周的「o1」模型,第一次证明了语言模型其实也可以有人脑的慢思考,也就是「系统 2」的能力。系统 2 的能力是 AI 能归纳世界所必备的一个前提条件、一个基础能力。
在阶跃星辰创始人、首席执行官姜大昕看来,AGI 的演进路线可以分为模拟世界、探索世界和归纳世界,GPT-4o、FSD v12 和「o1」分别在这三个阶段或者说方向上取得突破,这是模型能继续提高上限的明确信号。
月之暗面 Kimi 创始人杨植麟也认为,各种技术指标和实际体感都在指向模型智商的提升。横向对比,多模态带来了更完整的体验,纵向对比,单就纯文本模型的能力一直在提升。
清华大学人工智能研究院副院长、生数科技首席科学家朱军补充了一个现象来解释他眼中的 AI 提速——学习曲线正在变得更加陡峭。追上一个技术的时间正在缩短,因为大家整体的认知和准备都更加充分,不像 ChatGPT 刚出来时,多少有点不知所措。
当然,看到明确的AI技术在提速是一方面,实际做的过程中,创业者们也更早地看到了脚下的瓶颈。
从大模型算力、算法、数据的黄金三角来看,互联网几十年的优质数据很快会被用完;当前算法下,预训练的 Scaling Law 正在走入瓶颈。姜大昕谈到了现在大家的一个普遍观点:GPT4 到了万亿级参数之后,再去 scaling 它的参数,边际收益是在下降的。
而且不少人可能都注意到了,Elon Musk 前段时间在 X 平台上展示了自己花百亿美金,迅速拉起的十万卡的「豪华」GPU 集群。Scaling Law 这么玩,可参与的选手一定就很少了。密度才能带来创新,如果最终真的要靠比如 OpenAI 一家来交付所有人的智能,这事并不那么靠谱。
但就在这时候「o1」来了,通过把强化学习的训练框架引入语言模型,从算法上打破了当前的创新瓶颈。
技术角度看,o1 展现了继续大幅提高模型技术水平上限的方法;能力水平看,o1 也展现了语言模型可以解决复杂推理问题的能力。从这两点 o1 所代表的重要性来说,这几乎是未来 18 个月最令人兴奋的进展。
过去的 GPT 系列语言模型,原理是预测下一个 token,对应人脑的快思考(系统 1),但 o1 通过引入强化学习的训练框架,第一次证明了语言模型也有慢思考(系统 2)的能力,让 AI 不仅能「读万卷书」,也能「行万里路」,也就是说让 AI 能通过规划、行动、自我反思、验证等过程不断试错和探索,直到找到正确途径。
对于这条技术路径的前景,杨植麟打了一个比方,他说「o1」提高了 AI 的上限,这个上限的提升,是把现在努力提升 5%、10% 的生产力水平,做到 10 倍的 GDP,这完全有可能实现,关键是弄清楚如何通过强化学习进一步 Scaling。
其实强化学习在上一代 AI 浪潮里就已经成为明确的技术方向,DeepMind 在 AlphaGo、AlphaFold 和 AlphaGeometry 中走的都是强化学习路线,但 o1 的出现,在强化学习通用性和泛化性上了一个大的台阶,它把强化学习 scale 到了一个很大的规模,姜大昕把它看成 scaling 带来的技术新范式,「强化学习的 Scaling」。
当前,o1 在有明确对错的代码、数学、原理证明等多个领域展现了强大的推理能力,但 RL(强化学习)究竟怎么去泛化,OpenAI 并没有被公开具体方法,也不能保证 OpenAI 最终一定可以把 o1 泛化到完全通用的领域。原因就像朱军解释的那样,你很容易告诉模型代码、数学等问题的优化目标是什么,但在更广泛、通用的场景里,如何告诉模型什么是对、什么是好,这种人类都可能没有对齐的目标。
不过在一个确定的方向上存在不确定的事,对创业公司也是好事,否则就没有创业公司的机会。一个技术新范式的开端,恰恰会让创业者觉得非常兴奋。相当于OpenAI找到了一条上限很高的道路,通过仔细琢磨它背后的方法,创业者有很多新的可能性。
在这一点上,杨植麟的判断很有启发,他认为o1 之后,接下来最重要的可能是「开放性的强化学习」,比如说在产品上跟用户交互,在一个真实的环境里面让智能体完成任务,然后自己去进化。
「武器库」多了一个武器,对做 AI 应用的创业者来说,怎么都不是坏事。o1 这样上限更高的复杂推理模型,还可能会把 B 端的 AI 应用从当前的 copilot 助理类产品,推向 autopilot 让 AI 自己独立完成闭环任务的程度,场景上也会渗透到更纵深的生产制造环节。
同时,ToC 应用也有了 copilot 和 autopilot 智能体协同作业,为用户提供更好体验的机会。如果说大语言模型是让人看到了一个令人期待的新大陆,那么这 18 个月最大的进展就是在这新大陆之上人们找到了可以培育新文明的绿洲,它还需要很多建设,但它值得建设。
02 从数字世界的共识,到物理世界的共识
当模型技术的上限看到明确提升的路径,「老问题」回来了,AI 应用什么时候爆发?
今年,很多人降低了对 AI 的预期,是因为原本期待的 SuperAPP 并没有出现。言外之意,大家觉得 AI 应用最大的想象力就是这个了。但在今年云栖大会上,你会发现,未来不止是数字生产力场景这些「小」场景,在自动驾驶、具身智能等「大」场景上,也正在一步步有路径地解锁。而原本大家想象的「在数字世界的爆发」很可能变成在物理世界的「浸润」。
主论坛上,阿里巴巴集团 CEO、阿里云智能集团董事长兼 CEO 吴泳铭在主题演讲中也给出了明确的判断。他认为生成式 AI 最大的想象力,绝不是在手机屏幕上做一两个新的超级 App,而是接管数字世界,改变物理世界。
相应地,AI可以发挥的场景空间,就不只是移动互联网的延展,而是一次对物理世界的变革。
清华大学人工智能研究院副院长、生数科技首席科学家朱军类比自动驾驶 L1-L5 的分级,让现场观众看到 AI 对物理世界改变的明确路径。他说,L1 相当于 ChatGPT 那样的聊天机器人;L2 可以做复杂问题、深度思考的推理;L3 叫智能体,对应吴泳铭提到的从「数字世界」走向「物理世界」;L4 是要去自主发现和创造新知识;L5 可以去协同高效地运转。
在不同垂类任务上,AI 目前所处的阶段不同。总体上,我们现在正在从数据世界迈向物理世界的阶段,按照朱军的类比,也就是处于:正在渗透 L2,迈向 L3 的阶段。并且,在通向物理世界的技术路径选择上,也形成了相对明确的共识。
当前在物理世界,大模型影响最大的两个硬件领域是汽车和机器人。
汽车领域,自动驾驶技术的目标一直很明确——实现完全自动驾驶,但不同公司的实现路线有所不同。
以特斯拉为例,它采用的是从 L2 级别(部分自动驾驶)逐步向 L4 级别(高度自动驾驶)发展的策略。与特斯拉不同,Waymo 则选择直接切入 L4 级别,采取更为激进的方法。他们都使用了较小的模型和规则算法,通过解决尽量多的 corner case 去提高自动驾驶的接管能力。
但最近,业界越来越流行一种新的路线,端到端大模型。这一次,大模型路线为自动驾驶带来的是蜕变,还是局部优化?它是实现自动驾驶的最终路线吗?
小鹏汽车董事长&CEO 何小鹏称,过去多年的自动驾驶可以做到在高速开、在城市里开,但是它是用规则写的,而规则无法面对世界上的所有场景,哪怕只在开车这一个专业的业务上,有很多想不到的 corner case。
很多人可能记得 2023 年 9 月 2 日,1200 万人围观马斯克的特斯拉 FSD v12 的自动驾驶直播,45 分钟的车程里,他只接管了一次。这是端到端大模型带来的变化,马斯克称,「它可以读懂标志,但我们从来没有教过它」。有了端到端大模型,自动驾驶的高度可以做得更高,下限也可以提高。
对于最普通的用户,从现在到未来的 36 个月,端到端大模型可以让每一个人在每一个城市都像老司机一样开车顺滑,更「拟人」也更流畅,这是何小鹏多次尝试特斯拉 FSD 最直观的感受。
之前的智能驾驶系统,速度控制生硬,处理突发情况时会突然刹车或加速,带有明显的机械感。尤其是在狭窄路段或恶劣天气等特殊情况下,这种生硬的速度控制会让用户感到不安。
但端到端大模型最大的提升在于速度和转向控制的顺畅度。乘客即使在后排坐着,也几乎感觉不到在红绿灯启停和路口转弯时的任何顿挫感。
对于自动驾驶未来的终极路线,何小鹏和英伟达全球副总裁、汽车事业部负责人吴新宙也给出了一致的判断。从现有技术的框架上来看,大模型、生成式AI的方式不一定是实现自动驾驶的终极方式,但它一定是一个巨大的突破,比以前的算法、泛化、规则模型要强,这会给 AI 汽车带来巨大的变化。
如果把未来所有能移动的物体都视为智能机器人,汽车只是一个场景,更多机器人将迎来巨变。
在这个领域,具身智能是共同的信仰。当前,大模型给机器人带来更通用和泛化的大脑,让人们看到了未来机器人与人类能够并肩交流、协作的可能。这也是宇树科技创始人、CEO 王兴兴从几年前坚决不做人形机器人,到现在宇树已经推出两款人形机器人的原因。
现在,「o1」模型有自我反思、验证的能力,逻辑能力也大大提升,未来可以预见的是,一定能够提升机器人与人的交互能力和机器人的任务拆分的能力。
不过,大语言模型包括最新「o1」所代表的技术新范式,解决的仍是大脑问题。如果真的想要进入具身智能的时代,机器人本体控制,也就是「小脑问题」,仍待解决。
上周,创新工场联合首席执行官、管理合伙人汪华对具身智能时代未解决的问题也做了总结:一是硬件本身,包括传感器,依然有很多的瓶颈。具身智能的本体,是不是人形、有没有下肢、怎么做等也尚未达成共识。
二是可泛化的运动控制。现在机器人都是基于物理计算,或者是基于单项任务的模拟仿真、强化学习。而人的动作是非常复杂的,可以抓、拧、掏、抠,现在其实还没有一个在运动控制上的 GPT。
问题都是现实的,但是有了一旦有了明确的技术前进路径,从科学问题变成了工程问题,这也就到了创业者们可以发挥作用的时代。
03 巨头的进取心「归位」
技术在涨、场景在解锁,对底层基础设施的需求也在变化。
在跟创业者交流的过程中,他们调侃当前做大模型和 AI 应用时对算力的「复杂情感」时称,讲卡伤感情、没卡没感情、用卡费感情。尤其是「o1」带来新的技术线后,推理端的算力直接决定算法和产品创新的可能性。所有行业,都需要性能更强、规模更大、更适应 AI 需求的基础设施。
吴泳铭在这方面的思考非常本质,他指出,生成式 AI 让世界有了一个统一的语言——Token。它可以是任何文字、代码、图像、视频、声音,或者是人类千百年来的思考。AI 模型可以通过对物理世界数据的 Token 化,理解真实世界的方方面面,比如人类行走、奔跑、驾驶车辆、使用工具,绘画、作曲、写作、表达、教学、编程的技巧,甚至是开公司创业。理解之后,AI 就可以模仿人类去执行物理世界的任务。这将带来新的产业革命。
当 Token 成为统一语言后,未来几乎所有的软硬件都会具备推理能力,它们的计算内核将变成 GPU AI 算力为主、CPU 传统计算为辅的计算模式。
从阿里云客户的需求分布来看,这一变化正在加速演进,阿里云超过 50% 的新需求由 AI 驱动产生。生成式 AI 对数字世界和物理世界的重构,正在让计算架构发生根本性变化。
18 个月的时间里,阿里云这样的基础设施巨头,看起来对未来的进取心明确「归位」了——正在以前所未有的强度投入 AI 技术研发和基础设施建设。
在 2024 杭州云栖大会上,阿里云展现了围绕 AI 时代的新基建,其中单网络集群已拓展至十万卡级别,正在从芯片、服务器、网络、存储到散热、供电、数据中心等方方面面,重新打造面向未来的 AI 先进基础设施。
基础设施之上,阿里云也升级了在 AI 模型与应用的最新产品。其中,通义大模型迎来了年度重磅发布。基础模型升级,性能媲美 GPT-4o。
这种「进取心归位」也体现在对开源路线的明确态度上。这次可以清晰看出阿里云继续秉承了成为「AI 时代最开放的云」的使命,最强开源模型 Qwen2.5 系列,同时上架了语言、音频、视觉等 100 多款全模态模型。通义开源模型累计下载量已经突破 4000 万,通义原生模型和衍生模型总数超过 5 万,模型生态全球第二了,仅次于美国 Llama 的世界级模型群。
提高自研模型能力和坚持开源是一方面,帮助更多大模型创业公司生长则是阿里云在大模型布局的另一面。去年以来,阿里云先后向月之暗面、Minimax、智谱 AI、百川智能和零一万物等 AI 公司注资数十亿美元,成为国内最激进支持大模型创业公司的互联网大厂。这也反应了阿里云明确了自己在 AI 时代的定位,不是要什么都做,而是在新时代继续成为最好的基础设施,用开放的态度,做最有利于推动变革进程的事情。
大模型所带来的第三次云计算浪潮不同以往,当前的 AI 技术日新月异,技术栈远未收敛。跟阿里云在 2009 年力排众议立项第一台云计算操作系统「飞天」时不同,尽管当时也是从 0 到 1,但大体上技术栈是明确的。彼时,阿里云成功地带来了云计算,让阿里巴巴有了自己的技术引擎,改变了互联网,为商业、社会、为人,带来了新变化。
从目前阿里云的一系列布局中,我强烈地感受到阿里云的决心,就是建设「一张遍布全球的、理想的 AI 云计算网络」。今天所有发布的、在研的,都是在围绕这样一个理想的 AI 云计算网络打造,让开发者、生态伙伴、客户能够随时方便取用这张网络。
根据阿里云创始人王坚的定义,人工智能给中国云计算的发展带来了「第三次浪潮」:其中,第一次浪潮,出现在十年前,出现了以 Netflix、米哈游为代表的云原生企业,中国的云计算业务在这个阶段起步,但由于国内市场成熟得太慢,便落后于海外;第二次浪潮,出现在传统企业采用云计算之时,但并没有将中国的云计算拉上正确的发展轨道;第三次浪潮,正发生在当下,由生成式人工智能带来机遇,数据、模型、和算力的组合,正在让 AI 云计算成为 AI 时代的基础设施。
就像「飞天」操作系统的诞生为第一次云计算浪潮带来了像米哈游一样的原住民。一张遍布全球的理想的 AI 云计算网络上,也会长出新一代「AI 云原生」的新商业力量,而且些力量不再是先从手机屏幕中的数字世界诞生,再慢慢延展到物理世界的企业生产力进步,而有可能是把信息化、数字化、智能化三步并一步,被智能生产力的供给侧革命所推动,形成跳跃。
所以数字世界的 App 们在「明修栈道」,物理世界的企业也在「暗度陈仓」。而阿里云这样的基础设施,也只有这个进程里才能最终因为创造更大价值,而收获更大价值。这个目标,才能配得上今天「先干为敬」的进取心和投入。
所以,从 AGI 技术客观上的加速进展,到技术革命的共识从数字世界延伸到了更大的物理世界,再到阿里云这样的巨头完成进取心明确,开始「先干为敬」……这些客观上的变化,可以看作对过去 18 个月的总结。这也应该成为对 AI 技术革命未来信心的基础。
这能改变整个社会以及资本环境今天对 AI 的「信心回调」吗?理性的看,估计作用有限。
但看清这些,对做事的人,意义重大。因为绝对的共识往往对做事的人都没什么价值,而保持一定的「非共识」才是对 Doer 最好的环境。归根结底,每个人都应该走出 FOMO,完成「进取心归位」。