图灵奖的获奖者们,担心成为 AI 界的「奥本海默」

摘要

曾经 AI 奠基者,如今是「反 AI」先锋。

1947 年,艾伦·图灵在一次演讲中提到「我们想要的是一台能够从经验中学习的机器」。

 

78 年后,以图灵命名,有着「计算机界诺贝尔奖」之名的图灵奖,颁给了两位毕生致力于解决图灵这一问题的科学家。

安德鲁·巴托(Andrew Barto)与理查德·萨顿(Richard Sutton)共获 2024 年度图灵奖,二人是相差九岁的师徒,是 AlphaGo 和 ChatGPT 技术上的奠基人,亦是机器学习领域的技术先驱。

图灵奖获奖者安德鲁·巴托(Andrew Barto)与理查德·萨顿(Richard Sutton)|图片来源:图灵奖官网

谷歌首席科学家 Jeff Dean 在颁奖词里写道「由巴托和萨顿开创的强化学习技术,直接回答了图灵的问题。他们的工作是过去几十年 AI 进步的关键。他们开发的工具仍是 AI 繁荣的核心支柱……谷歌很荣幸赞助 ACM A.M. 图灵奖。」

图灵奖 100 万美元奖金的唯一赞助方即是谷歌

而在获奖后,站在聚光灯下的两位科学家却剑指 AI 大公司,他们对媒体发出「获奖感言」:现在的 AI 公司在「受到商业激励」而非专注于技术研究,在社会上「架起一座未经测试的桥梁,让人们过桥来测试。」

无独有偶,图灵奖上一次颁发给人工智能领域的科学家,是在 2018 届,约书亚·本希奥、杰弗里·辛顿、杨立昆三位因在深度学习领域的贡献而获奖

2018 年图灵奖获得者们|图片来源:eurekalert

其中,约书亚·本希奥和杰弗里·辛顿(亦是 2024 年诺贝尔物理学奖获奖者)两位「人工智能教父」在最近两年的 AI 浪潮里,也频繁呼吁全球社会和科学界警惕大公司对人工智能的滥用。

杰弗里·辛顿更是直接从谷歌辞了职,以便「畅所欲言」,这次获奖的桑顿,在 2017 - 2023 年也曾任 DeepMind 的研究科学家。

当计算机界的最高荣誉一次次被授予给 AI 核心技术的奠基者们时,一个耐人寻味的现象逐渐浮现:

为何这些站上巅峰的科学家,总会在聚光灯下转身敲响 AI 的警钟

 

01

 

人工智能的「造桥者」

 

如果说艾伦·图灵是人工智能的引路人,那安德鲁·巴托和理查德·萨顿就是这条道路上的「造桥者」。

在人工智能飞驰之时,在被授予礼赞之后,他们在重新审视自己搭建的桥梁,能否承载人类安全通行?

或许答案正藏在他们跨越半个世纪的学术生涯中——唯有回溯他们如何构建了「机器的学习」,才能理解他们为何警惕「技术的失控」。

图片来源:卡耐基梅隆大学

1950 年,艾伦·图灵在其著名论文《计算机器与智能》中,开篇就提出一个哲学和技术问题:

机器能思考吗?

由此,图灵设计出了「模仿游戏」即后世广为人知的「图灵测试」。

同时图灵提出,机器智能可以通过学习获得,而不是仅依赖事先编程。他设想了「儿童机器(Child Machine)」的概念,即通过训练和经验,让机器像孩子一样逐步学习。

人工智能的核心目标是构建出能感知、并采取更好行动的智能体,而衡量智能的标准,即智能体有判断「某些行动比其他行动更好」的能力。

机器学习的目的就在于此,给予机器行动后相应的反馈,并且能让机器自主地在反馈经验中学习。换言之,图灵构思出基于奖励和惩罚的机器学习方法与巴普洛夫训狗无异

我在游戏里越玩越败越强,也是一种「强化学习」|图片来源:zequance.ai

由图灵引出的机器学习之路,在三十年后,才由一对师徒建出了桥——强化学习(Reinforcement Learning,RL)。

1977 年,安德鲁·巴托受到心理学和神经科学的启发,开始探索一种人类智能的新理论:神经元就像「享乐主义者」,人类大脑内数十亿个神经元细胞,每个都试图最大化快乐(奖励)并最小化痛苦(惩罚)。而且神经元并不是机械地接收信号和传递信号,如果某个神经元的活动模式导致了正反馈,它就会倾向于重复这个模式,由此共同驱动了人类的学习过程。

到了 1980 年代,巴托带上了他的博士生理查德·萨顿,想把这套「不断尝试、根据反馈调整连接,找到最优的行为模式」的神经元理论应用在人工智能上,强化学习就此诞生。

《强化学习:导论》成为经典教材,已被引用近 80000 次|图片来源:IEEE

师徒二人利用马尔可夫决策过程的数学基础,开发并编写出了许多强化学习的核心算法,系统地构建出了强化学习的理论框架,还编写了《强化学习:导论》教科书,让数万名研究人员得以进入强化学习领域,二者堪称强化学习之父。

而他们研究强化学习的目的,是为了探寻出高效准确、回报最大化、行动最佳的机器学习方法。

 

02

 

强化学习的「神之一手」

 

如果说机器学习是「填鸭式」学习,那强化学习就是「放养式」学习。

传统的机器学习,就是给模型被喂大量标注好的数据,建立输入和输出之间固定的映射关系。最经典的场景就是给电脑看一堆猫和狗的照片,告诉它哪张是猫、哪张是狗,只要投喂足够多的图,电脑就会辨认出猫狗。

而强化学习,是在没有明确指导的情况下,机器通过不断试错和奖惩机制,逐渐调整行为来优化结果。就像一个机器人学走路,不需要人类一直告诉它「这步对,那步错」,它只要尝试、摔倒、调整,最终自己就会走路了,甚至走出自己独特的步态。

显而易见,强化学习的原理更接近人类的智能,就像每个幼童在跌倒里学会走路,在摸索中学会抓取,在咿呀里捕捉音节,学会语言。

爆火的「回旋踢机器人」背后也是强化学习的训练|图片来源:宇树科技

强化学习的「高光时刻」,正是 2016 年 AlphaGo 的「神之一手」。当时 AlphaGo 在与李世石的比赛中,第 37 手落下了一步令所有人类惊讶的白棋,一步棋逆转败势,一举赢下李世石。

围棋界的顶级高手和解说员们,都没有预料到 AlphaGo 会在该位落子,因为在人类棋手的经验里,这步棋下的「莫名其妙」,赛后李世石也承认,自己完全没有考虑过这个走法。

AlphaGo 不是靠背棋谱背出来的「神之一手」,而是在无数次自我对弈中,试错、长远规划、优化策略后自主探索出来,这既是强化学习的本质。

被 AlphaGo「神之一手」打乱节奏的李世石|图片来源:AP

强化学习甚至反客为主影响人类智能,就像 AlphaGo 露出「神之一手」后,棋手开始学习和研究 AI 下围棋的走法。科学家们也在利用强化学习的算法和原理,试图理解人类大脑的学习机制,巴托和桑托的研究成果之一,即建立了一种计算模型,来解释多巴胺在人类决策和学习中的作用。

而且强化学习特别擅长处理规则复杂、状态多变的环境,并在其中找到最优解,比如围棋、自动驾驶、机器人控制、与语焉不详的人类谈笑风生。

这些正是当下最前沿,最热门的 AI 应用领域,尤其是在大语言模型上,几乎所有领先的大语言模型都使用了 RLHF(从人类反馈中强化学习)的训练方法,即让人类对模型的回答进行评分,模型根据反馈改进。

但这正是巴托的担忧所在:大公司建好桥后,用让人们在桥上来回走的方法,来测试桥的安全性。

「在没有任何保障措施的情况下,把软件直接推给数百万用户,并不是负责任的做法,」巴托在获奖后的采访里说道。

「技术的发展本该伴随着对潜在负面影响的控制和规避,但我并没有看到这些 AI 公司真正做到这一点。」他补充道。

 

03

 

AI 顶流到底在担心什么?

 

AI 威胁论没完没了,因为科学家最害怕亲手缔造的未来失控。

巴托和桑顿的「获奖感言」里,并无对当前 AI 技术的苛责,而是充斥着对 AI 公司的不满

他们在采访里都警告表示,目前人工智能的发展,是靠大公司争相推出功能强大但容易犯错的模型,他们借此筹集了大量资金,再继续投入数十亿美元,展开芯片和数据的军备竞赛。

各大投行都在重新估值 AI 行业|图片来源:高盛

的确如此,根据德意志银行的研究,当前科技巨头在 AI 领域的总投资约为 3400 亿美元,这一规模已经超过希腊的年度 GDP。行业领头羊 OpenAI,公司估值达到 2600 亿美元,正准备展开新一轮 400 亿美元的新融资。

实际上,许多 AI 专家都和巴托和桑顿的观点不谋而合。

此前,微软前高管史蒂芬·辛诺夫斯基就曾表示,AI 行业陷入了规模化的困境,靠烧钱换技术进步,这不符合技术发展史中,成本会逐渐下降而不是上升的趋势。

就在 3 月 7 日,前谷歌 CEO 埃里克·施密特、Scale AI 创始人 Alex Wang、AI 安全中心主任丹·亨德里克斯三人联名发表了一篇警示性论文。

三位科技圈顶流认为,如今人工智能前沿领域的发展形势,与催生曼哈顿计划的核武器竞赛相似,AI 公司都在悄悄进行自己的「曼哈顿计划」,过去近十年里,他们对 AI 的投资每年都在翻倍,如不再介入监管,AI 可能成为自核弹以来最不稳定的技术

《超级智能战略》及合著者|图片来源:nationalsecurity.ai

因深度学习在 2019 年获得图灵奖的约书亚·本希奥,也在博客中发长文警告,如今 AI 产业有数万亿美元的价值供资本追逐和抢夺,还有着足以严重破坏当前世界秩序的影响力。

诸多技术出身的科技人士,认为如今的 AI 行业,已经偏离了对技术的钻研,对智能的审视,对科技滥用的警惕,而走向了一种砸钱堆芯片的大资本逐利模式。

「建起庞大的数据中心,收用户的钱还让他们用不一定安全的软件,这不是我认同的动机。」巴托在获奖后的采访里说道。

而由 30 个国家,75 位 AI 专家共撰的第一版《先进人工智能安全国际科学报告》中写道「管理通用人工智能风险的方法往往基于这样一种假设:人工智能开发者和政策制定者,可以正确评估 AGI 模型和系统的能力和潜在影响。但是,对 AGI 的内部运作、能力和社会影响,科学理解其实非常有限。」

约书亚·本希奥的警示长文|图片来源:Yoshua Bengio

不难看出,如今的「AI 威胁论」,已经把矛头从技术转向了大公司。

专家们在警告大公司:你们烧钱,堆料,卷参数,但你们真正了解你们开发的产品吗?这亦是巴托和桑顿借用「造桥」比喻的由来,因为科技属于全人类,但资本只属于大公司。

何况巴托和桑顿一直以来的研究领域:强化学习。它的原理更贴合人类智能,且具有「黑箱」特色,尤其是在深度强化学习中,AI 行为模式会变得复杂且难以解释。

这也是人类科学家的担忧所在:助力和见证了人工智能的成长,却难以解读它的意图

而开创了深度学习和强化学习技术的图灵奖获奖者们,也并不是在担心 AGI(通用人工智能)的发展,而是担心大公司之间的军备竞赛,在 AGI 领域造成了「智能爆炸」,一不小心制造出了 ASI(超级人工智能),两者的分野不仅是技术问题,更关乎人类文明的未来命运。

超越人类智能的 ASI,掌握的信息量、决策速度、自我进化的水平,将远超人类的理解范围,如果不对 ASI 进行极为谨慎的设计和治理,它可能成为人类历史上最后一个,也是最无法抗衡的技术奇点。

在 AI 狂热的当下,这些科学家或许是最有资格「泼冷水」的人。毕竟五十年前,在电脑还是个庞然大物时,他们就已经开启了人工智能领域的研究,他们从过去塑造了当下,也有立场去怀疑未来。

AI 领导者会迎来奥本海默式的结局吗?|图片来源:经济学人

在 2 月《经济学人》的采访里,DeepMind 和 Anthropic 的 CEO 表示:

会因担心自己成为下一个奥本海默,而彻夜难眠

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。