吕骋比过去任何时候都更接近他十年前所分享的未来愿景,天下无 APP。
据外媒 12 月 20 日消息,由华人创立的 AI 公司 rabbit 又获得了一笔千万美元的融资,这是他们近 2 个月所获得的第 3 笔融资。
2 个月前,他们获得美国著名科技富豪、风险投资家科斯拉(Vinod Khosla)投资千万美元;随后再获韩国互联网巨头 Kakao 投资数百万美元;而最近这笔投资则是科斯拉继续加注。
据相关人士透露,rabbit 近期在内部进行了一次大型行为模型的技术展示,他们的技术和产品的进展速度得到了科斯拉团队的认可和赞赏,于是做出了追加投资的决定。这 3 笔融资的总额为 3000 万美元。
rabbit 是一家基于大型行为模型(LAM,Large Action Model)研发下一代操作系统的 AI 公司,用户可用自然语言与机器进行对话交互,新系统(rabbit OS)不但能理解人的复杂意图,还能直接帮人操作应用程序完成任务——用此替代目前用户与手机 APP 的触控交互,进一步革新人机交互的效率和体验。
2023 年 1 月,这家公司曾发布技术预览版 Quantum Engine,用户可以上传剧本,选择角色与 NPC 自由互动,由 AI 实时生成无限剧情,当时用户率先体验通过实时语音与 AI 即时交互,有国内用户用《甄嬛传》和《黑客帝国》进行剧情体验,一度引发关注讨论。后来有媒体在 2.14 情人节用预览版的技术引擎进行了一次 24 小时不间断的 AI 直播测试,吸引上了万人观看,引发传媒界讨论该如何与 AI 技术进行业务结合。
几个月后,他们公布技术预览中的两项核心技术 kernel 和 LAM 已获得技术专利,将用于下一代操作系统 rabbit OS 的研发当中。
那时,硅谷正掀起一波关注 AI Agent 的热潮,很多人围绕着大型语言模型(LLM,Large Language Model)探索如何让 AI 帮助人类自主完成任务,如 AutoGPT 等。
而 LAM 的出现将这一讨论推向了另一个技术维度——虽然 LLM 的能力很强大,但总不能依赖它解决所有问题,或许我们需要一个新的大模型来帮我们操作执行。
LLM 基于文本进行学习训练,而 LAM 则是直接基于应用程序的交互界面进行学习,这让 LLM 和 LAM 呈现出能力区别:LLM 可以理解人的意图,而 LAM 可以真正操作实现意图。
这一想法最早得到了科斯拉的认可。他是 OpenAI 的首位风险投资人,对 LLM 有着深刻认知,在与 rabbit 的一次交流后决定投资支持他们关于 LAM 的技术想法。此后,这支创业团队和他们研发的 LAM 得到越来越多投资人和互联网巨头的重视。
这支团队由技术专家、工程师和连续创业者组成,其创始人吕骋是 AI 领域的连续创业者,他在 2014 年所创立的渡鸦科技,于 2017 年被百度收购,后来赴美国继续创业成立「Cyber Manufacture Co.」,近期更名为「rabbit inc.」。
网上流传着一份吕骋十年前在宁波 TEDxMoonLake 上的视频,时年 23 岁的吕骋分享主题为《交互理念与未来操作系统初探》,其核心观点是:以 APP 为基准的操作系统违背了人类的自然交互逻辑,未来的操作系统应该去掉 APP 的外壳,让人以更自然的方式进行人机交互。
2013 年,吕骋在宁波 TEDxMoonLake 演讲
随着大型语言模型的发展抵达技术奇点,以及大型行为模型的创新研发得到行业的更多认可,吕骋比过去任何时候都更接近他十年前所分享的未来愿景,天下无 APP。
01 LAM 崛起:剑指 APPS 冗余低效
如今我们每个人的手机上都安装了几十上百个不同的 APP,一项美国的调查数据显示,平均每部手机安装了 80 个不同的 APP,而每天都会使用的 APP 平均为 9 个。
过分冗余的 APP 现象对消费者和开发者都造成了困扰。用户不得不下载多个功能重复的 APP 进行对比使用,在实现某个意图时不得不来回切换好几个 APP 才能完成操作,比如在一次家庭旅行的安排过程中,我们需要用 IM 沟通,还需要订票、定酒店、租车、预定餐厅等等任务,这往往需要我们切换十几个 APP,耗费几个小时才能完成。
而在开发端,一方面严重造成了重复开发资源浪费,另一方面还导致了不健康的开发倾向——不择手段地将用户留在自己的 APP 上消耗时间,谋求更多的用户使用时间以换取更高的流量价值,而不是更有效率地帮助用户实现任务意图。
随着用户使用智能设备的时间越来越长,困在冗余 APPS 中所浪费的时间也越来越多。
而这一现象的根源在于目前的主流操作系统,无论是电脑端还是移动端,都是在某种参数规则的限制内进行构建,遵循严格而传统的用户界面(UI/UX)进行交互,虽然人们已经被这种交互界面所「驯化」了十几年,但它仍不是最自然、最简单、最高效的理想交互方式。比如,当我们使用市政、银行等功能复杂的 APP 时,需要费不少功夫去学习相关服务的操作指引。
大型行为模型 LAM 则希望终结这一现象,以此为技术基础的下一代操作系统 rabbit OS 可以实现通过自然语言对话的方式准确理解用户的意图,进而自主找到最适合用户需求的应用程序,并直接完成任务所需要的操作步骤。而对于用户来说,只需要用自然语言说话或者打字告诉它就好。
LAM 的使用体验与 Siri 等语音助手看上去有相似之处,但实则有着本质区别:Siri 遵循着传统操作系统和 APP 的规则限制,它受限于 APP 的授权和 API 接口,但 LAM 则可以突破 APP 的限制,无论是否开放 API,它都可以在云端服务器上像真人操作一样完成各种任务的应用操作。就比如你可以「嘿,Siri 帮我放一首歌!」但你无法实现「嘿,Siri,帮我订一份最爱吃的披萨送到家里」。但 LAM 可以,因为它知道你爱吃什么披萨、收货地址,并且有能力帮你操作设备上的应用程序。
作为下一代操作系统的核心技术,在帮助用户执行任务的过程中,LLM 与 LAM 的角色功能同等重要,前者用于理解用户意图,后者用于执行用户意图。
rabbit 在官网上公布了他们在大型行为模型 LAM 研发过程中的相关资料,与行业共享对这一技术思考。
02 LAM 研发:软硬件同步开发,即将发布 rabbit OS 智能硬件
用自然语言实现人机交互,而不是触摸互动的技术探索始于 10 年前的智能音箱设备。随着人工智能技术进步,尤其是 ChatGPT 的出现加速了探索进程。
rabbit 研发团队尝试过用最先进的 LLM 模型进行应用程序的理解任务。尽管 LLM 已经表现出理解和利用应用程序编程接口的能力,但应用程序的用户界面与文本内容有着根本性的不同,这导致 LLM 的任务表现不如人意。
任何交互操作的界面都需要 LLM 进行预处理的步骤——将操作动作转化为原始文本、光栅化图像或某些标记化序列向 LLM 进行提示,然后再让它形成执行动作的命令推理,让 LLM 充当「理解端」到「执行端」的翻译器,但是它很难完成好这个任务。
这种使用 LLM 进行交互执行的方式还有一些显著的缺点,比如将操作动作转化为标记化序列或像素数组会丢弃了应用程序中包含的重要结构信息,又比如解释操作步骤和操作逻辑的文本太长、太晦涩,即使是使用最强大的大型语言模型也难以理解。
除了 LLM 难以实现预期以外,想实现新的自然语言交互体验面临一系列问题,其中最重要的就是在目前流行的操作系统规则下无法获得足够的 API 来实现各种应用程序的操作。
于是,rabbit 训练了新的大型行为模型 LAM 来解决上述问题。让 LAM 通过观察模仿人类使用应用程序交互界面的过程,进行可靠的学习复制。LAM 很快学会了在人类演示中各种应用程序的界面逻辑,哪些符号按键代表什么意思?如果点击会进入怎样的新界面?不同应用程序之间的 UI 设计有什么异同,虽然颜色和形状会不一样,但交互逻辑其实完全一样……
如此一来,LAM 掌握了足够的人机交互的知识,可灵活用于各种应用程序的执行操作,无论应用界面如何迭代改变,LAM 依然能像真人一样理解每个功能按键的位置和意义。
LAM 学习应用操作界面的过程。来源:rabbit.tech
这也让 LAM 和传统的 RPA(机器人流程自动化)有了本质区别:后者只是基于用户界面的坐标系进行仿真点击操作,一旦用户界面发生改变、按键位置偏移,RPA 便会失灵,其稳定性尚不如 API;而 LAM 可以真正理解用户界面的变化,自主找到任务所需的操作步骤从而执行完成。
同时,这一训练过程让 LAM 的学习过程更容易被观察,而不是在黑盒模型中进行推理,从而导致无法控制地输出操作动作。
rabbit 团队表示:LAM 处于语言建模 (LM)、编程语言 (PL) 和形式方法 (FM) 跨学科科学研究的最前沿,从长远来看,LAM 展示了自己版本的「缩放法则」,其中它学到的动作可以推广到各种应用,甚至是生成性应用。
研发团队使用内部标准对 LAM 的实操能力进行了初步评估:虽然尚处于研究早期,但 LAM 已经展露出竞争力,比如在网站应用的导航任务中表现不俗。
rabbit 表示,虽然 LAM 以及 rabbit OS 可以轻松运行在任何智能设备上,但需要给它提供一个更高级别的安全性和可拓展性来进行训练。同时,为了保证 LAM 能够拥有更好的用户交互体验,真正实现用自然语言完成复杂的人机交互,他们还进行了硬件设备 r1 的开发,将搭载具有 LAM 能力的下一代操作系统 rabbit OS。
目前 rabbit 官网已经开启 r1 发布会的邮件预约,将会在 2024 年 1 月 9 日(美国西部时间)正式发布。
其官网 rabbit.tech 已开启预约
rabbit 和瑞典的 Teenage Engineering 团队共同完成了 r1 的工业设计,这也是吕骋跟 Teenage Engineering 的再次合作,他们曾共同推出智能音箱设备 Raven H,被《华尔街日报》评为 CES 2018 最佳产品。