百图生科与赛诺菲达成战略合作,共同开发人工智能模型,助力生物治疗药物研发

摘要

百图生科的 AI 蛋白质生成平台整合了大语言基础模型及前沿生物技术,通过超大规模计算深度理解蛋白质结构并发现新的功能位点,以此设计大分子药。

美国加利福尼亚州门洛帕克时间 2023 年 10 月 10 日,百图生科(BioMap)宣布与赛诺菲(Sanofi)公司达成一项具有突破性意义的战略合作,双方将基于百图生科生命科学大模型(Life Science AI Foundation Model),共同开发用于生物治疗药物发现的领先模型。

「本次合作是生命科学领域中基于基础模型的最大规模合作,我们很高兴同赛诺菲一道利用百图生科先进的人工智能引擎来解决与新型蛋白质疗法相关的难题,进而推动药物研发。」百图生科首席技术官宋乐博士说。「我们利用公有和私有资源的数据集构建起一张基础蛋白质生物地图,以指导我们的计算模型。与此同时,通过自动化和集成工作流程,我们得以实现高质量数据的可持续收集,进而推进新药研发并优化其进程。」

在人工智能领域,传统方法需要大量标记数据才能进行准确预测。然而,生命科学行业中的标记数据往往存在着供应不足的问题。百图生科研发团队正致力于通过训练一个大参数模型来革新生物领域中的人工智能,该模型使用普遍的未标记数据来为多个下游任务模型提供信息。这种方法使得包括免疫学、神经学、肿瘤学和罕见疾病在内的多个领域能够基于有限的数据进行更精准的预测。

凭借百图生科的定制化基础模型和世界领先的人工智能专业技术,以及赛诺菲的专有数据、蛋白质工程创新和深厚的生物制剂开发经验,双方旨在创建领先的蛋白质大语言模型和人工智能任务模型,以实现生物制剂设计和多参数优化。

「我们可以通过结合赛诺菲的专有数据集、数字基础设施、人工智能和数据科学技术、药物研发的专业知识,以及百图生科的蛋白质大语言模型、高性能计算和对人工智能的深入理解,进而优化突破性生物疗法的研发过程,」赛诺菲全球研究平台负责人 Matt Truppo 表示。「此项合作进一步彰显了赛诺菲致力于成为首家大规模人工智能制药公司的初心与愿景。」

依照协议条款,百图生科将从赛诺菲获得一笔 1000 万美元的预付现金款项,和多项近期的模型开发付款、研发里程碑付款、销售里程碑付款等回报,总交易金额超过 10 亿美元。

借助百图生科生命科学大模型的力量,研究人员可以在药物发现和开发过程的各个阶段进行创新,包括靶点发现、分子设计和优化(图片来源:BusinessWire)

 

关于百图生科-赛诺菲合作的提问与回答

1. 问:人工智能将如何加快药物研发进程?

答:药物研发是一个漫长、曲折且昂贵的过程。即便研究人员确定了有潜能的研发方向,在进行临床前或人体试验时仍有很高的失败率。在生物制药研发中,「反摩尔定律」(Reverse Moore's Law)意味着成功研发一种新药需要耗费 10 亿美元和 10 年的时间。这样的成本令人望而生畏,但并非无可避免。

得益于涵盖 AI 任务模型或大语言模型在内的生命科学 AI 基础模型,研究人员可以在药物研发过程的各个阶段进行创新,包括靶点发现、分子设计和优化。随着基础模型的成熟,其逐渐获得 zero-shot 能力,可以准确地执行未经专门训练的蛋白质预测任务。我们的模型还可以实现新型功能分子的全新设计,带来新的可能与潜力。

从百图生科的角度来看,基础模型的价值在于它们能够从生物数据中理解深层次的相互性及关联性。通过利用大量未标记的数据,这些模型可以提取分子之间的内在联系,并从一个分子的属性学习扩展到多个分子的属性,从而提供端到端的设计,使其涵盖更多新型功能,并满足更多亟待解决的治疗需求。

据此,我们已经开发了一个强大、成熟且独特的基础平台,为新型治疗项目和其他临床场景提供可能。该平台搭载了高水平计算能力,可应用于蛋白质相关的复杂药物研发难题,显著优于传统的分析技术。

2. 问:这种创新合作如何改变患者的生活?

答:我们正在融合协调双方的共同愿景,借力人工智能为患者提供变革性的、未被发现的治疗药物,从而满足医疗需求。我们将融合赛诺菲的专有数据集和药物开发专业知识,以及百图生科的大语言模型、高性能算力和深度蛋白质数据库,从而优化突破性疗法的发现和研发过程。

传统的人工智能方法需要大量的标记数据才能做出准确的预测。然而,在生命科学领域,此类标记数据往往供不应求。百图生科目前依托预训练基础模型,正彻底改变生物学和生物制剂研发领域中的人工智能,通过训练海量未标记数据为下游任务模型提供信息。这不仅增进了对蛋白质结构的独特理解,还帮助我们生成了这些蛋白质结构的测试序列,其结构在不同的情景下会作出相应反应。这种方法能够根据免疫学、肿瘤学、炎症和罕见疾病等一系列治疗领域的有限数据进行出色的精准预测,并显著降低成本,缩短上市进程。

此次合作的重点是开发用于生物制剂设计和优化的特定任务模型,基于人工智能加速药物的开发和优化,并结合其特点和优势解决当下未满足的临床需求,减少患者的等待时间。

3. 问:是什么促成本次合作?

答:作为一家创新型全球医疗健康公司,赛诺菲在研究上投入巨资,于多个疾病领域和疗法中积累了丰富经验和高质量数据。这些独家数据集对于人工智能模型的训练和优化极具价值,可以极大地弥补当前公开数据的缺点,并提供大量适合模型应用的训练场景及验证数据。赛诺菲的专家将与百图生科的人工智能科学家合作,全程指导模型使用数据,并将更多的专业知识融入其中。

双方共同认识到,借助人工智能的优越特性,我们得以挖掘利用这些数据的潜在价值,并转化为可直接促进新药研发的工具。自 2020 年成立以来,百图生科一直致力于在生命科学领域构建起 xTrimo 人工智能模型。当前,该模型已拥有超过 1000 亿参数,在抗体结构、抗体亲和力、酶功能、免疫细胞功能等 20 多个下游预测任务中实现了 SOTA 表现。赛诺菲选择与我们合作,正是认识到百图生科在高质量数据挖掘和利用、跨模型数据集成和分析、任务模型开发和工业效率提升等方面的优势和潜力。

此次合作将结合赛诺菲的专有数据集、数字基础设施、人工智能和数据科学能力以及药物开发专业知识,与百图生科的大语言模型、高性能计算和对人工智能的深刻理解,开发出一系列量身定制的领先 AI 模型,并共同推进其在药物研发中的应用,以加速突破性疗法的实现过程。

4. 问:合作的具体条款是什么?

答:根据协议条款,百图生科将从赛诺菲获得 1000 万美元的预付款现金,和多项近期的模型开发付款。根据达到临床前开发、临床开发、监管和商业里程碑付款等回报,百图生科将获得超过 10 亿美元的总交易金额。

除了赛诺菲的专有数据、蛋白质工程创新、丰富的生物制剂研发经验以及本协议的资金方面之外,双方还旨在搭建起先进的人工智能及大语言模型,以提高蛋白质设计能力,进一步突破百图生科平台的优越学习迭代能力。

5. 问:当前中美局势将如何影响此次国际合作?

答:对跨国公司而言,紧密的全球合作伙伴关系对于科学进步异常重要。通过与赛诺菲的精诚合作,我们得以履行为世界范围内患者提供创新治疗的诺言和使命。我们相信,双方携手将会更好地应对全球挑战,取得突破性进展。

6.问:在您看来,人工智能代表着生命科学的未来吗?

答:人工智能已经对人类健康产生了重大且积极的影响。在患者疗护领域,它通过 AI 驱动的病理学、医学成像和诊断支持来更快地确诊病症,从而协助临床医师展开治疗。在药物研发方面,使用人工智能解决复杂问题并预测疗法有效性能够显著提升研发工作的价值,节约时间成本,同时满足针对罕见疾病和个性化医疗的特质化需求。除此之外,人工智能在生物制造中也占有一席之地,在微调精调高度工程化的化合物和欠稳定的分子方面展现出巨大的潜力。从这个意义上说,人工智能确实具备端到端的潜力。

不过,归根结底,如果没有人类专家,就不可能构建出像百图生科这样的生物科学 AI 平台。为了创建、验证和维护我们的平台系统,我们组建了超过 300 名人工智能和生物科学领域的专家团队。他们是在各自领域接受多年甚至数十年历练的专业人士,不仅具备专业知识,而且在宏观层面上对患者健康具有创造性理解,这也将永远是医学的重要组成部分。

人工智能的目标并非取代研究人员,而是从战略上支持他们缩短整个生命科学和健康领域的投入时间,同时优化突破性疗法的研发过程。

百图生科通过跨模态设计构建起一套基础模型,融合了来自蛋白质单体、复合物和系统的多维生物数据,为分析生命语言提供可能。我们希望借助基础模型的力量,与更多的行业伙伴一道探索与蛋白质设计相关的复杂生命科学问题,包括大分子药物设计及靶点发现等在内的研究方向。

7. 问:并非赛诺菲首次与人工智能公司建立合作关系您认为百图生科有何不同之处?以及合作如何支持赛诺菲的战略?

答:赛诺菲始终是人工智能药物发现技术最先导、最积极的应用者之一,建立了众多由人工智能驱动的研究合作。此次合作的与众不同之处在于百图生科独特的尖端平台,其创造性研发出生命科学领域第一个也是最大的基础蛋白质语言模型。并运用来自数十亿蛋白质序列的 1000 亿个数据点进行训练,为突破性进步与创造性应用打开了可能性的大门。

该领域当前的人工智能提供商已将以任务为中心的模型推向市场。这些模型为赛诺菲和其他大型制药公司的产品组合提供了巨大的价值。百图生科的 xTrimo 模型作为生命科学领域中的 AI 基础模型,是同类中首个也是最大的模型,使得科学家能够从有限的数据中进行深度理解和超级预测,以推动蛋白质设计领域的新应用。该技术完美契合赛诺菲所从事的抗体和纳米抗体研究,也是解锁许多治疗领域新疗法的关键,包括免疫学、肿瘤学、纤维化以及细胞和基因疗法等方向。

我们很高兴与赛诺菲展开合作。作为一家创新的全球医疗健康公司,赛诺菲始终致力于为全球数十亿人提供尖端药物,解决医疗在内的一系列重大健康问题。

8.问:贵公司的技术具体是如何实现并运作的?

答:百图生科的 AI 药物研发平台将基础大语言模型和超大规模计算与尖端生物技术相结合,通过对蛋白质的深入理解来发现新靶点并设计生物制剂。

公司的核心技术始于我们的 AI 基础模型,即接受「未标记数据」训练的尖端机器学习,例如蛋白质序列和来自单细胞 RNA 测序的数据,以理解和执行诸如分析细胞特性等任务,从而实现「生成式人工智能」,供研究人员生成新的蛋白质序列。基础模型在生命科学领域中具有不可估量的潜能和能力,因为它们是构建其他下游「任务」模型的基础,使我们能够更好地利用那些稀少且珍贵的标记数据。我们使用超过 60 亿个蛋白质序列、10 亿个抗体以及来自超过 1 亿个细胞的单细胞数据进行模型训练。迄今为止,我们已经训练了 20 多个 SOTA 任务模型,涵盖各种应用领域。

从应用角度来看,百图生科可以利用我们的平台实现基于给定条件的蛋白质生成。在每个设计中,我们使用生成模型产生数百万甚至数千万个候选序列,随后这些候选序列将进入我们的多参数优化通道,该通道集成了多个专有的 SOTA 模型进行多参数预测和目标蛋白筛选,并经过计算机筛选得到符合设计阈值的候选序列。然后,这些序列将在我们的高通量湿实验室中进行表达和表征。由此产生的有价值的实验数据将通过主动学习重新整合到 AI 模型中,以指导进一步的模型优化。凭借我们的技术平台,研发人员得以绕过抗体生成的传统免疫过程,妥善处理那些不具备成药性的靶点(undruggable targets)及其带来的风险与挑战。

关于百图生科

百图生科(BioMap)是一家颠覆性的生命科学人工智能大模型公司,由李彦宏和刘维于 2020 年创立,公司致力于结合前沿 AI 和生物技术,构建了以蛋白质语言为核心的千亿参数生命科学基础大模型「xTrimo」平台,建模生物演化,解码生命规律,为生命科学行业的前沿发现问题带来生成能力,在创新药物设计、靶点发现、酶的从头设计等领域实现系列突破性成果,从而助力人类健康和社会可持续发展。

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。