AI4S进入预训练模型时代!深势科技Uni-Mol超进化屠榜OGB-LSC,开拓材料设计新天地

摘要

新一代 AI4S 领域的基础设施

Uni-Mol 是由深势科技于 2022 年 5 月发布的一款基于分子三维结构的通用分子表征学习框架,论文被机器学习顶会 ICLR 2023 接收。Uni-Mol 性能优越、模型泛化能力强,在小分子性质预测、蛋白靶点预测和蛋白-配体复合物构象预测等任务上都超越之前方法。Uni-Mol 被应用于深势科技的多个产品中,也获得了大量学界和业界研究人员的广泛关注。同时,我们成功把 Uni-Mol 应用在了例如材料设计等更多领域,并取得了优异成果。最近,我们对 Uni-Mol 的模型框架进行了大幅升级,推出了 Uni-Mol+,并在国际权威学术竞赛 OGB-LSC 的量子化学性质预测上获得了榜首。我们会在本文详细介绍这些内容,并在 Bohrium®科学计算云平台上提供了 Uni-Mol 使用案例。

Uni-Mol 论文:https://openreview.net/forum?id=6K2RM6wVqKu

Uni-Mol+ 预印论文:https://github.com/dptech-corp/Uni-Mol/blob/main/unimol_plus/paper/unimol_plus_preprint.pdf

开源代码:https://github.com/dptech-corp/Uni-Mol

Uni-Mol 在各类任务上都表现优异,超越之前的最好方法。图中内部灰色区域为之前的最好方法的效果,外部多种颜色区域描述的是是 Uni-Mol 在多种任务上超出之前最好方法的百分比。

Uni-Mol+: 单模型独领风骚,轻松碾压暴力融合方案

OGB-LSC (Open Graph Benchmark, Large Scale Challenge) 是一项由斯坦福大学发起的学术竞赛,旨在评估机器学习在大规模图数据上的表现。该竞赛首次在 KDD CUP 2021 上举办,吸引了来自 DeepMind、微软、NVIDIA、UCLA 等顶尖企业和高校的 500 多个参赛队伍,备受业界关注。近年来,越来越多的新型图机器学习模型也加入到这个比赛中,以证明自己的模型性能。可以说,OGB-LSC 已成为公认的检验图机器学习模型性能的最佳试金石,类似于 ImageNet 在图像领域的地位

最近,深势科技推出了 Uni-Mol+,这一新模型进一步增强了性能,同时还在 OGB-LSC 的量子化学性质预测任务上夺得了冠军。值得一提的是,Uni-Mol+仅使用了单个模型,没有使用任何额外的提分技巧。相比之下,之前的冠军方法不仅融合了 100 多个模型,还额外把验证数据集用于模型训练。从这点来看,Uni-Mol+的模型能力非常强大。

 

相较于之前的方法,Uni-Mol+ 在整体框架、模型结构和训练策略等方面都进行了创新。在整体框架方面,Uni-Mol+ 基于低成本的方法如 RDKit/Openbabel 生成初始构象,并通过迭代优化这些构象,使其逼近 DFT 方法得到的高精度稳态构象。这样一来,可以通过基于模型优化后的构象来获得更精确的量子化学性质预测结果。在模型结构方面,Uni-Mol+ 进一步加强了 Uni-Mol 的双分支 Transformer 结构,以更好地捕捉三维空间的信息。而在训练策略方面,Uni-Mol+ 提出了一种新的方法,即线性轨迹注入,可以更有效地学习 DFT 构象的优化。关于这些细节可以参考我们的开源代码和论文。

Uni-Mol Universe更多的应用场景

1. Uni-Mol forQSAR

QSAR 是定量构效关系(Quantitative Structure-Activity Relationship)的缩写,是一种基于化合物结构预测化合物的生物活性和生化性质的计算方法。该方法通过将分子结构与其物理、化学性质及生物活性相关联,然后构建一个模型,以期该模型可以预测新的化合物的生物活性。QSAR 在药物设计、环境毒理学和农药研究等领域中得到广泛应用

Uni-Mol based Auto-QSAR (Uni-QSAR) 是一套基于 Uni-Mol 模型开发的自动化分子属性预测工具,可供专业领域相关人员使用。我们对目前主流的 QSAR 工具在 TDC ADMET Group Benchmark 上的测评结果进行了比较。TDC(Therapeutics Data Commons) 是哈佛医学院主导开发的一个基准平台,其中 ADMET 包含了药物小分子的吸收、分布、代谢、排泄和毒性五个方面的指标。这些因素对药物的疗效和安全性有着至关重要的影响。在药物研发过程中,需要对药物的 ADMET 特性进行评估和优化,以提高药物的成功率,减少不良反应的发生。Uni-QSAR 在这些任务上表现出了非常优异的效果。通过结合 Uni-Mol 和高效的自动化工作流,用户不需要关注模型细节,无需调参,即可自动化地进行特征构造和筛选。同时,Uni-QSAR 也考虑到了样本不平衡性和预测任务类型的多样化(分类、回归、多任务学习、缺失值训练等等),用户只需要关注自己的任务本身。

Uni-QSAR 的内测版本已经成功地应用于国际知名的快速消费品牌 Top3 之一,表现出了优秀的预测能力。在多个数据库中,预测的准确性都有明显提升,超过了其他方案。该项目已经完成了首轮交付,并且正在探索未来的合作空间。同时,Uni-QSAR 也即将上线 Hermite®药物计算设计平台,敬请期待。

 

2. Uni-Mol for Materials

Uni-Mol 在材料领域也积累了不少的应用和案例,以下我们会选取 MOF 和 OLED 两个经典案例分别阐释 Uni-Mol 的通用性和预测能力的扩展

MOF 材料是一种由金属离子或者簇合物和有机配体组成的多孔晶体材料,对 MOF 材料的气体吸附研究具有重要的理论和实际意义,例如,可以用于环境污染控制、能源储存和转换、化学催化等领域。

基于 Uni-Mol,我们设计训练了一个跨体系的模型 Uni-MOF,可以对不同的气体(甚至未知的气体)、在不同的环境下面(温度、压强等)进行预测,其结果也大幅超越了之前单体系模型。这种建模思路也非常契合目前大火的 ChatGPT,可以认为我们是在 MOF 吸附领域实现了大一统模型,具体细节可以关注我们即将发布的论文。

 

 

我们也把 Uni-Mol 成功拓展到 OLED Ir(III) 体系的大规模虚拟筛选上面,用于搜索性能更好的 OLED 发光材料

OLED Ir(III) 体系是一种基于有机发光二极管(OLED)技术的发光材料体系,其中使用了含铱(Ir)的荧光材料。这种体系具有高效、低功率消耗、高亮度和高稳定性等优点,因此在电子显示领域有广泛的应用。其中,Ir(III) 配合物材料具有较高的荧光效率和发光寿命,可以用于制备高效的红、绿、蓝光发射器件。OLED Ir(III) 体系在智能手机、平板电脑、电视、汽车仪表盘等领域都有着广泛的应用前景。

通过利用 Uni-Mol 强大的预测能力,我们可以极大地降低额外的计算成本,同时高通量的筛选迭代也能够进一步提高模型的预测效果(如下图左图所示)。这种大模型训练和 QM 小规模计算相互迭代的思路也将成为材料研发的一种新型范式。从下图右图所示的结果可以看出,Uni-Mol 也满足了 OLED 材料的筛选基本要求,例如需要光色尽可能纯和 plqy 尽可能大。

更多细节,请参阅我们在 ChemRxiv 上的预印本文章:https://chemrxiv.org/engage/chemrxiv/article-details/6412d142aad2a62ca1d86505。

除了 MOF 和 OLED,Uni-Mol 还可应用于更多的材料设计任务。由于篇幅所限,无法一一描述,期待不同背景的研究者与我们一起探索 Uni-Mol 的潜力。

 

Uni-Mol讲解教程及,在线 Notebook 体验

关于 Uni-Mol 详细的原理讲解,可以关注青年科学论坛上的报告(报告详见:https://www.bilibili.com/video/BV1Kb411d7fd/?vd_source=c8f4712b9892a47ee66136a66142861b),报告中使用深势科技推出的科学计算平台上的 Bohrium Notebook 展示了如何将 Uni-Mol 快速地应用在分子性质预测的任务上。

在 Bohrium Notebook 上,我们准备了一系列基于 Uni-Mol 的封装好的软件库,与开源版本不同的是,这些小工具和软件包更加适配于应用层,环境和软件包都是内置安装好的,同时接口也进行了二次开发,可扩展性更高。用户只需要关注其具体的数据和应用。同时我们也持续收集用户的反馈,进行开发迭代。大家可以点击下面的链接直接进行体验测试:

  • 分子属性预测案例

     

https://bohrium.dp.tech/notebook/fffab22768fb4bfdba10578d7de174b5,Bohrium Notebook 可以自动地加载运行环境,通过几行代码即可对于自己的数据任务进行训练、预测,生成自己的属性预测工作流。

  • Uni-Mol Docking 案例

https://bohrium.dp.tech/notebook/0369c15de1e14300b1423006d17a74d4,Bohrium Notebook 目前仅展示了对于 CASF-2016 的 docking 结果,大家可以自由选取靶点和对应的配体分子,然后进行 docking,后续会开放更多的功能。

 

未来展望

Uni-Mol+展现出的优异性能展现了其在 AI4S 领域中的巨大潜力,深势科技正在将 Uni-Mol+与产品功能深度融合,以用户触手可及的交互形式,赋能药物设计、材料设计等相关领域。

我们也正在进一步改进和迭代下一代 Uni-Mol,非常欢迎感兴趣的伙伴加入我们,共同建设新一代 AI4S 领域的基础设施。

 

关于Bohrium®

Bohrium®是深势科技打造的微尺度科学计算云平台,深度优化第一性原理计算、分子动力学等微尺度科学计算算法与软件,提供海量高性能算力与高效便捷的计算模拟环境。Bohrium®致力于打造团队协作式的科研平台,以赋能微尺度科学研究与工业设计。

通过对从理论到实践、从需求到解决方案的不断优化和理解,Bohrium®希望成为最方便老师教学的平台、最方便学者科研的平台,让教师从此有更多精力专注于教学,让学者从此有更多精力专注于科研,解放科学家们的生产力。

Bohrium®官方网站:https://bohrium.dp.tech/

如有相关问题,欢迎垂询 bohrium@dp.tech 体验

 

关于深势科技

深势科技是「AI for Science」科学研究范式的引领者和践行者,致力于运用人工智能和分子模拟算法,结合先进计算手段求解重要科学问题,为人类文明最基础的生物医药、能源、材料和信息科学与工程研究打造新一代微尺度工业设计和仿真平台。

我们开创性地提出了「多尺度建模+机器学习+高性能计算」的革命性科学研究新范式,并推出了 Bohrium®微尺度科学计算云平台、Hermite®药物计算设计平台等微尺度工业设计基础设施,颠覆了现有研发模式,打造「计算引导实验、实验优化设计」的全新范式,为药物、材料领域带来极具突破性的计算模拟及设计工具。

深势科技是国家高新技术企业、北京市「专精特新」中小企业,总部位于北京,并在上海、深圳、海口等城市布局研发中心。科研技术团队由中国科学院院士领衔,汇集了超百位数学、物理、化学、生物、材料、计算机等多个领域的优秀青年科学家和工程师,其中公司的博士及博士后占比超过 35%。核心成员获得过 2020 年全球计算机高性能计算领域的最高奖项「戈登贝尔奖」,相关工作当选 2020 年中国十大科技进展和全球 AI 领域十大技术突破。

 

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。