您的位置:首页 >新闻 >

第四范式开发用于分子性质预测的生成式3D预训练模型

2023-07-12 10:41:40    来源:DoNews

DoNews7月12日消息,第四范式基于生成式3D预训练大模型在分子性质预测领域的最新研究成果,近日被国际顶会KDD 2023收录。


(资料图)

论文内容已经发布到arxiv,代码已开源。论文作者是4Paradigm AutoGraph团队。

分子性质预测是药物发现和材料科学等领域中的一个重要问题。考虑到分子的3D结构信息与其性质紧密相关,近年来,一个主流的研究热点是将分子的3D结构信息与各种以图学习为代表的机器学习方法结合,以提高分子性质的预测性能。

然而,由于高昂的计算成本,在大规模数据实时计算分子的3D结构几乎是不可行的。

图1:cc(=o)oc1=cc=cc=c1c(=o)o的2D分子图(左)和3D构象图(右)。

面对这一挑战,第四范式提出了一个以预训练范式为基础的大模型,专门用于分子性质预测。预训练范式隶属于 AIGC 的一个重要技术分支[2],其能处理大规模数据集并提取深层次特征,充分利用了大模型的优势。

本文在分子领域结合已有的3D分子构象进行预训练,并在实际下游任务中只基于分子的2D结构信息进行微调并进行性质预测,从而在保证高效的前提下进一步提升在下游任务上的表现。

在这项工作中,第四范式提出了一种自动化3D预训练框架:3D-PGT。基于分子的化学键长、键角和二面角是对应于完整分子3D构象的三个基本几何描述符这一事实,第四范式对应设计了三个生成式预训练任务,使得模型通过预训练能够具备编码3D几何结构的能力。而为了自动化分配这三个预训练任务的权重以融合成一个总体的预训练目标函数,第四范式基于分子总能量设计了一个surrogate metric,从而自动搜索三个预训练任务的权重分布。

图2:分子性质预测问题的核心问题示意:如何兼具更快的推理速度和更小的推理误差。

为了验证所设计的预训练框架的有效性,第四范式基于已测定 3D 结构的公开分子数据集进行了预训练,并在 8 个量子化学性质预测任务和 12 个涉及药理学、分子化学的下游任务上进行微调和实验验证。

结果表明,3D-PGT能通过3D预训练带来明显的性能增益,且优于其他预训练 baseline。这再次证明了在分子性质预测领域,大模型处理复杂任务和大规模数据的优势。

同时,基于 3D-PGT 的方法还在催化剂仿真挑战 Open Catalyst Challenge 2022 上取得第 3,在大规模分子性质预测挑战 OGB-LSC@NeruIPS challenge 2022 中取得第 8 名的成绩。

2.  背景介绍

分子性质作为描述分子特征和行为的基本属性,在药理学、材料化学等研究领域和具体应用都有着重要意义。然而分子性质的测定往往需要借助成本高昂的计算方式,例如以密度泛函理论(Density Functional Theory, DFT)为代表的计算化学方法。

近年来,随着大规模量子化学计算和高通量实验的技术进步,一个新兴的工业界和学术界热门的研究方向,是利用具有适当归纳偏置的机器学习方法并结合已测定性质的大量分子数据,实现高效的分子性质预测,并应用于一系列实际下游应用中,例如大规模药物分子筛选,合成材料筛选,催化剂设计等。

图3:分子性质预测效率对比示意图。其中基于量子化学计算的DFT计算特定分子性质需要数个小时,而利用机器学习方法只需要远小于1秒的时间。该图出自OGB@NeurIPS 2022 Challenge,预测分子的HOMO-LUMO能隙。

在过去的几年中,一种主流的方法是将分子建模为 2D 图结构,其中以原子作为节点,而边作为化学键,将整个分子性质预测建模为图级(Graph-level)预测任务,并应用 GNN(Graph Neural Network)通过拟合 DFT 的计算方式预测分子的性质。但目前,这种方法只有较高的预测效率,预测性能距离实际应用还有较大的差距。

图4:现有分子性质预测方法的一般流程。基于DFT的量子化学计算方法首先对分子的三维结构进行优化以获得低能构象,然后基于构象计算特定的分子性质。2D模型近似DFT的整个过程,通过输入的2D分子图直接预测分子性质;3D模型在2D分子图的基础上还需要进一步输入3D分子构象,以获得更好的预测性能。

由于分子的 3D 结构反映了原子和官能团之间的相互作用和相对位置,因此 3D 结构对分子性质的理解至关重要。考虑到这一点,一系列方法针对分子的 3D 结构信息设计 3D 模型,从而获得更好的预测效果。然而,3D 结构的获取需要依赖 DFT 等量子化学计算手段,这种昂贵的计算成本导致分子的 3D 结构在许多实际的下游任务中往往是不可获取的。

结合上述两种主流路线各自的优缺点,一个最近比较新颖的角度是将包含已测定 3D 结构信息的数据集作为预训练数据集,基于 3D 结构设计预训练任务,从而让模型理解 DFT 由 2D 分子图计算优化 3D 结构的过程,并将该先验信息迁移到下游 2D 分子性质预测任务上,从而兼具效率和性能。

目前,主流的同期工作例如 GraphMVP[3] 和3D Infomax[4] 都通过对齐分子 2D 视图和 3D 视图的图级表示向量来设计预训练目标函数,并通过在主流 benchmark 上的实验证明了 3D 预训练方案的有效性。

综上,本文继续沿着分子 3D-Pretraining 的 Pipeline,设计了三个基础的生成式预训练任务,并基于分子总能量设计目标函数来自动搜索各预训练任务的权重,从而构建多预训练任务的自动融合框架,并在广泛的下游任务上获得了显著的预训练收益。

3.  本文的方法

3.1  生成式预训练任务的设计

DFT 优化分子 3D 结构的核心是在势能面上寻找局部最小值[5],分子能量出于势能面上局部最小值时的 3D 结构也被称为分子构象。其中,构象所包含的 3D 几何信息可以被以下三个描述符完整地描述:两个原子之间的化学键长、两个化学键之间形成的夹角,以及三个化学键形成的二面角。

生成式预训练任务使模型能够理解分子从 2D 拓扑到 3D 几何的基于 DFT 的优化过程。由于分子几何是由电子的量子力学行为决定的,因此生成式预训练任务可以通过学习 3D 构象的生成来间接学习量子化学性质的预测。基于此,本文设计了三个生成式预训练任务来分别生成这键长、键角、二面角这三个描述符,具体如下所示:

图5:分子结构和势能面关系示意图。势能面将分子能量定义为多个坐标轴的函数,分子3D构象的优化就是在势能面上寻找局部最小值,而3D构象中的几何信息可以通过连接两个原子的键长、三个相连原子的键角和三个连续键的二面角来描述

其中,h 代表对应节点的表示向量,f 为对应的预测网络(这里的设置是MLP)。可以看到,这三个任务的核心思路都是利用 backbone 提取的节点表示来设计具体的回归任务,通过将描述符中包含的 3D 结构信息当做解读信号,从而让 backbone 具有编码 3D 结构信息的能力,并将这种能力作为先验嵌入到模型并迁移到实际的下游任务中。

同时,考虑到当邻居数为|N|时,分子的键角和二面角的计算复杂度呈 Ο(|N|^2 )和Ο(|N|^3 ) 增长,使得大规模的 3D 预训练实现成本过高。本文基于 RGC(Runtime Geometry Calculation)重新设计了键角和二面角的目标函数,用每个原子的所涉及的键角和与每个化学键设计的二面角的和来代替所有键角和二面角的预测,从而将计算复杂度降低到线性级别。

3.2  自动化多预训练任务融合框架

由于第四范式同时定义了多个预训练任务,且各预训练任务的损失函数对于模型参数的梯度优化方向并不一致,因此各自预训练任务的权重分配是一个需要考虑的问题。如何自动化且最更好地分配多预训练任务的权重,以预期在下游任务上获得更好的性能增益,是设计多预训练任务融合框架的核心。

由于键长、键角和二面角都是局部描述符,因此这里需要一个明确的 surrogate metric 来评估预训练后的 backbone 对于分子 3D 结构整体的编码能力而不是局部编码能力。

对此,本文考虑得到分子总能量和分子 3D 结构之间的对应关系,基于分子总能量设计了一个目标函数,并基于此设计了 bi-level 的油画框架来搜索三个生成式预训练任务各自的权重。

最终,第四范式整体预训练的 pipeline 如下图所示。在预训练阶段,第四范式首先基于预训练分子的低能构象设计了三个生成式预训练任务,并基于分子低能构象对应的分子总能量设计了一个 surrogate metric 来搜索三个预训练任务的各自权重;而在下游的微调阶段,由于我们已经在预训练阶段引入了分子几何先验,因此通过微调即可在实际下游任务中获得性能增益。

图6:3D-PGT的预训练框架示意图

4.  实验结果

在本文中,第四范式针对性的设计了一系列实验来证明 3D 预训练这一技术路线和本文设计的预训练任务及自动融合框架的有效性,从而面临当只有 2D 分子图可以用于预测时,可以避免为每个分子生成 3D 构象的巨大计算成本,并能通过微调获得明显的性能收益。

本文主要在 3 个包含 3D 结构信息的数据集上进行预训练,并主要在 12 个下游任务上进行微调和效果验证,数据集的详细统计数据如下所示:

图7:数据集的统计细节

4.1 量子化学性质预测的表现

本文首先在流行的基准数据集QM9上评估了3D-PGT的量子化学领域的性质预测能力。第四范式首先从QM9包含的134k单一分子构象样本中随机选取50k个携带构象信息的分子样本用于预训练,并从剩余的样本中选取50k个分子样本并屏蔽其3D结构信息用于微调和评测。结果如下:

图8:QM9数据集实验对比结果,评价指标为MAE(平均绝对误差)

从实验结果中,第四范式观测到以下现象 :1)首先,3D-PGT以GPS作为backbone进行预训练和微调,但相较于GPS的baseline,3D-PGT在8种量子化学性质的预测上平均减少了17.7%的MAE;2)同时,3D-PGT也明显优于其他2D预训练方法,以GraphCL为例,其不包含3D结构信息的预训练所能带来的性能提升是有限的;3)相较于GraphMVP和3D Infomax两种前沿的3D预训练方法,我们的预训练框架仍然具有性能优势;4)值得注意的是,当给定准确的3D结构时,3D模型SMP取得了显著的性能优势,但当提供给SMP的3D信息来源是粗糙的RDKit计算结果时,3D-PGT在8个预测任务中的6个都击败了SMP,体现了3D预训练范式在效率和性能上优势。

图9:不同方法在HOMO预测任务上的推理时间和性能排名

4.2 在其他广泛下游任务上的泛化能力

除了预测与分子 3D 结构密切相关的量子化学性质外,第四范式还将下游任务进一步推广到药理学、物理学和生物学等领域,且这些任务的输入只包含 2D 分子图。

第四范式在 GEOM 数据集中随机选择 50 k个具有单个构象的分子进行预训练,并对 8 个主流下游分子性质分类任务和 6 个回归任务上进行微调,且这些下游任务包含的数据量都较少,具体结果如下:

图10:在四个分子性质预测任务(RMSE)和两个药物蛋白靶点亲和力预测任务(MSE)上的实验结果

可以看到,3D-PGT 在大多数下游任务上都优于其他 baseline,且与 GPS 相比,3D-PGT 依旧可以预训练获得稳定的性能收益。这意味着第四范式所设计的预训练框架可以将性能增益推广到广泛的下游任务上(除分子性质预测本身外,在两个药物和靶蛋白亲和力预测任务 Davis 和 KIBA 上也获得了性能收益),而不局限于和 3D 结构密切相关的量子化学性质预测,且即使在小样本数据上的微调也能带来性能增益。

4.3 在大规模数据挑战赛上的表现

在 OGB-LSC 的 Graph-level 预测任务赛道中,PCQM4Mv2 是一个包含 374 万分子的大型分子数据集,其中的 337 万个训练样本的 3D 几何信息通过 DFT 计算得到,且为了接近大规模的虚拟筛选场景,该挑战没有提供验证集和测试集的 3D 构象,且要求使用单个 GPU 在 4 小时内完成 150k 个分子的 HOMO-LUMO gap 的推断,这意味着在模型的推理阶段计算所有测试样本的几何结构是不可行的。3D-PGT 在该数据集上的表现与 Leaderboard 排名前列的方法对比结果如下所示:

图11:在PCQM4Mv@验证集上的实验结果

可以看到,与现有的不考虑 3D 结构信息的 GNN 和 Transformer 系列方法相比,3D-PGT 通过引入生成式预训练任务得到了明显的性能提升。其中针对GPS 的 baseline,3D-PGT 通过设计的自动预训练框架降低了 10.6 的 MAE,且在单模型的性能上由于OGB@NeruIPS 2022冠军方案GPS++。

与此同时,Open Catalyst Challenge 2022是一个致力于利用分子模拟发现高性能催化剂的挑战赛。该比赛的核心任务是之一利用机器学习模型预测催化剂分子活性。

训练集包含 200 万个分子,且记录了每个分子样本的 3D 结构和总能量。最终,结合 AutoGraph 的算法,3D-PGT 在该挑战赛上取得了第三的成绩,再次印证了该预训练框架的有效性和竞争力。

图12:Open Catalyst Challenge 2022 Leaderboard结果

5.  结论

在这项工作中,第四范式提出了 3D-PGT,一种自动化的 3D 预训练框架,专注于提升在实 3D 结构不可用的分子性质预测任务上的表现。

3D-PGT 设计了多个生成式预训练任务,这些任务可以将几何先验带入微调阶段。同时,为了更好地自动融合这些预训练任务并使其效益能够具有普适性,第四范式基于分子总能量设计了一个预训练的 surrogate metric 来搜索每个预任务的自适应权重。

本文基于现有主流的量子化学数据集和一系列广泛的下游任务设计了实验,且实验结果表明,3D-PGT 通过预训练引入潜在的几何先验不仅有利于量子化学性质的预测,而且有利于药理学、物理化学和生物物理学等领域的预测。此外,在 OGB 排行榜上,3D-PGT 在大规模分子预测方面优于顶级解决方案的所有 baseline。

在未来的工作中,考虑到在 NLP 领域 GPT 的预训练范式的成功,我们会将该框架和 3D 分子预训练范式推广到实际的下游应用中,例如开发用于储存可再生能源的催化剂等。

标签:

相关阅读

精彩放送

微软收购动视暴雪获美国法院同意

消息称小米汽车将采用自研芯片和车机系统架构

奥迪回应将向中国车企购买电动车平台授权

Anthropic推出新版人工智能聊天机器人

高德地图防晒导航功能升级:22城扩展至100城

美图秀秀AI扩图功能上线,可根据图像上下文预测、生成更大画幅

Apple Store官方在线商店在微信小程序上线

长安汽车与腾讯深化合作,聚焦座舱、地图、海外生态等领域

拼多多在海外发布办公社交应用Whalek

去年国内乘用车积分情况公布,比亚迪第一

深圳知名豪宅降价3000万成交!6848万起拍,26次激烈竞价,曾流拍两次

湖北2023高考成绩盘点!黄冈回升,武汉总体优秀,襄阳比较突出

Meta高管称Threads目标不是取代推特

山东曹县:走访代表 征求意见

东方甄选自建APP要摆脱抖音?俞敏洪首度回应

昆山市人民政府发布一批干部任免通知

独居老人没开空调致热痉挛咬断2颗牙 意识不清浑身抽搐!

中小企业数字化不能“单打独斗”

长源电力:融资余额2.67亿元,创近一年新高(07-07)

酷暑炎炎热浪起  沙场淬火正当时

中国第4冠:3-0,勇夺WTT球星挑战赛女双冠军,轰11-5、11-6、11-6

蚂蚁拟回购约7.6%股份,阿里正考虑是否参与;快手内测短视频直播行业首个智能问答产品;...

滴滴上架后首份季报:Q1营收427亿元,同比增长19.1%

达州市人力资源和社会保障厅人事考试网(达州市人力资源和社会保障厅)

北京天气预报北京2023年07月10日天气

多地运用科技手段 助力防溺水安全预警 帮助学生安全过暑假

2023青岛•中国财富论坛举行 专家学者建言促消费

迅雷极速版怎么显示流量监控?迅雷极速版显示流量监控教程

WAIC观察 | “旧趋势”退场,大模型称王

Meta旗下社交媒体平台Threads上线7小时注册破千万

此地惊现两个太阳,一前一后藏在云层中!网友:怪不得这么热

奇门遁甲旬空是什么意思(旬空是什么意思)

太极集团荣登中国医药榜单

吉诺儿kino的毕业论文——基于恒星蛙跳技术的星际航行设计与实现

雷雨大风+冰雹+短时强降水!黑龙江省发布强对流预报

线下演出市场持续升温 演艺经济成拉动消费新引擎

救援现场丨湖北五峰山体滑坡 已救出5人另有9人失联

烈日当头照 高温下的“劳”与“保”

长飞光纤:子公司完成中广核惠州港口二项目首台套风机基础安装

上半年全国铁路发送旅客17.7亿人次

先享价仅10万起 奔腾T90多重福利“超值开抢”

马斯克试驾特斯拉电动皮卡Cybertruck;富士康与日本机器人初创公司建立合作伙伴关系;主...

1夜足坛动态:巴黎官宣李刚仁 巴萨6000万签新星 英格兰夺冠

刘凯带队赴湖北武汉开展考察招商

「中甲」万人燃爆越秀山体育场,广州队迎来久违三连胜

知乎宣布7月14日下线“匿名功能

暑期安全丨望城区夯实“河长制”助力防溺水

阿里云通义大模型家族迎来新成员,通义万相已开启定向邀测

学生意外保险种牙报销吗?怎么报销?

焦点科技:中国制造网5个小语种站点上线

地平线突围,国产汽车芯片崛起?

蚂蚁集团致力弥合数字鸿沟 推多个AI无障碍创新服务

“御姐范”的瑜伽裤美女,有设计感的才时髦好看,走在街头

一份报告背不动日本核污水排海这口“锅”(望海楼)

马斯克试驾特斯拉电动皮卡Cybertruck

教育系统多措并举持续为未就业毕业生提供就业指导服务

中国汽车工业协会:删除《承诺书》涉及价格表述

13投2中+被隔扣!文班亚马首秀9+8热搜第一,5记盖帽挽回颜面

蚂蚁链发布零知识证明技术架构 可满足数据隐私保护和可验证双要求

华为智选车合作车细节曝光 外观细节大曝光

空气培养皿打开了还能用吗(空气培养皿打开了还能用吗视频)

岚图汽车将登陆荷兰、瑞士、丹麦、芬兰,第四季度交付

美媒:SpaceX已在火箭发射领域拥有事实上“垄断地位”

拜登2万亿新能源(每日经济新闻:拜登推介电动汽车:配图是燃油车)

武汉市气象台发布雷电黄色预警【III级/较重】【2023-07-08】

扎克伯格:Threads已有超7000万注册用户;岚图汽车将登陆荷兰、瑞士、丹麦、芬兰,第四季...

蚂蚁集团被罚71.23亿元;Temu首次进军亚洲市场;知乎宣布将于14日下线匿名功能|Do早报

假领导出没:涉多家央企 三峡集团兵器工业中航等均已遇到

财付通回应被罚没近30亿元:诚恳接受、坚决服从和落实

手把手教你脆皮茄子的家常做法,比饭店还好吃,简单好学一看就会

奔驰宣布支持特斯拉北美充电标准

腾讯发布自研AI作曲框架XMusic,不通音律也能帮你

李玟富豪老公将参加亡妻的葬礼,两个继女却一直没有表态

点赞!泰山球迷赛后为河南队及李松益加油

2023全球数字经济大会新品成果在京发布

《数字化转型指数报告2023》:数字化是打造未来产业竞争力的关键助推器

2023全球数字经济大会发布重要成果集锦

打造跨境电商新高地 中国(赣州)跨境电商综试区陆港基地揭牌

蚂蚁集团回应:诚恳接受、坚决服从

蚂蚁集团被罚71.23亿元

蚂蚁科技集团被罚没合计超37亿元

被罚71.23亿元 蚂蚁集团:诚恳接受、坚决服从

财付通被罚没近30亿元

精工钢构: 精工钢构独立董事意见

旭辉控股集团上半年合同销售419.4亿元 同比下降33.58%

太保与OceanBase完成全险种核心迁至国产数据库

浙江东阳富民村镇银行被罚55万元:因违规发放借名贷款等

临沧市临翔区强化河湖保护治理

知乎宣布将于14日下线“匿名功能”

奔图p2506打印机驱动(6525打印机驱动)

丰田、本田、日产6月在华销量:17.45、11.31和6.91万辆

蚂蚁集团等机构倡议发起《AIGC可信发展倡议》发布

基差异动0707:棉花月间价差收窄35点

分析师称AI热潮助推股价上涨,微软市值将紧随苹果突破3万亿美元

蚂蚁集团发布AI安全检测平台蚁鉴2.0,可实现用生成式能力检测生成式模型

载183人!航班飞行途中遭威胁 男子扬言引爆机上爆炸物

WAIC2023:蚂蚁集团发布两项隐私计算开源产品

英法德三国发表联合声明指责伊朗违反伊核全面协议 中方回应

华为盘古大模型3.0发布:面向行业,5+N+X三层架构

中方呼吁美国等各方推动伊核问题全面协议早日重返正轨

Shell编程系列-认识 shell

理想汽车法务部:屏蔽蔚来充电桩传闻与事实不符

支持文生图 阿里云推出通义万相AI绘画大模型

遇版权纠纷可获全额补偿:Adobe及Shutterstock宣布将为平台AI图片负责

旅游 | 425万!科右前旗这场发布会靠实力“圈粉”!

“夏日经济”火热 怪味雪糕激发消费新活力

商汤科技宣布 “商汤日日新”大模型体系全面升级

夏联:落选秀闪耀湖人,勇士19号秀压榜眼