TOMG-Bench:大语言模型开放域分子生成新基准

2025-02-19 发布 · 浏览39次 · 点赞0次 · 收藏0次

图片

编辑 | ScienceAI

科学家提出了一个新的基准测试——TOMG-Bench,用于评估 LLM 在分子领域的开放域生成能力。

图片

项目主页:https://phenixace.github.io/tomgbench/

数据集和测试脚本:https://github.com/phenixace/TOMG-Bench

预印本:https://arxiv.org/abs/2412.14642

Huggingface Datasets:https://huggingface.co/datasets/Duke-de-Artois/TOMG-Bench

PaperWithCode:https://paperswithcode.com/dataset/tomg-bench

分子发现是推动医药、材料科学等领域进步的关键环节。然而,传统的分子发现方法往往依赖于反复实验和数据分析,效率低下且成本高昂。

随着机器学习技术的快速发展,图神经网络(GNN)等 AI 工具在分子发现领域展现出巨大的潜力。然而,GNN 方法也存在局限性,例如难以泛化到不同任务,以及无法生成具有特定性质的分子结构。

语言模型(LLM)凭借其强大的语言理解和生成能力以及泛化能力,为分子发现领域带来了新的机遇。LLM 可以将分子结构以文本形式进行表示,从而理解分子的结构和性质,并可以生成新的分子结构。

然而,将分子与文本数据进行对齐是一个具有挑战性的问题。先前的分子-描述文本数据集如 ChEBI-20 和 PubChem 都是基于给定的描述生成唯一对应的分子(基于文本的目标导向的分子生成),而现实中,化学家设计分子的需求往往是模糊的,可以对应到多个符合要求的分子,如图 1 所示。因此,需要开发新的数据集和基准测试来评估 LLM 在分子发现中的性能。

为了解决这些挑战,香港理工大学、上海交通大学、上海人工智能实验的研究者提出了基于文本的开放分子生成基准测试(TOMG-Bench),旨在评估 LLM 在分子领域的开放域生成能力。

TOMG-Bench 包含三个主要任务:分子编辑、分子优化和定制分子生成,涵盖了分子发现的多个关键环节。通过 TOMG-Bench,我们可以更好地了解 LLM 在分子发现中的优势和局限性,并推动 LLM 在分子发现领域的应用。

图片

图 1:对比基于文本的目标导向的分子生成 (a) 和开放式分子生成 (b)

现有分子-文本对齐面临的挑战

1. 数据集和基准测试的不足:现有的数据集,例如 ChEBI-20 和 PubChem,都依赖于分子-描述对,这些数据集无法满足开放域分子生成任务的需求。这些数据集往往是基于给定的描述生成唯一对应的分子,而现实中,化学家设计分子的需求往往是模糊的,可以对应到多个符合要求的分子。

2. 分子-描述翻译任务的局限性:分子-描述翻译任务是跨越分子空间和自然语言空间的桥梁,但存在局限性。一方面,真实场景中的分子描述可能高度模糊,存在多种正确解释,而现有的分子-描述翻译实际上是目标生成任务,模型难以泛化到用户定制的要求。

3. 无法生成新分子结构:现有的分子-描述翻译任务和相应的评估指标无法评估 LLM 生成新分子结构的能力,而这是分子发现的最终目标,尤其在药物发现领域。

TOMG-Bench

TOMG-Bench 是一个创新的基准测试,旨在全面评估 LLM 在分子领域的开放域生成能力。与传统的基于文本的目标导向分子生成任务不同,TOMG-Bench 的任务是开放域的,即不设定特定的目标分子,而是让 LLM 生成满足特定要求的分子结构。这种开放性更接近化学家在实际工作中遇到的需求,更能体现 LLM 的泛化能力和创造力。它包含三个主要任务,每个任务又细分为三个子任务,涵盖分子发现的多个关键环节:

1. 分子编辑(MolEdit)

添加组件 (AddComponent): 指令 LLM 向给定分子添加特定官能团。

删除组件 (DelComponent): 指令 LLM 从给定分子中删除特定官能团。

替换组件 (SubComponent): 指令 LLM 从给定分子中删除特定官能团,并添加新官能团。

2. 分子优化(MolOpt)

优化 LogP 值 (LogP): 指令 LLM 优化分子结构,使其 LogP 值降低或升高。

优化 MR 值 (MR): 指令 LLM 优化分子结构,使其 MR 值降低或升高。

优化 QED 值 (QED): 指令 LLM 优化分子结构,使其 QED 值降低或升高。

3. 定制分子生成(MolCustom)

指定原子数量(AtomNum): 指令 LLM 生成指定数量和类型的原子组成的分子。

指定键数量(BondNum): 指令 LLM 生成指定数量和类型的键组成的分子。

指定官能团(FunctionalGroup): 指令 LLM 生成包含特定官能团的分子。

每个子任务都包含 5000 个测试样本,为 LLM 在分子领域的开放域生成能力提供了全面的评估。图 2 展示了这些任务的示例。

图片

图 2: TOMG-Bench 中任务的示例。其中右侧的分子都被认为是正确的。

数据生成

TOMG-Bench 的测试用例主要针对 MolEdit 和 MolOpt 两个任务类型生成,MolCustom 任务类型的测试用例则根据需求随机生成。

1. MolEdit 和 MolOpt 任务:

数据来源:从 Zinc250K 数据库中随机抽取分子作为测试样本。

分子统计:使用 RDKit 工具箱收集分子的基本统计数据,包括分子结构模式、化学性质(如 LogP、MR、QED 值)等。

任务 Prompt:将收集到的分子统计数据整合到预先定义的任务提示中,例如:

MolEdit 任务:具体如下表所示,例如:「请将分子 c1ccccc1O 中的羟基替换为羧基。」

图片

MolOpt 任务:具体如下表所示,例如:「请优化分子 c1ccccc1O,使其 LogP 值降低。」

图片

2. MolCustom 任务:

数据来源:随机生成满足特定要求的分子指令,例如:

AtomNum 子任务:「请生成一个含有 6 个碳原子和 1 个氧原子的分子。」

BondNum 子任务:「请生成一个含有 10 个键的分子。」

FunctionalGroup 子任务:「请生成一个含有苯环和羧基的分子。」

任务 Prompt: 如下表所示:

图片

评估指标

1. MolEdit 和 MolOpt 任务:

成功率 (Success Rate): 通过化学工具箱(例如 RDKit)自动测试生成的分子是否满足要求。例如,对于 MolEdit 任务的 AddComponent 子任务,会检查生成分子中是否包含指定数量的目标官能团;对于 MolOpt 任务的 LogP 子任务,会检查生成分子的 LogP 值是否符合优化方向。

相似性 (Similarity): 评估生成分子与原始分子之间的相似程度。使用 Tanimoto 相似度计算方法,将分子转换为 Morgan 指纹,然后比较指纹的交集和并集。

有效性 (Validity): 评估生成分子的化学有效性,即是否遵循分子结构的语法规则。

2. MolCustom 任务:

成功率 (Success Rate): 通过化学工具箱自动测试生成的分子是否满足指定的原子数量、键数量或官能团要求。

新颖性 (Novelty): 评估生成分子与现有分子之间的差异程度。选择 Zinc250K 数据库作为参考,计算生成分子与现有分子之间的平均 Tanimoto 相似度,并以此作为新颖性评分。

有效性 (Validity): 与 MolEdit 和 MolOpt 任务相同,评估生成分子的化学有效性。

3. 平均加权成功率 (Average Weighted Success Rate):

由于仅靠成功率无法反映分子编辑和优化的过程(即生成的分子究竟是基于给定分子编辑而来还是从头生成的);同时新颖性又是定制分子生成的一个重要考量指标。为了综合评估 LLM 在 TOMG-Bench 上的平均性能,我们引入了平均加权成功率指标,该指标将相似性评分和新颖性评分作为成功率权重,以平衡评估结果。

OpenMolIns 指令微调数据集

OpenMolIns 是一个专门为 TOMG-Bench 开发的指令微调数据集,旨在帮助 LLM 更好地理解和执行开放域分子生成任务。

1. 数据来源:

OpenMolIns 的数据来源于 PubChem 数据库,而非 Zinc250K 数据库

为了避免数据泄漏,OpenMolIns 数据集中的分子与 Zinc250K 数据库中的分子互不重叠。

2. 数据结构:

OpenMolIns 数据集按照五个不同的数据规模进行构建:

轻 (Light): 包含 4,500 个样本

小 (Small): 包含 18,000 个样本

中 (Medium): 包含 45,000 个样本

大 (Large): 包含 90,000 个样本

超大 (Xlarge): 包含 1,200,000 个样本

每个数据规模中,九个子任务的样本数量均匀分布。

3. 数据内容:

OpenMolIns 数据集包含九个子任务的指令和对应的目标分子结构:

AddComponent, DelComponent, SubComponent (MolEdit): 指令 LLM 对分子进行添加、删除或替换官能团的操作。

LogP, MR, QED (MolOpt): 指令 LLM 优化分子的 LogP、MR 或 QED 值。

AtomNum, BondNum, FunctionalGroup (MolCustom): 指令 LLM 生成指定原子数量、键数量或官能团的分子。

每个样本都包含一个指令和其对应的目标分子结构,用于指导 LLM 的训练和微调。

4. 数据格式:

OpenMolIns 数据集采用 SMILES 字符串表示分子结构。

指令采用自然语言文本形式,描述对分子的操作或要求。

通过 OpenMolIns 数据集,LLM 可以更好地学习如何根据文本指令生成符合要求的分子结构,从而提升其在 TOMG-Bench 上的性能。

实验结果和发现

TOMG-Bench 的实验结果揭示了 LLM 在分子发现领域开放域生成能力的一些重要发现:

1. 开放域分子生成任务具有挑战性:即使是先进的私有模型,例如 Claude-3.5 和 Gemini-1.5-pro,在 MolCustom 任务上的成功率也低于 25%,表明 LLM 在从零开始生成分子结构方面仍存在较大挑战。

2. 开源模型表现追赶迅速:在 TOMG-Bench 上,开源模型 Llama-3.1-8B-Instruct 的平均加权成功率超过了所有开源通用 LLM,甚至超过了 GPT-3.5-turbo。这表明,即使没有经过化学相关语料库的预训练,开源模型也具备较强的分子理解和生成能力。

3. 模型能力与性能正相关:实验结果表明,模型能力与在 TOMG-Bench 上的性能呈正相关。例如,Llama-3.1-8B-Instruct 的性能优于 Llama-3.2-1B-Instruct,而 Llama-3.70B-Instruct 的性能又优于 Llama-3.1-8B-Instruct。这表明,更大的模型通常能够生成更高质量的分子结构。

4. ChEBI-20 数据集不足以训练 LLM进行分子-文本对齐:尽管 ChEBI-20 数据集在分子-描述翻译任务中表现出色,但实验结果显示,在 TOMG-Bench 上,基于 ChEBI-20 数据集微调的 LLM 性能较差。这表明,ChEBI-20 数据集缺乏足够的多样性,无法有效地训练 LLM 掌握分子结构的复杂性和多样性。

5. 数据规模对性能的影响:实验结果表明,数据规模对 LLM 在 TOMG-Bench 上的性能有显著影响。例如,Galactica-125M 在 OpenMolIns-xlarge 数据集上的表现优于 Llama3-70B-Instruct,这表明更大的数据集可以进一步提升 LLM 的性能。

6. TOMG-Bench 可以反映大语言模型的领域泛化能力,尽管现有的LLM在一些现有的 benchmark 上(如数学)表现出色,但是他们可能是「偏科生」:能力难以泛化到预训练中所欠缺的任务上,这种「偏科」很有可能影响用户实际使用 LLM 的体验。因此,TOMG-Bench 在某些情况下也能帮助我们发现现有模型的不足之处,并提供了改进思路。

Leaderboard

在TOMG-Bench 的上排名靠前的模型如下(前五名):

Claude-3.5: 平均成功率为 51.10%,加权成功率为 35.92%。

Gemini-1.5-pro: 平均成功率为 52.25%,加权成功率为 34.80%。

GPT-4-turbo: 平均成功率为 50.74%,加权成功率为 34.23%。

GPT-4o: 平均成功率为 49.08%,加权成功率为 32.29%。

Claude-3: 平均成功率为 46.14%,加权成功率为 30.47%。

Llama-3.1-8B (OpenMolIns-large): 排名第六,平均成功率为 43.1%,加权成功率为 27.22%。这表明 OpenMolIns 数据集能够有效地提升 LLM 在分子生成任务上的性能。

图片

图 3: TOMG-Bench 的Leaderboard

总结

TOMG-Bench 是第一个用于评估大型语言模型 (LLM) 开放域分子生成能力的基准。其包含一个数据集,包含三个主要任务:分子编辑 (MolEdit)、分子优化 (MolOpt) 和定制分子生成 (MolCustom)。

每个任务进一步包含三个子任务,每个子任务包含 5,000 个测试样本。鉴于开放域分子生成的固有复杂性,一个自动化评估系统将用于衡量LLM生成的分子质量。

对 25 个 LLM 的综合基准测试揭示了文本引导分子发现中当前的限制和潜在的改进领域。

此外,在 OpenMolIns 指令微调数据集的帮助下,Llama3.1-8B 能够优于所有开源通用 LLM,甚至在 TOMG-Bench 上比 GPT-3.5-turbo 高出 46.5%。

这里的测试脚本和数据集均已开源,欢迎大家来尝试 TOMG-Bench,也欢迎大家来刷榜!

TOMG-Bench:大语言模型开放域分子生成新基准 - AI 资讯 - 资讯 - AI 中文社区

声明:本文转载自机器之心,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它能得到比较好的回应。
评论

游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。