超强DNA大模型「GENERator」问世!解锁生命密码设计新范式
编辑 | ScienceAI
在基因组学研究领域,DNA 序列的解码与预测一直是科学家们面临的核心挑战。随着测序技术的飞速发展,我们能够以前所未有的速度获取海量基因组数据,但如何高效解读这些复杂的遗传信息,仍是一个亟待解决的难题。近年来,大语言模型(LLMs)在自然语言处理领域的成功,为生物序列分析带来了新的契机。
近日,阿里云飞天实验室的 AI for Science 团队提出了一个全新的生成式 DNA 大模型——GENERator。作为一款基于 Transformer 解码器架构打造的基因组基础模型,GENERator 具有以下三大核心优势:
超长 DNA 序列建模
拥有 98k 碱基对(bp)的上下文长度和 12 亿参数,能精准捕捉复杂且连续的基因结构,告别「碎片化」分析。
跨物种的泛化能力
训练数据涵盖了 3860 亿 bp 的真核生物 DNA 数据,从酵母到人类,从启动子到蛋白编码,适用于广泛的基因组分析任务。
从「理解」到「创造」
GENERator 不仅能理解 DNA 语义,更能生成具有功能性的 DNA 序列,堪称「生命语言的 GPT」。
在性能方面,GENERator 在多项 benchmark 指标中展现出顶尖水平,与姊妹模型 GENERanno 并列,以绝对优势登顶 SOTA。
除此以外,作者还展示了 GENERator 的两大核心应用:
蛋白家族定制:生成可翻译成真实蛋白质的 DNA 序列,成功再造组蛋白/P450 家族的全新变体。
GENERator 通过微调模型,能够稳定生成编码蛋白质的 DNA 序列,生成序列的长度分布与天然家族高度一致。为了进一步验证生成序列的生物学意义,研究团队使用 ProGen2 计算了其困惑度(PPL)。结果显示,生成序列的 PPL 分布与天然家族高度吻合,而显著区别于随机打乱的序列。
更令人振奋的是,研究团队利用 AlphaFold3 预测了生成蛋白质的三维结构,并通过 Foldseek 在蛋白质数据库(PDB)中寻找相似结构。结果显示,生成蛋白质的构象与已知结构高度相似(TM-score > 0.8),尽管其序列组成与已知蛋白质存在显著差异。
这一发现表明,GENERator 并非简单复制现有序列,而是真正掌握了蛋白质设计的核心规律,能够生成具有生物学意义的新分子。
启动子设计:通过简单指令设计高/低活性基因开关,为合成生物学和基因工程提供了新的工具。
研究团队基于 DeepSTARR 的启动子活性数据,对 GENERator 进行微调,开发了一款启动子活性预测器。该预测器的准确率超越了 DeepSTARR 和 NT-multi,再次刷新 SOTA。
更重要的是,GENERator 能够根据简单的指令(如 <high> 或 <low>)生成具有特定活性分布的启动子序列。实验结果显示,生成的高/低活性启动子序列在预测活性上与天然样本相比具有显著差异,展现了 GENERator 在基因表达调控中的强大潜力。
除了模型以外,GENERator 论文中讨论了多种 DNA 预训练策略:
数据处理
作者认为,DNA 序列并不像人类语言一样「精确」,自然进化的随机性会导致生物 DNA 序列中存在大量「噪音」和「冗余」。因此 GENERator 采用了「基因序列训练」策略,专注于承载了 DNA 的核心语义信息的功能性区域。实验表明,这一策略显著提升了模型在下游任务中的表现。
分词器选择
论文实验指出,对于 Causal Language Model 的训练任务,6-mer 相较于 BPE 或单核酸分词器,在生成任务中表现更优。通过固定每一步生成的「步长」,有效提升了模型训练和生成的稳定性。
模型选择
论文实验指出,以 Mamba 为例的 SSM 模型,虽然能进行高效的长文本训练,但并不能获得同等的长文本理解能力。因此 GENERator 采用了「Transformer 架构 + 6-mer 分词器」的组合,平衡了序列分辨率和上下文覆盖范围,为模型的高效训练和生成能力奠定了基础。
GENERator 的成功不仅在于其技术突破,更在于其为基因组学研究带来的深远影响。未来,研究团队计划进一步扩展模型的应用范围,包括开发针对原核生物和病毒基因组的版本,以及探索其在基因注释和临床基因组学中的应用。通过将序列生成能力与特定治疗目标相结合,GENERator 有望在精准医疗和生物技术干预中发挥关键作用。
作者说:「曾经基因编辑就像在黑暗中拼乐高,我们希望 GENERator 能在这黑暗中点燃一根蜡烛。后续,我们将推进数据、代码、和模型权重的全面开源。我们站在巨人的肩膀上迈出了一小步,也希望 GENERator 的烛光能照亮更多人的路。用 AI 重新定义生命科学,这仅仅是个开始!」
论文网址:https://arxiv.org/abs/2502.07272
项目主页:https://generteam.github.io/
声明:本文转载自机器之心,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。

游客
- 鸟过留鸣,人过留评。
- 和谐社区,和谐点评。