谷歌AlphaGenome横空出世!40亿年生命代码一键破解,或再夺诺奖
【导读】前有AlphaFold破解蛋白质之谜,今有AlphaGenome揭示DNA天书。谷歌DeepMind最新103页力作,用AI成功预测基因突变,一次即可读取100万个DNA碱基,精度无「模」能敌。
基因组,宛如生命的蓝图,藏在我们每一个细胞之中。
这套完整的DNA指令集,主导着生命体从外观功能到生长繁殖的几乎每一个方面,甚至是对疾病抵御的能力。
2003年,人类基因组测序完成,让人类首次窥见了DNA的全貌。
然而,如何破译这些指令,一个微小DNA变异如何改变生命轨迹,至今仍是生物学的未解之谜。
现在,这个局面将被彻底改写。
今天,谷歌DeepMind重磅发布AlphaGenome——一款革命性的AI工具,以及103页的详细技术报告。
论文地址:https://deepmind.google/discover/blog/alphagenome-ai-for-better-understanding-the-genome/
一个模型,可读取100万个DNA碱基,并预测任何基因变异/突变如何改变分子的功能。
它不仅限于单个基因预测,而是贯穿了整个调控基因组。
诚如网友所言,「DNA就是代码,而你就是软件」。
比如,它可以回答「某个基因的活性是会增强还是减弱」。而这,正是生物学家们在实验室中,需要通过大量实验来反复验证的问题。
那么,这是如何做到的?
AlphaGenome以长DNA序列为输入,经过数据处理后,通过表征其调控活性来预测数千种分子特性。
诺奖得主Demis Hassabis曾在采访中坚定地表示,「未来十年,AI将会治愈所有疾病」。
如今,AlphaGenome的诞生,让这一宏伟的愿景更进一步。
它可以让科学家快速预测基因变化可能带来的影响,推动生物学的全新发现与新疗法的诞生。
解密生命密码
DeepMind开启NDA研究新纪元
在解密生命「密码」这一领域,谷歌DeepMind早已展开布局。
5年前,蛋白质预测模型AlphaFold出世,在业界曾掀起海啸级巨震,还登上了Neture、Science年度十大科学发现榜单。
从初代AlphaFold到AlphaFold 3,阶跃式进化,成功预测了人类98.5%蛋白质,并拿下2024年诺贝尔奖。
这项世界级成果催生了专注于药物发现的衍生公司Isomorphic Labs,引领了用AI设计新药的浪潮。
AlphaGenome的出世,再一次拓展了AI在NDA领域的研究。
人类基因约有30亿个碱基,但其中只有不到2%的序列,用于编码蛋白质,其余98%被称为非编码区。
然而,它们对调控基因的活性至关重要,并包含了大量与疾病相关的变异位点。
直到现在,生物学家实际上无法看清它是如何运作的。
AlphaGenome正是为解读这些广阔的非编码序列及其内部变异,提供了全新的视角。
这是该领域的里程碑式突破。我们首次拥有了一个统一模型,能在各类基因组任务中同时实现长程上下文关联、碱基级精度和最先进的性能表现。
如今,AlphaGenome能够接收长达100万个碱基字母(即碱基对)的DNA序列作为输入,并据此预测用以表征其调控活性的数千种分子特性。
通过比对突变序列与原始序列的预测结果,模型还能量化评估基因变异或突变所带来的影响。
AlphaGenome将一百万个DNA碱基作为输入,并预测不同组织和细胞类型中的多种分子特性
这款模型的预测范围非常广泛,包括了在不同的细胞类型和组织中,基因的起始与终止位点、基因的剪接位置、RNA的生成数量,以及哪些DNA碱基是可访问的、哪些在空间上相互靠近、哪些与特定的蛋白质结合等。
AlphaGenome能够同时做出多方面的预测,得益于其颇具层次的核心架构。
如下图所示,首先通过卷积层初步检测基因组序列中的短模式,再利用Transformer架构在整个序列的任意位置之间高效传递信息。
最后,经由一系列输出层,将识别出的模式转化为对不同调控维度的具体预测。
在训练过程中,针对单个序列的庞大计算量,会被分散到多个互联的张量处理单元(TPU)上协同完成。
模型基于谷歌先前的基因组学模型Enformer构建,并与AlphaMissense模型形成互补——后者专注于分类蛋白质编码区内的变异所造成的影响。
顺便提一句,模型的训练数据源自多个大型公共科研项目,如ENCODE、GTEx、4D Nucleome和FANTOM5。
这些项目通过实验,测量并覆盖了数百种人类及小鼠细胞与组织中基因调控的多种关键维度。
一次100万DNA碱基,瞬间预测
与现有的DNA序列模型相比,AlphaGenome具备几项显著的独特优势:
兼顾长序列与高分辨率
处理长序列对于覆盖远距离的基因调控区至关重要,而碱基级别的分辨率则是捕捉精细生物学细节的关键。
以往的模型不得不在序列长度和分辨率之间做出艰难取舍,这限制了它们能够同时建模和准确预测的生物学维度。
而谷歌的技术突破成功克服了这一限制,且并未显著增加训练所需的资源。
训练一个完整的AlphaGenome模型(未经蒸馏)仅需4小时,算力开销仅为最初训练Enformer模型时的一半。
结果就是,AlphaGenome已经可以实现长达100万个DNA碱基字母的序列的分析,并能以单个碱基的分辨率进行精细预测。
全面的多维度预测
通过解锁对长输入序列的高分辨率预测能力,AlphaGenome得以对迄今最多样化的生物学维度进行预测。
这为科学家们提供了关于基因调控复杂过程的、更全面的信息。
变异效应的高效评估
除了能预测多种分子特性,AlphaGenome还能在短短一秒内,高效评估某个基因变异对所有这些特性的影响。
它通过对比突变序列与原始序列的预测结果,并针对不同维度采用相应的分析方法,来高效地量化这种差异。
创新的剪接点建模
许多罕见的遗传性疾病,如脊髓性肌萎缩症和某些类型的囊性纤维化,病因就可能源于RNA剪接过程的错误——在该过程中,RNA分子的一部分被移除,剩余的两端再重新连接。
值得一提的是,AlphaGenome首次实现了直接从DNA序列出发,预测剪接点,并将其用于变异效应预测。
这为深入理解遗传变异对RNA剪接的后果提供了前所未有的视角。
Jun Cheng是共同一作中唯一的华人
刷新SOTA,覆盖多种生物模态
AlphaGenome在基因学组基准测试中,表现又如何?
无论是在预测DNA分子中哪些部分会在空间上相互靠近,还是在判断某个基因变异是会增强或减弱基因表达,抑或是改变其剪接模式等任务上,这款模型均刷新了SOTA。
AlphaGenome在部分DNA序列及变异效应预测任务上,性能大幅提升
在生成单个DNA序列的预测时,24项评估中有22项的表现都超越了当前最优的外部模型。
在预测基因变异的调控效应时,26项评估中有24项的表现都达到或超过了顶尖的外部模型。
值得一提的是,上述比较中的外部模型大多是为单一任务专门优化的。
而AlphaGenome是唯一能够同时对所有评估维度进行联合预测的模型,这充分凸显了其强大的通用性。
一个模型,全搞定
要知道,AlphaGenome的创新不仅在于准确性,还在于统一性。
以前,科学家可能需要10多个模型,才能了解一个突变的作用。而现在,一次API调用,还是全分辨率。
科学家仅通过一次API调用,就能同时探究某个基因变异对多种不同调控维度的影响。
这意味着科学家可以更迅速地提出并验证科学假说,无需再为了研究不同维度而调用多个不同的模型。
此外,AlphaGenome的强劲表现表明,它已在基因调控的框架下,学习到了一种相对通用的DNA序列特征表示。这使其成为一个坚实的基础,便于更广泛的科研社区在此之上进行构建和拓展。
而且, AlphaGenome还可以支持特定场景、自己的数据集上,进行适配和微调,从而更有效地解决他们独特的科研难题。
最后,这种统一的方法为,未来提供了一个灵活且可扩展的架构。
通过扩充训练数据,AlphaGenome的能力还可以被进一步扩展,以获得更优的性能、覆盖更多的物种,或纳入额外的生物学维度,从而使模型变得更加全面和强大。
DNA预测,生物学的新曙光
毋庸置疑,AlphaGenome的强大预测能力,将为未来多个科研领域的研究提供助力。
首先,它能加深人类对疾病的理解。
通过更精准地预测基因功能扰动,AlphaGenome能帮助研究人员更精确地定位疾病的潜在根源,并更好地阐释与特定性状相关的变异所造成的功能性影响,从而有望揭示新的治疗靶点。
由此谷歌认为,AlphaGenome将尤其适合用于研究那些可能引发严重后果的罕见变异,例如导致孟德尔遗传病的变异。
其次,AlphaGenome还可以赋能「合成生物学」。
模型的预测结果可用于指导设计具备特定调控功能的合成DNA。例如,设计出仅在神经细胞中激活某个基因,而在肌肉细胞中保持沉默的DNA序列。
最最重要的是,AlphaGenome将会推动未来的生物学基础研究。
通过协助绘制基因组的关键功能元件图谱并阐明其作用,以及识别调控特定细胞功能所必需的核心DNA指令,该模型将加速我们对基因组的理解。
举个例子,在一项针对T细胞急性淋巴细胞白血病(T-ALL)患者的现有研究中,科研人员发现基因组特定位点的突变。
随后在AlphaGenome的加持下,谷歌的研究人员预测这些突变会通过引入一个MYBDNA结合基序,来异常激活邻近的一个名为TAL1的基因。
这一预测结果与已知的致病机制完全吻合,充分展现了AlphaGenome将特定非编码变异与致病基因联系起来的强大能力。
AlphaGenome将是这个领域的一款强大工具。要确定不同非编码变异的重要性极具挑战性,尤其是在大规模研究的背景下。这款工具将补上这块拼图上至关重要的一块,让我们能够建立更清晰的联系,从而更深入地理解癌症等复杂疾病。
每一次失败的疗法,每一次罕见的疾病,每一种复杂性状,都始于被误读的DNA。
如今,人类终于可以看清生命这一系统。
当你能清晰洞见系统全貌时,就能开始重新设计它。生物学也就不再神秘莫测,开始变得的可编程。
这是从「认知」到「掌控」的跃迁。AlphaGenome,正是这个转折点。
参考资料:
https://deepmind.google/discover/blog/alphagenome-ai-for-better-understanding-the-genome/
声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。

游客
- 鸟过留鸣,人过留评。
- 和谐社区,和谐点评。