53%性能全面提升,Ayu新模型横扫传统工具,分泌蛋白预测效率再翻倍

编辑丨&
微生物是驱动元素循环的引擎,它们分泌蛋白质以寻求生活环境。现阶段还缺乏有效的计算方法来研究分泌蛋白。表征分泌组的另一种方法是将现代机器学习工具与蛋白质组对海洋环境的进化适应变化相结合。
在这项研究中,维也纳大学(University of Vienna)与上海海洋大学的研究者识别并描述了海洋细胞外蛋白的适应性,开发了一款名为「Ayu」的机器预测工具,不使用基于同源的预测器,并且比当前最先进的软件实现了更好、更快的性能。
该模型实际应用于海洋样本(Tara Oceans 数据集)时,相比于最广泛使用的鉴定分泌蛋白的方法,全新的方法能够回收两倍以上的蛋白质。
他们的研究成果以「Ayu: a machine intelligence tool for identification of extracellular proteins in the marine secretome」为题,于 2025 年 3 月 21 日刊登于《Nature Communications》。

微生物分泌研究
据实验室研究,高达 30% 的细菌基因组编码释放到细胞外环境中的蛋白质,参与到了细菌与环境的相互作用中。对海洋中细胞外酶活性的测量表明,这些反应主要由溶解的(无细胞的)酶催化,比率随着深度的增加而增加。
尽管分泌组具有相关性,但其研究因缺乏适当的方法而受到限制。一种合理的方法是利用大量可用的宏基因组和宏转录组数据集,但目前还面临着从氨基酸序列预测亚细胞定位的挑战。
海洋环境的特殊性为改进蛋白质定位预测提供了机会。众所周知,蛋白质的氨基酸组成(AAC)在一定程度上适应于其位置的物理化学性质。对于在周质中起作用的蛋白质来说,其不受渗透压调节。
因此,在这项研究中,「Ayu」模型被开发,用以利用这些适应留下的信号来预测大型海洋宏基因组数据集中的分泌蛋白,将其性能与最先进的亚细胞位置预测工具进行比较,以揭示实际海洋分泌组的含量和蛋白质组成。

图 1:基于栖息地的氨基酸组成和 pI 的差异。(图源:论文)
总体而言,结果证明海洋环境对暴露于其中的蛋白质有特定影响,盐度是明显的罪魁祸首。
为了解释各门 AAC 的这些差异,可以转向所示分类群之间生活方式的差异。以前的研究推测,细菌产生的细胞外蛋白平均比胞质蛋白廉价,因为这些蛋白质不能回收。
在这种研究环境中,团队发现,细胞外蛋白的成本在门之间差异很大。他们认为差异源于产生细菌的不同营养策略。
机器学习模型设计和验证
使用一组经过验证的蛋白质描述符,团队测试了这些信息是否可用于改进当前的亚细胞位置预测方法。他们选择了 xgBoost,以此发挥它适用于非参数数据于支持多分类等优点。
分析揭示了细胞外>周质>细胞质顺序的适应梯度,现在团队通过将问题框定为顺序分类来改善预测,并分化出两种策略:多类分类器,将每个亚细胞位置视为一个独立的类,以及序数分类器,探究类之间的内在顺序。
一般来说,在比较 MCC 和 Kappa 分数时,与 pSORTb3 和 BUSC 相比,所有 Ayu 实现(MCC > 0.89,Kapp>a = 0.89)都明显优于 pSORTb3(MCC = 0.64,Kappa = 0.64)。

图 2:Ayu 与其他分类器的性能比较。(图源:论文)
Ayu 的两个版本(多类和序数)都比其他分类器有所改进,而应用 SMOTE 算法来改善蛋白质类别之间的不平衡也对 Ayu 的多类实现产生了积极影响。
团队在训练时间与预测时间进行权衡,最终多类实现的 SMOTE 版本被保留为 Ayu 的最终版本。
由于 xgBoost 属于提升树的算法系列,因此研究得以获得特征重要性分数,其中包含有关特征描述符对区分类更有用的信息。
真实数据集的应用
团队在 6 个 Tara Oceans 宏基因组和元转录组数据集上应用了该预测工具。在组合数据集中发现的 46,775,154 种总蛋白质中,73% 的序列属于细菌基因,8% 属于病毒基因,3% 属于古细菌基因,其余的没有分类学分类。
大约 15.7% 的蛋白质通过手动分类被归类为跨膜蛋白。在其余蛋白质中,65.2% 被归类为细胞质蛋白质,而 12.5% 的蛋白质被归类为非细胞质蛋白质(5.5% 细胞外,7.0% 周质蛋白质)。剩余则未被归录。

图 3:Tara Oceans 数据集中的细胞外蛋白功能。(图源:论文)
由于 Ayu 使用信号肽信息作为其特征之一,实验得以确定预测到每个细胞位置的蛋白质数量。而对于实验中发现的只有 79% 的周质蛋白和 54.7% 的细胞外蛋白含有信号肽的现象,需要再次进行测试以验证普遍性。
结果表明,在 53,902 种蛋白质中,至少有 1 种蛋白质具有信号肽,其中只有 43,361 种(约 80%)。这些实验成果表明,Ayu 能够补充信号肽预测以恢复更多的簇内细胞外蛋白多样性。
上述聚类过程还产生了几个预测的细胞外蛋白的蛋白质簇,而没有信号肽。这些簇几乎占该数据集中检测到的细胞外蛋白总数的一半。虽然以这种方式检测到的蛋白质中只有 53% 可以被注释,但仍然有可能找到进一步证明预测方法有效性的蛋白质。
研究最后还比较了来自相同 Tara Oceans 样本的宏基因组学数据集与宏转录组学数据集,以测试基于基因含量或表达的差异模式。总体而言,被鉴定为编码分泌蛋白的基因表达相对较高,证实了分泌组在环境中的相关性。
创新的海洋生物学研究
该研究表明海洋环境对必须在该环境中运行的蛋白质有显著影响,并且氨基酸组成的附加限制允许根据细菌蛋白质的亚细胞位置来区分细菌蛋白质。
除了远超现在所使用工具的性能之外,Ayu 还呈现出一系列优势。与基于同源和 PSSM 的方法相比,它将在更长的时间内保持有用,后者必须不断更新新发现才能保持准确。
需要注意 Ayu 没有接受过膜蛋白的训练,因此团队建议仅将 Ayu 用于原核和噬菌体基因组。
总的来说,这项研究进一步突破了现如今对分泌组以及海洋生物学和生物地球化学知识的极限。分泌组的大小增加了将近一倍,预计微生物的活动将发挥关键作用。
原文链接:https://www.nature.com/articles/s41467-025-57974-5
声明:本文转载自机器之心,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。

游客
- 鸟过留鸣,人过留评。
- 和谐社区,和谐点评。