预测精度达93%,个人电脑可部署,科学家开发Transformer新方法预测结合蛋白

编辑丨&
结合蛋白通过与特定分子(如 DNA、RNA 或肽)选择性相互作用来调节各种细胞过程,它们能以高特异性识别和结合靶分子,这使得它们在信号传导、转运和酶活性功能上有着至关重要的地位。
当前,用于鉴定蛋白质结合肽的传统方法效率低下且性价比极低,而基于序列的方法因过于狭隘地关注近端序列特征而忽略了结构数据,导致没有一种良好的方式进行结合蛋白预测。
阿富汗呼罗珊大学(Khurasan University)领导了一项研究,推出一款名为 Deep-ProBind 的强大预测模型,旨在通过整合序列和结构信息对蛋白质结合位点进行分类。
该模型基准数据集上实现了 10 倍交叉验证的准确率达到 92.67%,在独立样本上实现了 93.62% 的准确率,训练数据方面相较于现有模型分别高出 3.57% 与 1.52%。
他们的研究以《Deep-ProBind: binding protein prediction with transformer-based deep learning model》为题,于 2025 年 3 月 22 日刊登于《BMC Bioinformatics》。

框架模型
本研究主要致力于解决蛋白质结合位点预测中的两个关键挑战:需要可靠的大规模肽结合蛋白数据集和开发新的深度学习模型。新模型使用基于 Transformer 的注意力机制对肽进行编码,并通过 PsePSSM-DWT 方法生成进化信息特征。
通过深度神经网络(DNN)执行分类,模型能够学习数据中的复杂模式,成为研究人员的强大工具,为肽结合位点预测提供了一种可靠的方法。

图 1:所提出模型的框架。(图源:论文)
经过实验,团队创建了一个平衡的数据集,在测试中使用了不平等的数据,即 200 个阳性样本和 800 个阴性样本以反映真实的数据情况。
为了保证正确的特征,团队实现了特征编码方案,采用位置特异性评分矩阵(PSSM)、PsePSSM、离散小波变换 (DWT)与 Transformer 的双向编码器表示(BERT)进行构建。

图 2:使用词嵌入的 ProtBERT-BFD 模型。(图源:论文)
具体来说,研究中使用 ProtBERT-BFD,它将基于蛋白质的 BERT 嵌入与 Big Fantastic Database(BFD)相结合,以增强特征表示。使用全局平均池化将标记化序列转换为 1024 维特征向量,然后将这些特征输入到深度学习模型进行预测。
深度架构
DNN 是 ML 的一个子分类,其灵感来自人脑的结构和功能。DNN 架构包括一个输入层、几个隐藏层和一个介于两者之间的输出层。
隐藏层对于网络了解数据中无法在原始数据中检测到的特征和模式至关重要,虽然其数量增加了映射复杂模式的预测能力,但也变相增加了难度、计算成本和过度拟合的出现。
使用基准数据集,DNN 模型用于识别蛋白质结合肽。所提出的 DNN 模型包括输入、输出和四个隐藏层,通过使用反向传播算法迭代更改权重,减少输出类和目标类之间的误差,从而改进所提出的模型学习技术。

图 3:建议的 DNN 模型配置。(图源:论文)
性能分析
实验被架设在第六代英特尔酷睿 i7 处理器上,加入了 Tensorflow 和 Keras 来构建深度神经网络,以及 Pandas 和 Matplotlib 来做大量的数据分析、清理和整理数据以运行机器学习模型。
当使用 Tanh 作为激活函数和学习率 0.1 时,DNN 分类器在基准数据集上实现了最高的准确性,为 92.67%。该团队表示,关于学习率值,DNN 模型达到了最大准确率。
随着训练 epoch 的增加,错误率持续降低。例如,DNN 模型在初始 epoch 开始时的误差损失为 0.879,到第 50 个 epoch 时稳步下降到 0.001。

图 4:DNN 模型的性能。(图源:论文)
除此之外,团队还使用 AUC 指标进一步检查了 Deep-ProBind 的性能,AUC 指标是二进制分类器准确性的关键指标,分数越高代表性能更好。
Deep-ProBind 提供了出色的结果,在训练数据集上实现了 0.941 的 AUC,独立数据集上达到了 0.948 的 AUC。综合来说,DNN 模型的性能优于 SVM 算法和其他传统 ML。
模型总结
Deep-ProBind 令人鼓舞的结果突显了其在寻找功能性肽方面的研究潜力、它们在疾病中的相关性,尤其是在应激反应和乳腺癌中,以及它们在制定治疗方法中的应用。
研究的目标是采用并行编程方法来解决可扩展性和效率问题,通过超参数优化和采用集成技术来完善模型架构,确保更快、更节省资源的处理。
当前研究的一个关键局限性是依赖于相对较小的数据集,这可能会限制模型的泛化性。研究的最终目标是通过在未来的迭代中整合更广泛和多样化的数据集来克服这一限制。
论文链接:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-025-06101-8
声明:本文转载自机器之心,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。

游客
- 鸟过留鸣,人过留评。
- 和谐社区,和谐点评。