看破不可见数据集，自我监督学习成为细胞组学新的复杂系统处理利器

2025-01-22 发布浏览344次点赞0次收藏0次

编辑丨&

自我监督学习 SSL 是一个概念，即数据及其固有的成对关系足以学习有意义的数据表示。监督学习依赖于成对的观察值和标签，而 SSL 仅依赖于输入和样本间关系。

SSL 已成为一种强大的方法，用于从庞大、未标记的数据集中提取有意义的表示，从而改变计算机视觉和自然语言处理。

在单细胞基因组学（SCG）中，表征学习提供了对复杂生物数据的见解，尤其是新兴的基础模型。然而，在 SCG 中识别 SSL 优于传统学习方法的场景仍然是一个微妙的挑战，在 SSL 框架内为 SCG 选择最有效的借口任务是一个关键但尚未解决的问题。

来自德国慕尼黑的一支研究团队试图通过调整和基准测试 SCG 中的 SSL 方法来解决这一差距，这其中包括具有多种掩码策略的掩码自动编码器和对比学习方法。

他们的研究结果以「Delineating the effective use of self-supervised learning in single-cell genomics」为题，于 2024 年 12 月 27 日发布在《Nature Machine Intelligence》。

在 SCG 中，掩蔽自动编码器优于对比方法，这与计算机视觉趋势不同。SSL 在零镜头设置与跨模态预测和数据集成方面中有着显著潜力。

SSL 在 SCG 之中

单细胞基因组学（SCG）已迅速扩展到大数据领域，这主要是由单细胞 RNA 测序技术的进步引起的。更大的数据集会带来更多的挑战，而大模型便因此受到关注并急速发展。

然而，在理解他们的用例以及如何有效利用包含数百万个单元的新兴数据集方面仍然存在差距。SCG 领域现在不仅需要计算能力，还需要战略性地使用处理大数据复杂性的方法。在这种情况下，SSL 是一种很有前途的方法。

SSL 通常是基础模型的根本，已经开始影响到小型和大型 SCG。在小规模上，专门的 SSL 方法部署了对比损失，使用多模态学习等技术进行定制，基于图形的策略和基于聚类的方法以嵌入单元格。

虽然基础模型已经通过自我监督的预训练展示了改进，但理清 SSL、扩展定律或 transformer 架构的贡献仍然很困难。

为了指导 SSL 在 SCG 中的有效使用，需要通过系统的经验验证来解决这些歧义。此类研究有助于确定 SSL 可以有效促进 SCG 的场景。

团队的研究旨在确定 SCG 中 SSL 有用的特定场景，并彻底分析和评估 SCG 中的 SSL 方法。基于 SCG 中明确定义的 SSL 基准指标，实证分析主要集中在细胞类型预测应用上，并在基因表达重建、跨模态预测和数据集成方面进行验证。

他们发现， SSL 可以提高迁移学习设置中的下游性能，即在分析由来自较大辅助数据集的见解提供的较小数据集时，以及在涉及看不见的数据集的情况下。

SSL 框架原意是用于开发自我监督方法并研究 SCG 中的不同用例，其核心是使用完全连接的自动编码器架构，这些架构因其在 SCG 任务中无处不在的应用而被选中。

图示：SCG 中辅助数据上的 SSL 提高的性能。（图源：论文）

这些优化策略需要利用不同程度的生物学洞察力，从具有最小归纳偏差的随机掩蔽到密集利用已知基因功能的孤立掩蔽，强调有针对性的生物学关系。

SSL 与训练后的预测

作为 SCG 中自我监督的第一个用例，团队询问了对细胞图谱或较小数据集的分析是否可以从辅助数据的自我监督预训练中受益。

值得注意的是，在大量供体上进行预训练，SSL 的性能优于监督学习，这凸显了丰富的预训练数据集的必要性。

团队对 SSL 方法的基准测试揭示了对选择预训练策略的敏感性。对比学习已被证明在语言或者视觉建模等领域有效的方案，SSL 在较小规模上有效。

图示：SSL 在看不见的数据集上实现了高零样本性能与更高的准确性。（图源：论文）

如果为监督模型和 SSL 模型提供对相同数据的访问权限，它们的性能将非常相似。倘若把这点扩展到看不见的数据集中，就能发现，虽然都是在分布内部，但是在分析看不见的数据集时，SSL 对于泛化的运用更加具有优势。

在对 SSL 在转录组学上的效用进行了基准测试后，研究团队试图将研究扩展到多组学，意在寻找 SSL 是否可以利用来自一种模态的辅助数据来增强多模态下游任务。

在经历了对蛋白质组学计数等预训练后，团队得出了结论。SSL 在预测上的性能明显优于其监督对应物。这一发现突出了在一种模式更丰富的情况下自我监督的优势。

更多的发展方向

由于批次效应（例如实验条件或混杂因素），集成单细胞数据集进行联合分析非常困难，这给图谱分析工作带来了独特的挑战。

团队的实验结果阐明了 SSL 可以表现出色的背景，尤其是在利用来自庞大辅助数据集的见解进行较小的数据集任务和看不见的数据集场景时。

SSL 与受监督方法相同，在监督方法中，两者都访问相同的数据，并且零样本 SSL 模型接近该性能。

团队为 SCG 中的 SSL 提供了稳健的、以实证为基础的观点，为研究复杂生物系统提供更明智的数据驱动方法铺平了道路。在大型模型与基础模型的上下文中，这些理解可以帮助设计预训练和选择借口任务。

SSL 方法的基准为从业者提供了关于在上述设置中哪种方法有利的明确建议。因其在各种任务中具有鲁棒性和多功能性，团队建议使用随机掩码策略进行掩码预训练，这是基础模型的核心。

对于更广泛的计算生物学社区，研究团队已经证明，对图谱级数据进行自我监督的预训练有助于提高通常更难扩展的生物学或医学相关性较小数据集的性能。

原文链接：https://www.nature.com/articles/s42256-024-00934-3

代码链接：https://doi.org/10.5281/zenodo.13358872

理论框架性能测试大模型

声明：本文转载自机器之心，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！