谷歌扔出核弹论文：Transformer时代恐终结

2026-05-20 发布浏览199次点赞0次收藏0次

你有没有想过，为什么你问ChatGPT"昨天我们聊了什么"，它总是回答"抱歉，我不记得了"？

这不是因为它不够聪明。是因为今天的AI都患有一种"失忆症"。学新东西就会忘掉旧本事，这是AI领域困扰十年的头号难题。而现在，谷歌带着论文"Attention Is All You Need V2"杀了回来，声称找到了解药。

AI的"失忆症"，到底多严重？

想象一下这个场景：你训练了一个AI模型能写出漂亮的中文文章。现在你想教它编程。你开始喂给它海量代码——结果呢？它编程学会了，但中文写作能力全部归零。

这就是"灾难性遗忘"。2017年谷歌那篇改变世界的论文"Attention Is All You Need"诞生了Transformer架构，奠定了ChatGPT、Gemini所有大模型的基石。但Transformer有一个致命缺陷：模型一旦训练完成就被"冻住"了，再也不能学习任何新东西。

换句话说，今天的AI就像一个得了"顺行性遗忘症"的病人——只能活在当下，无法形成新的长期记忆。

谷歌的解法：让AI像人脑一样学习

谷歌研究团队在NeurIPS 2025发表的论文"嵌套学习：深度学习架构的幻觉"中，提出了全新范式——Nested Learning（嵌套学习），以及基于它构建的HOPE架构。

核心思想很简单：人脑怎么学，AI就该怎么学。

人脑能终身学习不遗忘，靠的是两样东西：第一，神经可塑性——大脑各区域可以重组和重新分配功能；第二，脑电波的多频振荡——高频波处理即时信息，低频波负责长时记忆固化。

现有的深度学习模型呢？所有参数以同样速率更新，等于只有一种"学习频率"。学完就锁死。

HOPE架构打破了这种禁锢。它由"神经学习模块"（NLM）组成，每个模块都有自己的学习目标和更新频率。浅层模块每看到几个词就更新一次，像短期记忆；深层模块要积累成千上万词才更新，像长期记忆。知识在不同"时间刻度"上被组织起来，新学的东西不会再覆盖旧知识。

HOPE为什么被叫做"Transformer杀手"？

HOPE用两个核心组件取代了Transformer的注意力机制：

1. 自我修改型Titans：实时处理当前对话，捕捉即时模式

2. 连续记忆系统（CMS）：负责长期知识存储，更新极慢，不易遗忘

研究人员将HOPE与目前最强的两个架构TTT和Mamba2做了对比测试。在长上下文任务上，HOPE在三个难度级别中全面领先。更关键的是，它在持续学习场景下不出现灾难性遗忘——这是Transformer从未做到的。

不过在学术界，争议也随之而来。Reddit上有研究者直言"热度被夸大了"，认为这只是元学习和持续学习领域的变体，离真正终结Transformer还有很长的路。但也有人指出，谷歌正在把这篇论文的成果融入下一代Gemini模型的研发中。

对我们普通人意味着什么？

如果嵌套学习路线成功，未来AI将会：

这些变化不会明天就发生。但方向已经明确：从"训练一次、终身不变"的静态AI，进化到"边用边学、越用越强"的动态AI。

九年前，"Attention Is All You Need"让整个行业沸腾。今天，它的续集来了。这一次，谷歌想证明的不仅是注意力就够了——而是让AI学会永不遗忘。

你觉得AI应该拥有持续学习的能力吗？如果它记住了你所有的对话，你会觉得更贴心，还是更不安？

测试算力大模型 AI Transformer ChatGPT 写作谷歌 GPT

声明：本文转载自源来如此，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！