谷歌扔出核弹论文:Transformer时代恐终结
你有没有想过,为什么你问ChatGPT"昨天我们聊了什么",它总是回答"抱歉,我不记得了"?
这不是因为它不够聪明。是因为今天的AI都患有一种"失忆症"。学新东西就会忘掉旧本事,这是AI领域困扰十年的头号难题。而现在,谷歌带着论文"Attention Is All You Need V2"杀了回来,声称找到了解药。

AI的"失忆症",到底多严重?
想象一下这个场景:你训练了一个AI模型能写出漂亮的中文文章。现在你想教它编程。你开始喂给它海量代码——结果呢?它编程学会了,但中文写作能力全部归零。
这就是"灾难性遗忘"。2017年谷歌那篇改变世界的论文"Attention Is All You Need"诞生了Transformer架构,奠定了ChatGPT、Gemini所有大模型的基石。但Transformer有一个致命缺陷:模型一旦训练完成就被"冻住"了,再也不能学习任何新东西。
换句话说,今天的AI就像一个得了"顺行性遗忘症"的病人——只能活在当下,无法形成新的长期记忆。
谷歌的解法:让AI像人脑一样学习
谷歌研究团队在NeurIPS 2025发表的论文"嵌套学习:深度学习架构的幻觉"中,提出了全新范式——Nested Learning(嵌套学习),以及基于它构建的HOPE架构。
核心思想很简单:人脑怎么学,AI就该怎么学。
人脑能终身学习不遗忘,靠的是两样东西:第一,神经可塑性——大脑各区域可以重组和重新分配功能;第二,脑电波的多频振荡——高频波处理即时信息,低频波负责长时记忆固化。
现有的深度学习模型呢?所有参数以同样速率更新,等于只有一种"学习频率"。学完就锁死。
HOPE架构打破了这种禁锢。它由"神经学习模块"(NLM)组成,每个模块都有自己的学习目标和更新频率。浅层模块每看到几个词就更新一次,像短期记忆;深层模块要积累成千上万词才更新,像长期记忆。知识在不同"时间刻度"上被组织起来,新学的东西不会再覆盖旧知识。
HOPE为什么被叫做"Transformer杀手"?
HOPE用两个核心组件取代了Transformer的注意力机制:
1. 自我修改型Titans:实时处理当前对话,捕捉即时模式
2. 连续记忆系统(CMS):负责长期知识存储,更新极慢,不易遗忘
研究人员将HOPE与目前最强的两个架构TTT和Mamba2做了对比测试。在长上下文任务上,HOPE在三个难度级别中全面领先。更关键的是,它在持续学习场景下不出现灾难性遗忘——这是Transformer从未做到的。
不过在学术界,争议也随之而来。Reddit上有研究者直言"热度被夸大了",认为这只是元学习和持续学习领域的变体,离真正终结Transformer还有很长的路。但也有人指出,谷歌正在把这篇论文的成果融入下一代Gemini模型的研发中。
对我们普通人意味着什么?
如果嵌套学习路线成功,未来AI将会:
- 记住和你的每一次对话,真正成为"私人助手"
- 在工作中持续学习你的偏好和风格,越用越顺手
- 不再需要每隔几个月重新训练,节省巨额算力成本
这些变化不会明天就发生。但方向已经明确:从"训练一次、终身不变"的静态AI,进化到"边用边学、越用越强"的动态AI。
九年前,"Attention Is All You Need"让整个行业沸腾。今天,它的续集来了。这一次,谷歌想证明的不仅是注意力就够了——而是让AI学会永不遗忘。
你觉得AI应该拥有持续学习的能力吗?如果它记住了你所有的对话,你会觉得更贴心,还是更不安?
声明:本文转载自源来如此,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里查看更多信息!
AI 中文社