刚刚,谷歌AI路线图曝光:竟要抛弃注意力机制?Transformer有致命缺陷!
【导读】未来AI路线图曝光!谷歌发明了Transformer,但在路线图中承认:现有注意力机制无法实现「无限上下文」,这意味着下一代AI架构,必须「从头重写」。Transformer的时代,真的要终结了吗?在未来,谷歌到底有何打算?
就在最近,谷歌未来的AI路线图曝光!
谷歌产品负责人Logan Kilpatrick在AI工程师世界博览会的演讲中,介绍了Gemini模型的未来。
在未来,Gemini的全模态是重点,模型正在逐步变成智能体,推理能力还会持续扩展。
要点速览——
· 全模态(r)
已经原生支持图像 + 音频生成,接下来是视频
·Diffusion的早期实验(r)
扩散模型相关
· 默认具备Agent能力(m)
一流的工具调用与工具使用能力,但更重要的是,模型正在逐步变成智能体
·推理能力持续扩展(s)
一个又一个研究突破接踵而至
· 更多小模型(s)
很快会有更多内容可以分享
· 无限上下文(r)
以当前注意力机制和上下文处理方式,这是不可能实现的 我们需要在核心架构层面进行全新创新,才能实现这一目标
· 大模型
规模即一切
注意,(r)、(s) 和 (m) 表示每个项目在谷歌路线图中的进展程度:
•(s)= short:短期/即将上线——表示已经在进行中或即将推出的项目
•(m)= medium:中期——仍在开发中的项目,将在未来几个季度内推出
•(r)= research:研究/长期项目——在发布之前仍处于实验阶段或需要突破性进展
硅谷大厂混战
AI年中成绩单大盘点
可以看出,谷歌现在是春风得意马蹄疾,Gemini 2.5 Pro让它稳稳扳回了一局,再次证明了自己在AI领域老大哥的地位。
X上的大V「Chubby」,也对硅谷大厂们进行了一期「年中盘点」。
OpenAI
目前仍处于领先地位,凭借o3、o3 pro以及即将到来的GPT-5,依然地位稳固。他们保持着定期更新,经常发布AI工具,不断增长的用户数量说明了一切。
DeepSeek
DeepSeek在r1取得可观成功后陆续推出了重大更新,但目前全世界仍在等待后续产品r2。关于DeepSeek后期将如何继续推进,目前尚无线索。
Anthropic
仍然是软件开发(SWE)领域的领头羊。如果其CEO所言不虚,智能体和进一步的发展将在未来几年内实现所有流程的自动化,并由通用智能体来处理。目前,Anthropic 正专注于商业领域(这一点从较低的速率限制上也不难看出),并继续保持强劲地位。
谷歌
然而,今年最大的赢家可能是谷歌,它几乎是从后起之秀跃居领先地位。Gemini 已经取得了令人瞩目成功。产品的定期更新、许多公告,包括出色的TPU定位,让谷歌的未来看起来一片光明。
Meta
不可否认,Meta已经落后了。Llama 4失败了,Behemoth也还没有发布。小扎组建了新的超级智能团队,试图再次迎头赶上。Alexandr Wang从Scale AI加入Meta是否会成为转折点?仍有待观察。
Grok
Grok 3.5也即将上线。目前很难评估。Grok在Colossus集群中显然处于有利位置。然而,它是否能训练出更好的模型?仍有待观察。
这其中评价最高的谷歌,接下来一段时间会有什么大动作?
让我们仔细看看Logan Kilpatrick的演讲内容,从中找出关键线索。
全公司公认,Gemini 2.5 Pro是谷歌重大转折点
这次大会上,前OpenAI成员、谷歌AI Studio产品负责人Logan Kilpatrick的演讲干货满满,透露了不少Gemini 2.5 Pro以及将来谷歌Gemini的计划的细节。
关于Logan Kilpatrick这位哥,还有一件趣事:据说Gemini制作笑话的能力完全是根据他的推文训练出来的,这就是为什么它们都不好笑。
目前,Logan Kilpatrick负责Gemini API开发及AGI研究
在演讲中,Logan Kilpatrick快速讲了三部分内容:
关于Gemini 2.5 Pro的一些有趣的发布内容;
回顾过去一年的Gemini进展;
展望未来 —— 模型本身、Gemini App,以及开发者平台的后续计划。
关于Gemini 2.5 Pro,他认为它被谷歌内部、也被外部开发者生态认为是一次「转折点」——
它为Gemini的未来奠定了坚实的基础。
Gemini的愿景
「统一助手」
Logan Kilpatrick给大家提了一个问题:谷歌过去各产品之间的连接是什么?
大多数人会想到:谷歌账号。但谷歌账号本身其实不「保留状态」,它的作用只是让你登录各个独立产品。
而现在,Gemini正在成为「统一线程」(thread)——串联起谷歌所有服务的那条线。
Gemini App,很有意思,很酷,体现了谷歌如何思考AI产品的未来。
他相信,谷歌的未来会呈现出这样的面貌:
Gemini将成为统一接口,连接所有谷歌产品,形成真正的「全域助手」。
目前大多数AI产品,仍然是「用户主动操作」——你要主动提问,主动请求功能。
但最令人兴奋的是AI的下一个阶段:
「主动式AI」 (Proactive AI)——AI 主动为你发现问题、提供建议、自动处理任务。
而现在,谷歌全力押注新范式转移:
多模态能力:原生音频处理已支持Astra和Gemini Live,Veo技术保持业界领先,视频整合将是下一阶段重点
模型进化:从单纯的token处理器转向具备系统化推理能力的智能体,「推理扩展」尤其值得关注
架构创新:包括小模型生态、无限上下文解决方案(需突破现有注意力机制限制)以及早期扩散实验展现的惊人token处理能力
向「全模态统一模型」迈进
从模型层面看,Gemini最初就被设想为一个统一多模态模型:音频、图像、视频,全都能处理。
在这方面,谷歌取得了很大进展:
谷歌I/O大会宣布了Gemini的原生语音能力(文本转语音TTS、语音合成、语音交互);
它已经支持自然对话,听起来非常自然;
这些能力已集成到Astro与Gemini Live。
Astro是谷歌的研究原型,探索为旗下产品带来突破性能力的途径。
目前,Astro集成了下列能力:
谷歌还在推进「Veo」相关能力(Video + Other),它已在多个指标上达到SOTA水平,未来也会并入主线Gemini模型。
此外,谷歌还在研究「基于扩散的推理」(diffusion-based reasoning)—— Gemini Diffusion。但此项目仍属研究前沿,尚未进入主线,但前景令人期待。
Gemini Diffusion有极高吞吐速率,每秒可采样1000余token
智能体成为主流
最近,Logan Kilpatrick一直在思考:随着系统推理能力越来越强,未来AI产品是什么形态?
过去,开发者总是把模型当作黑盒工具:
输入token,输出 token;
然后在外部构建各种scaffolding(支架)以增强功能。
但现在,情况变了:
模型自身越来越系统化,越来越能自主做事,不再只是「被动计算器」。
他认为,「推理过程」将成为一个核心变革点:如何扩展模型的推理能力。
他非常期待的问题是:
过去外部做的很多scaffolding,未来是否会被整合进模型的内部推理流程?这将彻底改变开发者构建产品的方式。
更多路线图:小模型、大模型、无限上下文
除此之外,谷歌还会在以下新产品和研究上发力。
更多「小模型」——轻量级,适合移动端与低功耗设备;
更大的模型——满足用户对极致能力的期待;
更重要的是:「无限上下文」的研究突破。
当前的AI模型架构(如Transformer)的重要缺陷之一,就是无法很好地支持无限上下文。
谷歌认为,既然注意力机制无法无限扩展,那就必须有新结构。
即将上线的开发者功能重点如下。
嵌入模型(Embeddings)虽然感觉像「AI早期工具」,但仍是核心组件。 RAG应用背后大多数都依赖embedding。 姑给即将发布一款最先进的Gemini嵌入模型,并拓展给更多开发者。
深度研究API(Deep Research API)用户对「深度研究」功能喜爱有加。 谷歌正在将这些能力聚合为专门的 API 接口,面向研究型产品开发者。
Veo3与Imagine 4接入API:很快将上线。
最后一个重点,谷歌计划重新定位「AI Studio」:
不再是2C产品,而是明确定位为「开发者平台」。
未来,AI Studio将成为真正的开发工具平台,内嵌Agent构建能力,例如Jules或开发者专属代码Agent,为开发者提供完整构建体验。
2024:Gemini最疯狂的一年
对谷歌Gemini团队来说,过去一年可以说是「最疯狂的一年」。
在谷歌I/O上,劈柴展示了一页幻灯片:过去12个月,谷歌Gemini团队仿佛压缩了10年的开发工作。
从个人角度出发,Logan Kilpatrick认为谷歌真正的优势在于:
不仅在做AI基础研究,还在推进科学、几何、机器人等多领域的研究,
这些研究最后都会反馈到主线Gemini模型中。
在谷歌I/O演讲中,劈柴还展示了另一张幻灯片:在过去一年,谷歌服务器AI推理任务处理量提升了50倍!
Logan Kilpatrick认为:「这说明外部开发者生态对Gemini模型的需求呈爆炸式增长。」
其实背后的关键不只是技术,而是组织结构的变革。
2023 年初,谷歌把多个AI研究团队整合到DeepMind,制定了新方向:
不再仅限于理论研究,而是要做出真正实用的模型,服务于谷歌内部与外部开发者生态。
之后,又迈出第二步,将产品团队也纳入DeepMind。这意味着:
DeepMind负责研发模型、推动研究;
同时也打造产品并将其交付给全球用户。
最近,谷歌还任命DeepMind的首席技术官Koray Kavukcuoglu担任新的高级副总裁职位——首席AI架构师。
Koray Kavukcuoglu
与研究团队密切合作,把尖端模型能力带到现实世界——
这种「前沿协作」的过程让Logan Kilpatrick个人非常享受。
这种创新的节奏非常令人兴奋,他相信这才刚刚开始。
谷歌DeepMind内部公式很简单,总结一句话:
找到最优秀的人,发现基础设施优势,然后……不断发布!
参考资料:
https://www.youtube.com/watch?v=U-fMsbY-kHY&t=1676s
https://www.semafor.com/article/06/11/2025/google-names-new-chief-ai-architect-to-advance-developments
声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。

游客
- 鸟过留鸣,人过留评。
- 和谐社区,和谐点评。