刚刚，谷歌AI路线图曝光：竟要抛弃注意力机制？Transformer有致命缺陷！

2025-06-16 发布浏览228次点赞0次收藏0次

【导读】未来AI路线图曝光！谷歌发明了Transformer，但在路线图中承认：现有注意力机制无法实现「无限上下文」，这意味着下一代AI架构，必须「从头重写」。Transformer的时代，真的要终结了吗？在未来，谷歌到底有何打算？

就在最近，谷歌未来的AI路线图曝光！

谷歌产品负责人Logan Kilpatrick在AI工程师世界博览会的演讲中，介绍了Gemini模型的未来。

在未来，Gemini的全模态是重点，模型正在逐步变成智能体，推理能力还会持续扩展。

要点速览——

· 全模态（r）

已经原生支持图像 + 音频生成，接下来是视频

·Diffusion的早期实验（r）

扩散模型相关

· 默认具备Agent能力（m）

一流的工具调用与工具使用能力，但更重要的是，模型正在逐步变成智能体

·推理能力持续扩展（s）

一个又一个研究突破接踵而至

· 更多小模型（s）

很快会有更多内容可以分享

· 无限上下文（r）

以当前注意力机制和上下文处理方式，这是不可能实现的我们需要在核心架构层面进行全新创新，才能实现这一目标

· 大模型

规模即一切

注意，(r)、(s) 和 (m) 表示每个项目在谷歌路线图中的进展程度：

•(s)= short:短期/即将上线——表示已经在进行中或即将推出的项目

•(m)= medium:中期——仍在开发中的项目，将在未来几个季度内推出

•(r)= research:研究/长期项目——在发布之前仍处于实验阶段或需要突破性进展

硅谷大厂混战

AI年中成绩单大盘点

可以看出，谷歌现在是春风得意马蹄疾，Gemini 2.5 Pro让它稳稳扳回了一局，再次证明了自己在AI领域老大哥的地位。

X上的大V「Chubby」，也对硅谷大厂们进行了一期「年中盘点」。

OpenAI

目前仍处于领先地位，凭借o3、o3 pro以及即将到来的GPT-5，依然地位稳固。他们保持着定期更新，经常发布AI工具，不断增长的用户数量说明了一切。

DeepSeek

DeepSeek在r1取得可观成功后陆续推出了重大更新，但目前全世界仍在等待后续产品r2。关于DeepSeek后期将如何继续推进，目前尚无线索。

Anthropic

仍然是软件开发(SWE)领域的领头羊。如果其CEO所言不虚，智能体和进一步的发展将在未来几年内实现所有流程的自动化，并由通用智能体来处理。目前，Anthropic 正专注于商业领域（这一点从较低的速率限制上也不难看出），并继续保持强劲地位。

谷歌

然而，今年最大的赢家可能是谷歌，它几乎是从后起之秀跃居领先地位。Gemini 已经取得了令人瞩目成功。产品的定期更新、许多公告，包括出色的TPU定位，让谷歌的未来看起来一片光明。

Meta

不可否认，Meta已经落后了。Llama 4失败了，Behemoth也还没有发布。小扎组建了新的超级智能团队，试图再次迎头赶上。Alexandr Wang从Scale AI加入Meta是否会成为转折点？仍有待观察。

Grok

Grok 3.5也即将上线。目前很难评估。Grok在Colossus集群中显然处于有利位置。然而，它是否能训练出更好的模型？仍有待观察。

这其中评价最高的谷歌，接下来一段时间会有什么大动作？

让我们仔细看看Logan Kilpatrick的演讲内容，从中找出关键线索。

全公司公认，Gemini 2.5 Pro是谷歌重大转折点

这次大会上，前OpenAI成员、谷歌AI Studio产品负责人Logan Kilpatrick的演讲干货满满，透露了不少Gemini 2.5 Pro以及将来谷歌Gemini的计划的细节。

关于Logan Kilpatrick这位哥，还有一件趣事：据说Gemini制作笑话的能力完全是根据他的推文训练出来的，这就是为什么它们都不好笑。

目前，Logan Kilpatrick负责Gemini API开发及AGI研究

在演讲中，Logan Kilpatrick快速讲了三部分内容：

关于Gemini 2.5 Pro的一些有趣的发布内容；
回顾过去一年的Gemini进展；
展望未来 —— 模型本身、Gemini App，以及开发者平台的后续计划。

关于Gemini 2.5 Pro，他认为它被谷歌内部、也被外部开发者生态认为是一次「转折点」——

它为Gemini的未来奠定了坚实的基础。

Gemini的愿景

「统一助手」

Logan Kilpatrick给大家提了一个问题：谷歌过去各产品之间的连接是什么？

大多数人会想到：谷歌账号。但谷歌账号本身其实不「保留状态」，它的作用只是让你登录各个独立产品。

而现在，Gemini正在成为「统一线程」（thread）——串联起谷歌所有服务的那条线。

Gemini App，很有意思，很酷，体现了谷歌如何思考AI产品的未来。

他相信，谷歌的未来会呈现出这样的面貌：

Gemini将成为统一接口，连接所有谷歌产品，形成真正的「全域助手」。

目前大多数AI产品，仍然是「用户主动操作」——你要主动提问，主动请求功能。

但最令人兴奋的是AI的下一个阶段：

「主动式AI」（Proactive AI）——AI 主动为你发现问题、提供建议、自动处理任务。

而现在，谷歌全力押注新范式转移：

多模态能力：原生音频处理已支持Astra和Gemini Live，Veo技术保持业界领先，视频整合将是下一阶段重点
模型进化：从单纯的token处理器转向具备系统化推理能力的智能体，「推理扩展」尤其值得关注
架构创新：包括小模型生态、无限上下文解决方案（需突破现有注意力机制限制）以及早期扩散实验展现的惊人token处理能力

向「全模态统一模型」迈进

从模型层面看，Gemini最初就被设想为一个统一多模态模型：音频、图像、视频，全都能处理。

在这方面，谷歌取得了很大进展：

谷歌I/O大会宣布了Gemini的原生语音能力（文本转语音TTS、语音合成、语音交互）；
它已经支持自然对话，听起来非常自然；
这些能力已集成到Astro与Gemini Live。

Astro是谷歌的研究原型，探索为旗下产品带来突破性能力的途径。

目前，Astro集成了下列能力：

谷歌还在推进「Veo」相关能力（Video + Other），它已在多个指标上达到SOTA水平，未来也会并入主线Gemini模型。

此外，谷歌还在研究「基于扩散的推理」（diffusion-based reasoning）—— Gemini Diffusion。但此项目仍属研究前沿，尚未进入主线，但前景令人期待。

Gemini Diffusion有极高吞吐速率，每秒可采样1000余token

智能体成为主流

最近，Logan Kilpatrick一直在思考：随着系统推理能力越来越强，未来AI产品是什么形态？

过去，开发者总是把模型当作黑盒工具：

输入token，输出 token；

然后在外部构建各种scaffolding（支架）以增强功能。

但现在，情况变了：

模型自身越来越系统化，越来越能自主做事，不再只是「被动计算器」。

他认为，「推理过程」将成为一个核心变革点：如何扩展模型的推理能力。

他非常期待的问题是：

过去外部做的很多scaffolding，未来是否会被整合进模型的内部推理流程？这将彻底改变开发者构建产品的方式。

更多路线图：小模型、大模型、无限上下文

除此之外，谷歌还会在以下新产品和研究上发力。

更多「小模型」——轻量级，适合移动端与低功耗设备；
更大的模型——满足用户对极致能力的期待；
更重要的是：「无限上下文」的研究突破。

当前的AI模型架构（如Transformer）的重要缺陷之一，就是无法很好地支持无限上下文。

谷歌认为，既然注意力机制无法无限扩展，那就必须有新结构。

即将上线的开发者功能重点如下。

嵌入模型（Embeddings）虽然感觉像「AI早期工具」，但仍是核心组件。 RAG应用背后大多数都依赖embedding。姑给即将发布一款最先进的Gemini嵌入模型，并拓展给更多开发者。
深度研究API（Deep Research API）用户对「深度研究」功能喜爱有加。谷歌正在将这些能力聚合为专门的 API 接口，面向研究型产品开发者。
Veo3与Imagine 4接入API：很快将上线。

最后一个重点，谷歌计划重新定位「AI Studio」:

不再是2C产品，而是明确定位为「开发者平台」。

未来，AI Studio将成为真正的开发工具平台，内嵌Agent构建能力，例如Jules或开发者专属代码Agent，为开发者提供完整构建体验。

2024：Gemini最疯狂的一年

对谷歌Gemini团队来说，过去一年可以说是「最疯狂的一年」。

在谷歌I/O上，劈柴展示了一页幻灯片：过去12个月，谷歌Gemini团队仿佛压缩了10年的开发工作。

从个人角度出发，Logan Kilpatrick认为谷歌真正的优势在于：

不仅在做AI基础研究，还在推进科学、几何、机器人等多领域的研究，

这些研究最后都会反馈到主线Gemini模型中。

在谷歌I/O演讲中，劈柴还展示了另一张幻灯片：在过去一年，谷歌服务器AI推理任务处理量提升了50倍！

Logan Kilpatrick认为：「这说明外部开发者生态对Gemini模型的需求呈爆炸式增长。」

其实背后的关键不只是技术，而是组织结构的变革。

2023 年初，谷歌把多个AI研究团队整合到DeepMind，制定了新方向：

不再仅限于理论研究，而是要做出真正实用的模型，服务于谷歌内部与外部开发者生态。

之后，又迈出第二步，将产品团队也纳入DeepMind。这意味着：

DeepMind负责研发模型、推动研究；
同时也打造产品并将其交付给全球用户。

最近，谷歌还任命DeepMind的首席技术官Koray Kavukcuoglu担任新的高级副总裁职位——首席AI架构师。

Koray Kavukcuoglu

与研究团队密切合作，把尖端模型能力带到现实世界——

这种「前沿协作」的过程让Logan Kilpatrick个人非常享受。

这种创新的节奏非常令人兴奋，他相信这才刚刚开始。

谷歌DeepMind内部公式很简单，总结一句话：

找到最优秀的人，发现基础设施优势，然后……不断发布！

参考资料：

https://www.youtube.com/watch?v=U-fMsbY-kHY&t=1676s

https://www.semafor.com/article/06/11/2025/google-names-new-chief-ai-architect-to-advance-developments

服务器大模型 AI工具 CEO OpenAI 体验性能谷歌 GPT AI AGI

声明：本文转载自新智元，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！

刚刚，谷歌AI路线图曝光：竟要抛弃注意力机制？Transformer有致命缺陷！

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。