谷歌重回铁王座!Gemini 3吊打GPT-5,奥特曼发信承认技不如人
【导读】两年时间,谷歌从被OpenAI按在地上摩擦,到用Gemini 3.0 Pro把「落后」两个字彻底撕碎,狠狠甩了奥特曼一脸。AI江湖的王座,谷歌终于还是坐实了!
最近谷歌的Nano Banana Pro和Gemini 3,大家都玩嗨了吧~
就连奥特曼都在全员信中承认,谷歌已经「反超」。
可以说,年底这波大招,成功地「让谷歌再次伟大」!
尤其是Nano Banana Pro展现了生成式AI技术的重大突破。

网友用Nano Banana Pro制作的梗图
所有人都赞不绝口,很多大佬都成了自来水,比如Shopify的CEO直夸Nano Banana Pro简直疯狂!

谷歌这把王座,基本是坐稳了。
回看这个11月,全球科技格局经历了一场剧烈的板块漂移,准确地说,是在谷歌和OpenAI之间。
两家产品都是密集发布,GPT-5.1、Gemini 3,你方唱罢我登场。
在经历了长达三年的被动防御战,谷歌以一种近乎挑衅的自信姿态重回人工智能霸主的地位!
上个月,作为对手的奥特曼告诉OpenAI的同事们:
谷歌最近在AI方面的进展可能会「给我们公司带来一些暂时的经济阻力」。

所以,谷歌的Gemini 3和Nano Banana Pro为何能够突然断层一样领先?
是因为自研TPU带来的算力扩充,还是谷歌掌握了全新的AI技术?或许都有,但在社区的讨论中,一种最可能的底层原因开始浮出水面。
谷歌的创始人放弃在私人小岛度假,并且重回AI第一线,重启「创始人模式」。

谢尔盖效应:创始人模式拯救谷歌,并带来Gemini 3.0
身价千亿创始人
亲自下场修配置
如果说劈柴是谷歌AI转型的执行者,那么联合创始人谢尔盖·布林(Sergey Brin)的回归则是这场变革的精神图腾。
据外媒报道,布林早已重返谷歌山景城总部。

他并没有选择坐在高管套房里,而是直接入驻了被称为「Building 43」的工程中心。
X的网友将布林的回归定义为:谷歌在一年内从「远远落后」到「轻松称霸」。

这个观点引发了社区广泛的讨论!
网友迅速从嗨到不行的状态立马上升到哲学层面:谷歌怎么一下子能做出两个这么厉害的产品?
一个观点是,谷歌在技术上从未落后,但是谷歌得了一个病:「大公司病」。
OpenAI作为创业公司,加上奥特曼的激进战略,OpenAI一直敢于发布产品,即使市场认为这个产品并不完美。
而布林的回归和影响力,正是打破了谷歌的这种僵局。

这充分展示了强大领导力的重要性。
甚至有网友认为,如果不是创始人打通了谷歌部门之间的壁垒,Gemini 3或者Nano Banana Pro并不会以「全面出击」的方式上线。

作为谷歌的创始人和图腾人物,谢尔盖放弃退休后在私人小岛享受生活。
而是脚踏实地的重返硅谷,拯救谷歌。
布林的回归不是为了发表愿景演讲,而是为了写代码。
据说,他回到谷歌后提交了多年来的第一个CL(Changelist,谷歌内部的代码修改请求),这一行为在工程师内部产生了地震般的效应:
如果身价千亿的创始人都在修补配置文件,那么任何产品经理都没有理由以「流程」为借口阻碍发布。
布林的存在直接催化了Gemini 3项目的加速,他专注于解决模型在长逻辑链推理上的「长尾问题」,这是之前职业经理人们因追求短期指标而忽视的领域。
很多网友表达了类似的看法。
谷歌太强,也太大,它得了大公司病,到处是繁文缛节。
但布林的回归,让谷歌再次成为一家AI时代的「创业公司」。

创始人的回归,不仅重塑了文化。
有网友说,谷歌将所有人工智能相关工作整合到哈萨比斯旗下的DeepMind也是至关重要的一步棋。

这里就有人问了,创始人虽然具有图腾般的象征和号召力,但是他有实权吗?
最有名的独立开发者levelsio给出了答案:
谢尔盖·布林与拉里·佩奇仍共同持有Alphabet的股份。
更重要的是,他们共同持有87.4%的B类投票股,这赋予了他们51.4%的总投票权
想象一下,当谷歌的官僚体系(他们确实存在不少)试图阻碍你时,有谢尔盖站在你这边——只需给他发条消息,就能获得通行许可。
这相当于获得了一张创新的通行证:你可以自由创造任何产品、发布任何功能、推出任何项目,几乎不受限制。
这让谷歌重新像一家小型初创公司那样运作,我认为这正是他们再次取胜的原因。

虽然这波谷歌有望重夺王座,但是在此前面对OpenAI时,谷歌一度掉以轻心。
拉响红色警报
AI部门紧急重组
起初,ChatGPT刚出来时,谷歌并没有放在眼里——
这不就是我们自己玩过的LaMDA吗?
那个内部跑过、甚至把一个工程师忽悠到以为它有意识、但死活没敢放出来的生成式AI聊天机器人。
谁也没想到,ChatGPT眨眼间就成了史上增长最快的消费级产品,甚至还能替代搜索引擎拿来查资料、做研究。
这时谷歌才反应过来:坏了,真要出大事了。
虽然没人正式喊,但公司里实质上已经「code red」了。

于是,谷歌赶紧把自家两个最强的AI实验室缝在了一起——谷歌DeepMind由此诞生。
从追赶到碾压,谷歌王者归来
这次合并把DeepMind在强化学习、神经科学启发AI上的深厚积累,和谷歌Brain在大规模机器学习系统上的优势完美结合,直接加速了顶级模型的研发。
Gemini正是合并之后,第一个落地的大项目。
它从设计之初,便坚定地走上了原生多模态路线,而不是在单模态模型上后期缝补,从而彻底避开了GPT-4等竞品的后天短板。
同时,也完全由谷歌自研的TPU进行训练。

2023年12月6日,第一代Gemini正式发布。
Gemini 1.0共有三大版本:Gemini Ultra、Gemini Pro、Gemini Nano,其中Pro和Ultra支持最长32k token上下文。
作为当时谷歌最强大的模型,Gemini Ultra在MMLU拿下90.0%,数学(MATH 53.4%)和视觉问答等多项榜单碾压GPT-4。

2024年2月15日,Gemini 1.5发布。
上下文窗口直接拉到100万token(Pro),性能追平甚至超Gemini 1.0 Ultra,但算力需求更低。同时,新增Gemini 1.5 Pro和Gemini 1.5 Flash。
2024年6月,谷歌再次将Pro的上下文窗口,提到了惊人的200万token。
2024年9月24日,Gemini 1.5 Pro-002和Flash-002上线,更成熟、更便宜。

2024年12月11日,Gemini 2.0亮相,主打「agentic」能力,原生支持实时音视频流,新推出Multimodal Live API。
2025年2月,谷歌带来了更快Flash-Lite和Pro Experimental,并且还新增了Thinking Mode——推理过程完全可见。

2025年3月25日,Gemini 2.5以Pro Experimental首秀。
谷歌称,这是迄今最聪明的模型,内置超强推理、编程、多模态复杂任务能力无敌。
2025年6月17日,2.5 Pro与Flash全面开放,支持企业级高吞吐。
2025年10月7日,Gemini 2.5 Computer Use上线,专攻浏览器操控,在手机UI控制上也极具潜力,把整条产品线的智能体能力又拉高一个台阶。

2025年11月18日,全新亮相的Gemini 3.0 Pro和Gemini 3.0 Deep Think,直接成了2025年11月最猛的现役模型。
一上线,Gemini 3.0 Pro就在20个基准测试里狂砍19胜,把一众大模型按在地上摩擦。
尤其是在Humanity's Last Exam上,它凭借着41%的准确率把OpenAI的GPT-5 Pro(31.64%)打得满地找牙。

模型核心设计原则
正如前面提到的,Gemini全系列从零开始联合训练,原生多模态,训练数据直接覆盖文本、图像、音频、视频,能轻松处理各种模态混排输入输出。
这种天生多模态设计彻底甩开后期改造的老路子,自然涌现出了跨模态推理能力,比如边看视频边回答文本问题。
架构采用仅解码器Transformer,加入多查询注意力等优化,优先保证泛化能力而非堆砌专用编码器。
效率方面,第一代采用分层设计(Ultra极致能力、Pro平衡、Nano/Flash低延迟设备端)+ 混合专家(MoE)稀疏激活,只点亮当前输入需要的子网络,训练推理都省算力。
Gemini 1.5及2.5则进一步用稀疏MoE Transformer,把上下文窗口标配做到100万token,几小时视频也能轻松吃下。
CEO也有功劳?
除了创始人回归,谷歌本身内部的快速迭代。
很多人也忽略现在CEO 劈柴的能力。
正如很多人在3年前将谷歌的落后归咎于劈柴,却不敢承认,正是劈柴让谷歌重回正轨,并完成对OpenAI的超越。

劈柴在2015年接任CEO时,被视为硅谷最完美的职业经理人:温和、外交手腕高超、善于达成共识。
在移动互联网的红利期,这些特质确保了谷歌这艘巨轮的平稳航行。
然而,当2022年AI军备竞赛爆发,这种「和平时期」的领导风格迅速成为众矢之的。
但今天外媒BI的一篇文章,深入分析了劈柴在谷歌这波逆袭中扮演的重要角色。

像Gemini 3这样强大的产品需要多年时间、大量技术研究和底层架构才能实现。
谷歌在这方面已深耕许久,正是因为劈柴推动公司转向「AI优先」理念也已近十年。
如今这些努力终于结出硕果。


背景故事:
2017年,谷歌的汉堡emoji把奶酪放在肉饼下面,瞬间全网炸锅。这直接引发了一场又好笑又撕裂的互联网大战,大家疯狂争论「正确」的汉堡该怎么叠。
皮查伊当时发推调侃:你们要是能统一意见,我就放下手头一切马上修。结果大家真的统一了,Android没几天就更新,把奶酪挪到了肉饼上面。
现在看来,Gemini 3.0也完美遵守了这个「正确顺序」。
算力不够用
容量必须每6个月翻一番
谷歌这波成功,除了在战略和文化上,被「创始人模式」带飞了一波。
但千万不要忽略最根本的原因,谷歌的算力!

即使布林给所有谷歌工程师都打了「鸡血」,没有算力一切都白搭。
这就要归功于谷歌的TPU了。
本月早些时候的全体员工大会上,谷歌AI基础设施负责人Amin Vahdat直接说:公司必须每六个月就把服务容量翻一倍,才能满足人工智能服务的需求。

据CNBC报道,这位谷歌Cloud副总裁还放了幻灯片,上面写着未来4-5年要实现「1000倍」扩展。
支撑这1000倍增长的核心,是谷歌在2025年发布的第七代张量处理单元(TPU),代号「Ironwood」。

这款芯片不仅是硬件的迭代,更是谷歌垂直整合战略的巅峰之作。
千倍扩展的难题
目前AI最大的瓶颈就是英伟达GPU产能跟不上。
几天前英伟达财报电话会上还说AI芯片「卖到断货」,数据中心收入单季暴增100亿美元。
芯片和其他基础设施限制直接影响谷歌新AI功能上线。
11月6日的全体大会上,劈柴举了上个月刚升级的视频生成工具Veo的例子:
「Veo刚出来的时候多令人兴奋啊,如果能在Gemini App里放开给更多人用,用户量肯定爆,但我们就是给不了——算力根本不够。」
虽然哪家AI公司都缺算力,但是相比OpenAI,谷歌TPU正是他们制胜的法宝。
谷歌的「1000倍」算力扩张揭示了一个残酷的现实:AI行业正在经历剧烈的阶级分化。
地主阶级:拥有吉瓦级数据中心和自研芯片的巨头,比如谷歌。他们制定规则,出租算力,收取租金。
佃农阶级:依赖巨头基础设施构建应用的初创公司。无论他们的模型多优秀,最终的利润大头都将流向基础设施提供商。
因此,这也是为何OpenAI也想要做芯片的根本原因。

从年初的Gemini 2.5到年底的Gemini 3,如果单从版本号来看,谷歌的行动可以说缓慢至极。
关于GPT-5和Gemini 2.5谁更好用的话题也是经久不衰。
但是随着Gemini 3、Nano Banana Pro的出世,所有人都突然回过神来,谷歌还是那个谷歌,谷歌还是SOTA!
这里面既有创始人放弃私人小岛重回一线的魄力,也有谷歌TPU多年来的厚积薄发。
作为AI领域唯一一家技术全栈的科技公司,让我们期待一下2026年,Gemini 4甚至Gemini 5能否让我们看到AGI的曙光。

参考资料:
https://www.businessinsider.com/sundar-pichai-cheeseburger-google-comeback-2025-11
https://x.com/sundarpichai/status/1991613220969423272
https://x.com/Yuchenj_UW/status/1991762083739025429
https://x.com/levelsio/status/1991766655362548080
https://arstechnica.com/ai/2025/11/谷歌-tells-employees-it-must-double-capacity-every-6-months-to-meet-ai-demand/
秒追ASI
⭐点赞、转发、在看一键三连⭐
点亮星标,锁定极速推送!
声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。
游客
- 鸟过留鸣,人过留评。
- 和谐社区,和谐点评。
AI 中文社