OpenAI自曝:AI推理砸钱越多,碾压人类越狠!

2025-05-18 发布 · 浏览22次 · 点赞0次 · 收藏0次

【导读】你以为GPT-4已经够强了?那只是AI的「预热阶段」。真正的革命,才刚刚开始——推理模型的时代,来了。这场范式革命,正深刻影响企业命运和个人前途。这不是一场模型参数的升级,而是一次认知逻辑的彻底重写。

AI推理模型改变了一切。

而OpenAI早有讨论。

最近,他们放出了过去关于推理模型重写未来的讨论。


OpenAI研究员Noam Brown强调了预训练和推理两种关键的AI范式,以及模型随着处理更多数据和计算能力的提升而不断改进的过程。

这些技术进步不仅加速了模型性能的提升,还在重塑人工智能基础设施的战略和经济动态。

与此同时,由OpenAI首席经济学家Ronnie Chatterji等讨论探讨了人工智能与国家安全和经济政策的交叉领域。

这些讨论共同强调了人工智能的双重轨迹:一方面加速技术进步,另一方面加深其在全球政策、基础设施和制度治理中的角色。

AI时代,前所未有

第一个出场的是Noam Brown。

他是OpenAI在多智能体推理领域的研究人员,以共同开发出首个超越人类水平的无限注德州扑克AI,以及首个达到人类水平的策略游戏《外交官》(Diplomacy)AI而闻名。


多年来AI已经取得了很多很酷、令人印象深刻的成果。

比如说,在1997年,IBM的「深蓝」战胜了国际象棋冠军Garry Kasparov。


在2011年在《危险边缘》节目中,IBM的「沃森」夺冠。


在某些特定领域,AI也早就有了不少令人惊艳的成果。

比如,很早以前,美国邮政就开始用光学字符识别技术来分拣邮件;Facebook的人脸识别功能,也已经存在很多年了。


那么问题来了,像ChatGPT这样的AI,以及现在所处的AI时代,到底特别在哪里?

答案其实就在于「通用性」

最重要的区别在于:以前的AI系统都非常专注于单一任务。

比如在1997年,IBM的「深蓝」战胜Garry Kasparov,但背后可是花了两年甚至更久的时间,专门训练AI只为了下好国际象棋。


深蓝机组之一

同样的情况也发生在《危险边缘》节目上,他们花了好几年时间,只为了让AI在节目中表现出色——

但它只会做这一件事,其他什么都不会。

而现在ChatGPT和如今的AI特别之处就在于它们的「通用性」——

也就是说,它们可以完成很多完全不同的任务,哪怕这些任务并不是特意训练过的。

这就是我们所处AI新时代真正不同的地方。


Noam Brown接下来强调了两种关键的AI范式:预训练范式推理范式


预训练范式

「预训练范式」出现得更早,也是最初驱动ChatGPT的核心方式。

最早,这可以追溯到2019年的GPT-2。

它的基本思路其实很简单:

收集大量文本,包含了互联网的大部分内容;

然后训练AI模型来预测一句话中下一个可能出现的词。

听起来也许很基础,但这种方法却能带来令人惊讶的智能水平。

为什么会这样呢?

Brown认为原因在于,当把整个互联网的大量文本输入给模型,里面自然就包含多种多样的内容。

那么当模型要预测某个语句中的下一个词时,它必须理解很多上下文信息,才能做出最准确的判断。


Ilya Sutskever有个特别形象的说法:

想象一下网络上有一本推理小说,模型已经读完了整本小说的所有文字,来到结尾的部分。

故事最后,侦探说:「我知道凶手是谁了。凶手就是____。」

这个时候,如果模型要预测这句话中最后那个空白部分,它就必须真正「理解」整部小说的情节。

这就是为什么仅仅通过「预测下一个词」的训练方式,模型就能学到这么多看似复杂的知识

这就是预训练范式的魅力所在。

而且另一个很关键的点在于,它具备很强的通用性——

因为它是基于整个互联网的海量文本进行训练的,所以自然能学到各种各样的知识和语言表达方式。

OpenAI原始信仰:Scaling Law

更令人印象深刻的是,大家已经持续观察到一个很稳定的趋势:当在预训练范式中投入更多的数据、更多的计算资源、以及更大的模型规模,模型在「预测下一个词」这项任务上的表现就会变得越来越好

AI领域有2篇非常著名的论文。



这些研究表明:当扩大模型规模、延长训练时间、增加训练数据量之后,模型在完成预测任务时会提升


这种稳定可控的增长趋势,正是促使OpenAI决定大规模投入资源、继续扩展模型规模的核心依据。

当然,光是让模型更会「预测下一个词」,并不一定就意味着它在用户真正关心的任务上,比如编程,真的变得更强了。

但在实践中发现:当模型在预测任务上表现越来越好时,它在各种「下游任务」上的表现也会随之变好,比如写代码、做数学题、回答问题等等。


这其实就是GPT范式不断演进的基础,从GPT-1到GPT-2,一直到现在,模型能力的持续提升。

但正是这种「简单粗暴」的扩大规模方式,带来了性能的巨大飞跃——

这就是令人惊喜的地方。

当GPT-3发布、而且提升的趋势依然继续延伸时,AI领域里很多人都开始认为:

好吧,这就是终点了。我们已经找到了通往超级智能的道路。我

们只需要不断扩大模型规模,就能获得越来越强的智能。

从理论上讲,这是对的。

但关键问题在于——这条路的成本非常高昂,而且会迅速飙升。

比如GPT-2的训练成本,大概在5,000到50,000美元之间,取决于具体怎么估算。而根据一些公开资料,GPT-4的训练成本可能高达5,000万美元左右。

如果还要继续按照这个方向再扩大几个数量级,那花费将是天文数字。

而且尽管模型确实变得更聪明了,但它离理想中的「通用智能」仍然还有一段路要走。


这也呼应了Ronnie曾经说过的一点:这个领域发展得非常快。

过去一年里听到的一些关于大语言模型(LLM)和「扩展范式」的批评,可能在当时确实是有道理的。

但到了2023年9月,情况发生了变化——

因为人类已经进入了「推理模型」时代。

这就引出了「扩展能力」的第二种范式:推理范式(reasoning paradigm)。

推理范式

预训练的成本已经快速增长,动辄就是上千万美元,有些训练甚至花费了上亿美元。

虽然理论上还可以继续往上堆钱,比如投入十亿、甚至数十亿美元,但到某个点之后,经济回报就不再划算了。

不过,有一点非常关键:虽然训练的成本越来越高,但实际向模型提问,让它给你一个答案的花费的「推理成本」,其实仍然很低。

这就为「扩展」开辟了一个新的维度。

设想一下,如果大家不再单纯依赖扩大训练量,而是提升模型在「每次回答前进行更深层思考」的能力呢?

这正是o系列模型(比如o1)背后的核心思想。

举个例子:你向GPT-4提一个问题,它可能只花你一分钱左右。

但如果你问o1同样的问题,它会「认真思考」很久,也许会花上一分钟才回答,而成本可能是大约一美元——

具体来说是数量级上的估算,有上下浮动。

但这个一美元的回答,往往会比那一分钱的回答好得多。

这就是推理范式带来的全新可能。


右图展示了推理范式的实际效果。

数学竞赛:AIME

美国数学竞赛(AIME),是美国数学奥林匹克国家队的选拔赛之一。


图中的纵轴表示准确率,也就是模型在「一次答对」的比例(叫做「pass@1」);横轴表示模型在回答问题时所消耗的推理计算量(也就是「思考」时间和资源的多少)。

在图的最左边,模型几乎是「秒回」——也就是基本没怎么思考;而在最右边,模型会花上几分钟去思考后再作答。

可以明显看出:随着模型「思考得越久」,答题准确率就越高,表现也就越好。

这说明推理时间确实能带来质量的提升。

这提供了全新的「扩展维度」——

大家不必再单靠堆大模型、加大训练成本来提升性能,而是可以通过增加推理时间、花更多资源在「每次思考」上,来获得更强的结果

而且最美妙的是,这个维度几乎还没有被充分利用。

就像之前说的,GPT-4一次问答成本大约只有一分钱。

但实际上,对于很多人真正关心的问题,他们愿意支付远不止一分钱。

我们现在可以开始探索新的定价——

每次问答成本可以是几美元、几十美元,甚至更多,这样就可以支撑模型进行更深入、更高质量的推理。

目前来看,在竞赛数学方面,这是AIME 2024的测试数据。

GPT-4o得分大约是13%,o1 preview模型得分大约是57%,o1得分达到83%。

再来看博士级别的科学问题,也就是上图最右的GPQA基准测试。

这是一个多项选择题测试,设计目标是需要具备领域内博士水平才能作答。

人类平均正确率是70%。GPT-4o得分是56%,这个成绩已经很出色了。

而o1得分则是78%。

而且,自自从发布以来,这些成绩还在持续提升,而且进步非常迅速:

去年9月,发布o1 preview;

同年12月,发布了正式版的o1,并在同月宣布了还未发布的o3。

这是AI的重点所在。

AI编程:超越人类

关于编程竞赛的表现,以专业的编程竞赛平台Codeforces为例。


GPT-4o的得分只排在第11百分位,也就是说,它的表现只比约11%的顶尖人类程序员好。

o1模型的Elo分数是1891,相当于人类选手的第89百分位。

而o3模型的Elo分数超过了2700,已经进入了人类专业编程选手的前0.1%,相当于全球第175名的水平。

而且,OpenAI有个内部模型,它的水平已排进了全球前50名。

Brown预测:

到今年年底,OpenAI的模型在编程竞赛中将会达到超越人类的水平。

而「达到超人类水平」这件事本身并不新鲜,AI过去也做到过很多次。

但o3模型特别的地方在于:它不仅仅在编程竞赛中表现优秀,它在很多任务上都表现得非常出色。

而在编码任务基准测试Swebench Verifie,o3得分达到了72%。

这意味着这个模型即使不是专门为了编程训练的,也已经具备了强大的实际编码能力,对现实世界的经济活动会带来很大影响

AI进步太快了:六个月前还存在的问题,但现在已经不成立了。

AI与经济

Aaron Ronnie Chatterji是OpenAI的多一位首席经济学家。

目前,他是杜克大学的Mark Burgess & Lisa Benson-Burgess杰出教授,专注于学术、政策与商业交汇的领域。

他曾在拜登政*任职,担任白宫CHIPS协调员以及国家经济委员会代理副主任。在此之前,他曾任美国商务部首席经济学家,以及白宫经济顾问委员会的高级经济学家。


他认为就像当前世界在多个维度上已经出现的分裂趋势一样,AI也不例外。

如果轻易接受这样分裂的世界,可能会带来两个风险:

一是OpenAI可能会在一些关键市场失去信誉,而这些市场正是它努力争取信任的地方;

二是OpenAI很可能会失去一些关键的人才。

因此,在坚持价值观的同时,如何在其中找到平衡,是这次讨论中的一个重要主题。

OpenAI非常国际化,因此,当不同地区开始采用不同类型的技术、而超级大国之间的技术竞争加剧时,这让很多人感到不安。

AI的经济影响与意义


从总体上来看,OpenAI内部讨论的结论是:AI正在从根本上重塑企业格局


但这种转型并不只是关于取代人类或企业本身的问题,而更像是一场「技术化竞赛」。

这种转型发生在各类企业中——包括《财富》500强、大中小型企业等各个层级。

他们的讨论主要从三个维度展开:

第一,AI取代人类

这里的关键问题其实不是{AI会不会取代人类},而是「AI将如何增强或取代人类的角色」。这才是大家真正需要思考的方向。

第二,AI取代公司。

与其说是AI创业公司会取代传统企业,不如说是一场谁更能有效采纳和整合AI的竞赛

比如在银行业,大家就可以看到这种分化趋势:一些银行拥有技术人才,正在积极投资AI;而另一些仍依赖传统主机系统(mainframes),开始借助AI推动现代化转型。

企业必须作出选择:要么走在AI转型的前列,要么就被甩在后面。

第三,从个人或企业的视角出发来看如何落地AI

谁能真正理解并应用最新的AI技术,谁就能取得成功。AI的影响范围涵盖技术支持、运营效率、战略决策等多个方面。

所以,关键的问题是:企业的AI旅程是什么?

你现在处在什么阶段?

两年后你希望达到什么样的水平?

这正是许多企业在思考的问题。

这趟旅程并不是简单地购买AI工具、获取许可证那么简单,而是要把AI嵌入整个价值链中,实现深度融合。

参考资料:

https://forum.openai.com/public/videos/ai-economics-in-the-forum-2025

OpenAI自曝:AI推理砸钱越多,碾压人类越狠! - AI 资讯 - 资讯 - AI 中文社区

声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它能得到比较好的回应。
评论

游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。