AI 中文社/资讯/详情

OpenAI自曝：AI推理砸钱越多，碾压人类越狠！

2025-05-18 发布 · 浏览130次 · 点赞0次 · 收藏0次

【导读】你以为GPT-4已经够强了？那只是AI的「预热阶段」。真正的革命，才刚刚开始——推理模型的时代，来了。这场范式革命，正深刻影响企业命运和个人前途。这不是一场模型参数的升级，而是一次认知逻辑的彻底重写。

AI推理模型改变了一切。

而OpenAI早有讨论。

最近，他们放出了过去关于推理模型重写未来的讨论。

OpenAI研究员Noam Brown强调了预训练和推理两种关键的AI范式，以及模型随着处理更多数据和计算能力的提升而不断改进的过程。

这些技术进步不仅加速了模型性能的提升，还在重塑人工智能基础设施的战略和经济动态。

与此同时，由OpenAI首席经济学家Ronnie Chatterji等讨论探讨了人工智能与国家安全和经济政策的交叉领域。

这些讨论共同强调了人工智能的双重轨迹：一方面加速技术进步，另一方面加深其在全球政策、基础设施和制度治理中的角色。

AI时代，前所未有

第一个出场的是Noam Brown。

他是OpenAI在多智能体推理领域的研究人员，以共同开发出首个超越人类水平的无限注德州扑克AI，以及首个达到人类水平的策略游戏《外交官》（Diplomacy）AI而闻名。

多年来AI已经取得了很多很酷、令人印象深刻的成果。

比如说，在1997年，IBM的「深蓝」战胜了国际象棋冠军Garry Kasparov。

在2011年在《危险边缘》节目中，IBM的「沃森」夺冠。

在某些特定领域，AI也早就有了不少令人惊艳的成果。

比如，很早以前，美国邮政就开始用光学字符识别技术来分拣邮件；Facebook的人脸识别功能，也已经存在很多年了。

那么问题来了，像ChatGPT这样的AI，以及现在所处的AI时代，到底特别在哪里？

答案其实就在于「通用性」。

最重要的区别在于：以前的AI系统都非常专注于单一任务。

比如在1997年，IBM的「深蓝」战胜Garry Kasparov，但背后可是花了两年甚至更久的时间，专门训练AI只为了下好国际象棋。

深蓝机组之一

同样的情况也发生在《危险边缘》节目上，他们花了好几年时间，只为了让AI在节目中表现出色——

但它只会做这一件事，其他什么都不会。

而现在ChatGPT和如今的AI特别之处就在于它们的「通用性」——

也就是说，它们可以完成很多完全不同的任务，哪怕这些任务并不是特意训练过的。

这就是我们所处AI新时代真正不同的地方。

Noam Brown接下来强调了两种关键的AI范式：预训练范式和推理范式。

预训练范式

「预训练范式」出现得更早，也是最初驱动ChatGPT的核心方式。

最早，这可以追溯到2019年的GPT-2。

它的基本思路其实很简单：

收集大量文本，包含了互联网的大部分内容；

然后训练AI模型来预测一句话中下一个可能出现的词。

听起来也许很基础，但这种方法却能带来令人惊讶的智能水平。

为什么会这样呢？

Brown认为原因在于，当把整个互联网的大量文本输入给模型，里面自然就包含多种多样的内容。

那么当模型要预测某个语句中的下一个词时，它必须理解很多上下文信息，才能做出最准确的判断。

Ilya Sutskever有个特别形象的说法：

想象一下网络上有一本推理小说，模型已经读完了整本小说的所有文字，来到结尾的部分。

故事最后，侦探说：「我知道凶手是谁了。凶手就是____。」

这个时候，如果模型要预测这句话中最后那个空白部分，它就必须真正「理解」整部小说的情节。

这就是为什么仅仅通过「预测下一个词」的训练方式，模型就能学到这么多看似复杂的知识。

这就是预训练范式的魅力所在。

而且另一个很关键的点在于，它具备很强的通用性——

因为它是基于整个互联网的海量文本进行训练的，所以自然能学到各种各样的知识和语言表达方式。

OpenAI原始信仰：Scaling Law

更令人印象深刻的是，大家已经持续观察到一个很稳定的趋势：当在预训练范式中投入更多的数据、更多的计算资源、以及更大的模型规模，模型在「预测下一个词」这项任务上的表现就会变得越来越好。

AI领域有2篇非常著名的论文。

这些研究表明：当扩大模型规模、延长训练时间、增加训练数据量之后，模型在完成预测任务时会提升。

这种稳定可控的增长趋势，正是促使OpenAI决定大规模投入资源、继续扩展模型规模的核心依据。

当然，光是让模型更会「预测下一个词」，并不一定就意味着它在用户真正关心的任务上，比如编程，真的变得更强了。

但在实践中发现：当模型在预测任务上表现越来越好时，它在各种「下游任务」上的表现也会随之变好，比如写代码、做数学题、回答问题等等。

这其实就是GPT范式不断演进的基础，从GPT-1到GPT-2，一直到现在，模型能力的持续提升。

但正是这种「简单粗暴」的扩大规模方式，带来了性能的巨大飞跃——

这就是令人惊喜的地方。

当GPT-3发布、而且提升的趋势依然继续延伸时，AI领域里很多人都开始认为：

好吧，这就是终点了。我们已经找到了通往超级智能的道路。我

们只需要不断扩大模型规模，就能获得越来越强的智能。

从理论上讲，这是对的。

但关键问题在于——这条路的成本非常高昂，而且会迅速飙升。

比如GPT-2的训练成本，大概在5,000到50,000美元之间，取决于具体怎么估算。而根据一些公开资料，GPT-4的训练成本可能高达5,000万美元左右。

如果还要继续按照这个方向再扩大几个数量级，那花费将是天文数字。

而且尽管模型确实变得更聪明了，但它离理想中的「通用智能」仍然还有一段路要走。

这也呼应了Ronnie曾经说过的一点：这个领域发展得非常快。

过去一年里听到的一些关于大语言模型（LLM）和「扩展范式」的批评，可能在当时确实是有道理的。

但到了2023年9月，情况发生了变化——

因为人类已经进入了「推理模型」时代。

这就引出了「扩展能力」的第二种范式：推理范式（reasoning paradigm）。

推理范式

预训练的成本已经快速增长，动辄就是上千万美元，有些训练甚至花费了上亿美元。

虽然理论上还可以继续往上堆钱，比如投入十亿、甚至数十亿美元，但到某个点之后，经济回报就不再划算了。

不过，有一点非常关键：虽然训练的成本越来越高，但实际向模型提问,让它给你一个答案的花费的「推理成本」，其实仍然很低。

这就为「扩展」开辟了一个新的维度。

设想一下，如果大家不再单纯依赖扩大训练量，而是提升模型在「每次回答前进行更深层思考」的能力呢？

这正是o系列模型（比如o1）背后的核心思想。

举个例子：你向GPT-4提一个问题，它可能只花你一分钱左右。

但如果你问o1同样的问题，它会「认真思考」很久，也许会花上一分钟才回答，而成本可能是大约一美元——

具体来说是数量级上的估算，有上下浮动。

但这个一美元的回答，往往会比那一分钱的回答好得多。

这就是推理范式带来的全新可能。

右图展示了推理范式的实际效果。

数学竞赛：AIME

美国数学竞赛（AIME），是美国数学奥林匹克国家队的选拔赛之一。

图中的纵轴表示准确率，也就是模型在「一次答对」的比例（叫做「pass@1」）；横轴表示模型在回答问题时所消耗的推理计算量（也就是「思考」时间和资源的多少）。

在图的最左边，模型几乎是「秒回」——也就是基本没怎么思考；而在最右边，模型会花上几分钟去思考后再作答。

可以明显看出：随着模型「思考得越久」，答题准确率就越高，表现也就越好。

这说明推理时间确实能带来质量的提升。

这提供了全新的「扩展维度」——

大家不必再单靠堆大模型、加大训练成本来提升性能，而是可以通过增加推理时间、花更多资源在「每次思考」上，来获得更强的结果。

而且最美妙的是，这个维度几乎还没有被充分利用。

就像之前说的，GPT-4一次问答成本大约只有一分钱。

但实际上，对于很多人真正关心的问题，他们愿意支付远不止一分钱。

我们现在可以开始探索新的定价——

每次问答成本可以是几美元、几十美元，甚至更多，这样就可以支撑模型进行更深入、更高质量的推理。

目前来看，在竞赛数学方面，这是AIME 2024的测试数据。

GPT-4o得分大约是13%，o1 preview模型得分大约是57%，o1得分达到83%。

再来看博士级别的科学问题，也就是上图最右的GPQA基准测试。

这是一个多项选择题测试，设计目标是需要具备领域内博士水平才能作答。

人类平均正确率是70%。GPT-4o得分是56%，这个成绩已经很出色了。

而o1得分则是78%。

而且，自自从发布以来，这些成绩还在持续提升，而且进步非常迅速：

去年9月，发布o1 preview；

同年12月，发布了正式版的o1，并在同月宣布了还未发布的o3。

这是AI的重点所在。

AI编程：超越人类

关于编程竞赛的表现，以专业的编程竞赛平台Codeforces为例。

GPT-4o的得分只排在第11百分位，也就是说，它的表现只比约11%的顶尖人类程序员好。

o1模型的Elo分数是1891，相当于人类选手的第89百分位。

而o3模型的Elo分数超过了2700，已经进入了人类专业编程选手的前0.1%，相当于全球第175名的水平。

而且，OpenAI有个内部模型，它的水平已排进了全球前50名。

Brown预测：

到今年年底，OpenAI的模型在编程竞赛中将会达到超越人类的水平。

而「达到超人类水平」这件事本身并不新鲜，AI过去也做到过很多次。

但o3模型特别的地方在于：它不仅仅在编程竞赛中表现优秀，它在很多任务上都表现得非常出色。

而在编码任务基准测试Swebench Verifie，o3得分达到了72%。

这意味着这个模型即使不是专门为了编程训练的，也已经具备了强大的实际编码能力，对现实世界的经济活动会带来很大影响。

AI进步太快了：六个月前还存在的问题，但现在已经不成立了。

AI与经济

Aaron Ronnie Chatterji是OpenAI的多一位首席经济学家。

目前，他是杜克大学的Mark Burgess & Lisa Benson-Burgess杰出教授，专注于学术、政策与商业交汇的领域。

他曾在拜登政*任职，担任白宫CHIPS协调员以及国家经济委员会代理副主任。在此之前，他曾任美国商务部首席经济学家，以及白宫经济顾问委员会的高级经济学家。

他认为就像当前世界在多个维度上已经出现的分裂趋势一样，AI也不例外。

如果轻易接受这样分裂的世界，可能会带来两个风险：

一是OpenAI可能会在一些关键市场失去信誉，而这些市场正是它努力争取信任的地方；

二是OpenAI很可能会失去一些关键的人才。

因此，在坚持价值观的同时，如何在其中找到平衡，是这次讨论中的一个重要主题。

OpenAI非常国际化，因此，当不同地区开始采用不同类型的技术、而超级大国之间的技术竞争加剧时，这让很多人感到不安。

AI的经济影响与意义

从总体上来看，OpenAI内部讨论的结论是：AI正在从根本上重塑企业格局

但这种转型并不只是关于取代人类或企业本身的问题，而更像是一场「技术化竞赛」。

这种转型发生在各类企业中——包括《财富》500强、大中小型企业等各个层级。

他们的讨论主要从三个维度展开：

第一，AI取代人类。

这里的关键问题其实不是{AI会不会取代人类}，而是「AI将如何增强或取代人类的角色」。这才是大家真正需要思考的方向。

第二，AI取代公司。

与其说是AI创业公司会取代传统企业，不如说是一场谁更能有效采纳和整合AI的竞赛。

比如在银行业，大家就可以看到这种分化趋势：一些银行拥有技术人才，正在积极投资AI；而另一些仍依赖传统主机系统（mainframes），开始借助AI推动现代化转型。

企业必须作出选择：要么走在AI转型的前列，要么就被甩在后面。

第三，从个人或企业的视角出发来看如何落地AI。

谁能真正理解并应用最新的AI技术，谁就能取得成功。AI的影响范围涵盖技术支持、运营效率、战略决策等多个方面。

所以，关键的问题是：企业的AI旅程是什么？

你现在处在什么阶段？

两年后你希望达到什么样的水平？

这正是许多企业在思考的问题。

这趟旅程并不是简单地购买AI工具、获取许可证那么简单，而是要把AI嵌入整个价值链中，实现深度融合。

参考资料：

https://forum.openai.com/public/videos/ai-economics-in-the-forum-2025

测试程序员 AI技术代理理想性能 AI ChatGPT GPT 大模型 OpenAI 4o 4 人工智能 AI工具

声明：本文转载自新智元，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里。

浏览(130) 点赞(0) 收藏(0)

0条评论

珍惜第一个评论，它能得到比较好的回应。

游客

登录后再评论

鸟过留鸣，人过留评。
和谐社区，和谐点评。

OpenAI自曝：AI推理砸钱越多，碾压人类越狠！

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

OpenAI自曝：AI推理砸钱越多，碾压人类越狠！

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。