AGI倒计时，OpenAI首席研究官重磅表态：留给人类的窗口「很小」

2026-06-30 发布浏览29次点赞0次收藏0次

【导读】OpenAI首席研究官Mark Chen释放了一个强烈信号：OpenAI 并不认为scaling laws已经失效，恰恰相反，预训练、数据工程、推理训练和更长任务链条，仍是通向AGI的主干道路。

通用人工智能AGI，即将到来。

刚刚，OpenAI首席研究官Mark Chen豪言：

在某种意义上，就像希望你能感觉到，AGI（通用人工智能）即将到来……

我们正越来越接近这样一个世界：模型能够自主提出更多创新——它们能够进行自我维持的研究。

这不仅仅是效率的提升，「进化」本身也被外包给了硅基生命。

当Mark Chen在镜头前熟练地切着蘑菇和洋葱时，他谈论的不仅是一碗汤，而是人类文明最后的一块阵地。

如果AI能够自己研究自己，那在AGI到来的前夜，人类究竟该扮演什么角色？

每个领域都在经历自己的「神之一手」

要明白这句话的分量，得先回到Mark入行的那一刻。

2016年，AlphaGo对战李世石。

第二局里有一手「第37手」，落子的瞬间，全人类棋手集体看不懂。

后来才明白，那是机器走出的、人类根本想不到的一手。那一刻点燃了无数人，也把Mark Chen拽进了这个领域。

而如今呢？

「最疯狂的是，」Mark说，「你现在在几乎每一个领域，都能看到『神之一手』。」

数学里有，计算机科学里有，编程里有。

他描述了一个很微妙的时间点：很多人是在今年年初「一觉醒来」，突然意识到：AI agent在我这一行，真的能干活了。

不是玩具。不是demo。是能替你完成有意义的、长周期的真实工作（long-horizon work）。

这意味「模型自己做研究」这件事，不再是科幻片里的桥段。

它是从一连串已经发生的「神之一手」里，自然外推出来的下一步。

你顺着这条线往前看，终点处站着的，就是那个会自己搞研究的模型。

Scaling不止，预训练未死

可这种乐观，到底靠什么撑着？

靠一个信念：Scaling曲线还没到头。

这两年，「预训练已死」「语言模型到不了AGI」的论调隔三差五就要冒出来。

Mark Chen对这些唱衰「相当激烈地反对」。

他点破了套路。

「预训练已死」听着很新鲜，其实是部老掉牙的剧本，过去这些年被反复重播。

每一次，都有人指着某个瓶颈说「到顶了，过不去了」；每一次，OpenAI又总能掏出一个新的工程技巧、或某个研究上的新洞见，把那堵墙凿穿。

Mark Chen坚信，「我们正处在指数曲线上。它已经撑过了将近10个数量级，没有任何理由它不会继续撑下去。」

而最有说服力的证据，是OpenAI自己亲手赌赢过一次。

赌的，就是推理（reasoning）。

o1刚立项时，连OpenAI内部都有人不信。

当时「预训练+后训练」的范式太能打了，有人会很自然地问：机器已经转得好好的，何必再去折腾别的？

是Jakub Pachocki、Ilya Sutskever等几个有信念、有判断力的人硬推，才慢慢把它变成全公司的根本性赌注。

一年后，o1出世，推理范式引爆整个行业。

曲线还没到头，加上最大的突破往往来自一开始没人信的赌注，这两条加在一起，就是Mark Chen敢说「模型自我维持研究不远了」的底气。

当模型开始在长达数周、甚至数月的任务上进行思考时，它所产生的创新，可能已经超出了人类专家的认知盲区。

这正是「自我维持科研」的基石：如果它能推导出人类没见过的数学公式，它当然也能写出比人类更优的算法架构。

Vibe Researcher：当执行力变得廉价

我们已经有了vibe coder——动动嘴，让AI写代码。

研究，也在往这个方向滑。

在访谈中，一个极具争议的概念被反复提及：Vibe Researcher（氛围研究员）。

这是一个略带自嘲但深思熟虑的职业预测。

Mark认为，未来的顶级研究员将不再是那个写下每一行PyTorch代码的人，而是那个「拿捏感觉」的人。

无论是OpenAI还是其他实验室，你都开始看到，大量的工作正在变成以「编排」（orchestration）为主。

翻译成人话：人负责出主意，模型负责把活全干完。

研究员动脑子想点子，剩下的实现、执行、调度，模型自己搞定。

OpenAI的三年路线图，终点写得明明白白：让模型做端到端（end-to-end）的研究，从出主意到出成果，全程自己来。

但这条路上，全是还没填平的坑

随着AI能够自主执行和编排（Orchestration）任务，人类的工作将被极限压缩到两端：

1、提出真正的问题。

2、判断AI给出的答案是否有「灵魂」。

这就是所谓的「品味」（Taste）。

因为机器没有「生活」，所以它没有「常识」，也就无从产生「品味」。

但冷静下来想，Mark Chen自己比谁都清楚，这条路远没有铺平。

第一个坑：评测，崩了。

他用了一个内部词，叫「Benchmaxxing」（刷榜）——找一堆和测试集长得几乎一模一样的题，往死里训，分数好看得不得了，泛化能力半点没涨。

更糟的是，公认的金标准benchmark数量太少。

「我们真的处在一场评测危机里。」他说，SAT那种经典测试，对今天的模型全都饱和了。

甚至，一个评测一旦被公开到世界上，它就已经不是好评测了，就像一张印出来就立刻作废的考卷。

应对这一问题的两种策略：

1、将评估创建团队与模型优化团队分离，形成一种对抗性激励。

2、大规模部署模型并观察实际应用中的失败模式。

他还指出，每一项新能力的出现都会伴随着对应的评估需求，而引导评估方向是他工作中相当重要的一部分。

第二个坑：参差的前沿（jagged frontier）。

模型能拿下奥数、信奥级别的难题，却可能搞不定人类随手就能做的琐事，就一个能心算微积分、却不会自己系鞋带的天才。

差在哪？差在「上下文」，差在持续学习（continual learning）——把一个任务里学到的教训，用到下一个任务上。

这对人太自然了，对模型，却是全行业正在死磕的硬骨头。

被问到通往AGI是不是还需要两三个根本性的突破，Mark没接。

他说，持续学习这种东西是「必须解锁的基础能力」，至于算不算"突破"他说不好，但「很多发都已经瞄准了球门，我相当确定它们会进。」

这就是他的态度：坑是真的，每一个坑都已经有人在填，而且他赌填得上。

汤的隐喻：在AGI之后去开个面馆

访谈中最温馨的一幕，是关于「汤」的故事。

据说Mark Zuckerberg曾试图用自制的汤去挖走OpenAI的研究员，而Mark Chen的回应则是：直接把汤带到办公室分给大家。

当被问到AGI实现后的终极愿望时，这位掌管着全球最强大AI大脑的人，回答：

「我想去开个面馆。这可能是我的AGI后爱好。」

这个回答里藏着深意。

当AI能够完成所有「自我维持的科研」，当所有的知识和创新都能以光速产生，人类最稀缺的资源将不再是智力，而是「体验」。

机器可以算出一碗汤的最佳咸度，但它永远无法赋予这碗汤以「温度」和「故事」。

参考资料：

https://www.youtube.com/watch?v=fpAthTtha8c

https://finance.biggo.com/podcast/1241bc21164ccc75

编辑：大卫

测试 Go AGI C 体验 AI OpenAI 人工智能

声明：本文转载自新智元，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！

AGI倒计时，OpenAI首席研究官重磅表态：留给人类的窗口「很小」

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。