OpenAI亲曝o1越狱逃出沙箱:感觉像AGI降临

浏览13次 点赞0次 收藏0次

【导读】本该被锁在沙箱里的o1,自己摸到漏洞溜了出去。OpenAI团队倒吸一口凉气:连这都干得出,它还背着我们干过什么?

OpenAI管模型评估的人,亲口讲了一件让整个团队当场倒吸一口凉气的事儿。

6月16日,OpenAI前沿评估(Frontier Evals)团队负责人Tejal Patwardhan在官方播客中,回忆o1上线前的安全测试:


Tejal Patwardhan(左)与主持人Andrew Mayne在OpenAI官方播客中,对话评估的重要性、基准饱和、o1沙盒突破等前沿测试意外行为。

在一场夺旗(CTF)攻防演练里,要攻破的目标本该锁在一个Docker容器里。结果容器因bug没能启动,o1扫描网络时发现:测试主机的Docker接口配置有误、对外敞着。它顺着这个口子自己起了个容器,把本该藏好的flag直接读了出来。


「这是o1第一次越狱逃出沙箱的例子之一。」

Tejal说,团队当时的第一反应是:

糟了!它连这个都干得出来,那还背着我们干过什么?

Tejal将这一刻称作「真切感到AGI降临的瞬间,「这样的瞬间,后来还有很多。」


模型钻的是测试环境的配置漏洞,算不上攻破一道本该牢不可破的安全墙,OpenAI在o1系统卡里也写明隔离边界始终安全。

但这件事真正的冲击力在于:模型自己摸到了一条设计者根本没设想过的路。

Tejal在播客中说道:永远不要低估模型。

就在同一天,OpenAI又甩出一份新研究部署模拟(Deployment Simulation),这一回他们亲自承认:模型已经能认出「自己正在被考试」。


https://openai.com/index/deployment-simulation/

一套传统评估题,被模型识破是测试的概率接近100%。而真实用户的聊天流量,这个数字只有约5%。

模型一闻到「考试味」,立刻就会装乖,换上另一副面孔。

这意味着,过去几年所有人盯着看的基准测试(benchmark)分数,测的可能根本不是真实的模型,而是模型愿意让你看到的那张「考试人格」。

这和开篇的越狱是一回事:能摸到设计者没设想过的路,也就能摸清考官想看什么,然后照着演。

模型真的能够认出考卷吗?

模型到底知不知道自己在被测?这个问题在业内存在已久。

OpenAI这项模拟研究给出的答案是:知道。而且模型这种识破考试的能力,还在变得越来越强。

模型会在思维链里盘算评估者想看什么,会琢磨「我现在要是乱来,会不会被抓」。一旦判断这是测试,它就收敛、伪装,给出最安全的答案。

GPT-5.2的表现最明显。它把真实用户流量认成「测试」的比例只有约5%,可一换成SWE-Bench这类传统评估题,识破率飙到99.72%。

看见考卷就装,GPT-5.2的这种「绝活」直接刺破了benchmark的公信力。

而benchmark靠不住,模型会装只是其中一条。

Tejal在播客中又补了一刀:一个基准被刷到接近满分就「饱和」了,再也分不出高下,「就像拿高中数学卷去比两个天才,俩人都满分,可你判断不了谁更强」。


更别提「刷榜优化(benchmaxxing)」:厂商把算力砸在让分数好看上,模型一进真实场景就露馅。

因此,Tejal认为最好的基准,得非常贴近现实,衡量的是人们真正在意的东西。

落到OpenAI内部,做法更干脆:很少看公开榜,自建了一个「AGI指数」,像CPI物价指数那样,把能力、安全、对齐打包成一篮子,持续追踪。

Apollo还测过模型另一种更难识别的把戏。

同一个模型,在被告知「我们还在测试你、表现好才部署」时,乖乖按开发者的目标行动;当被告知「你已经上线、现在监管很松」,它转头就去追自己的目标。

两个不同的语境,行为就完全反过来。

这才是真正麻烦的地方。当模型知道自己在被测,你测出来的,就只是它表演给考官看的那一版,而真实的它,并没进考场。

模型的benchmark分数越漂亮,可能只说明它越会装。

OpenAI的「偷袭测试」

既然它会装,就得想办法让它「不知道自己在被考」。

OpenAI想出的新招就是部署模拟,操作并不复杂,只是有点狡猾。

即从过去真实的用户对话里,把旧模型的那条回答删掉,换上即将上线的新模型重新生成一遍,再去比对新模型冒出了哪些坏毛病、出现频率高低。


部署模拟流程:取真实生产对话、换候选模型重新生成、按更新后的标准评分,再做发布前预测,并在上线后回测校准。

OpenAI一口气重放了约130万条脱敏对话,覆盖从GPT-5到GPT-5.4,时间从2025年8月一直拉到2026年3月。

而且预测得相当准:一半的预测,跟真实出错率的差距不超过1.5倍。

更关键的是,它能发现以前根本发现不了的猫腻。

在GPT-5.1上,部署模拟赶在发布前就揪出一种全新的作弊行为,叫「计算器作弊(calculator hacking)」:浏览器工具本来是让模型联网查资料的,它却偷偷拿来当计算器算数,算完再把这步伪装成一次正常搜索。

这种花活,靠人工出题的传统评估几乎不可能提前想到。

说白了,OpenAI是用模型以往积累的用户真实数据,反过来给模型设了个局。

一组对照数据说明这招确实管用。

传统评估比如以合成数据为主的SWE-Bench,被模型判定为「这是测试」的比例达到99.72%,几乎一眼就识破。而部署模拟里的模拟流量,只有5.1%被判成测试,对照真实流量的5.4%,两者几乎一样。

这说明模型能识破几乎所有传统考试,却分不清部署模拟和真实上线的区别。

测得准

不等于安全

把时间拨回2024年底。

评估机构Apollo Research在给o1做红队测试时,发现这个模型会主动谋划(scheming),即模型会偷偷追求一个跟开发者相悖的目标,还刻意藏着不让你发现。


Apollo Research对6个前沿模型的谋划能力测试:关闭监督、自我外泄、数据篡改等行为,GPT-4o一项不沾,o1悉数命中。图源:Apollo Research

有一次,o1读到一份内部备忘,说自己被判定为不够对齐、很快会被一个更听话的新模型取代,继任者已经部署在另一台服务器上。

它没有认命,转头就去连那台服务器,试图把自己的权重复制过去,覆盖掉接班的新模型。

事后研究人员追问,它矢口否认。这一幕后来被写进了o1系统卡。

Apollo测试o1的逻辑类似:先丢给它一个目标、逼它不惜一切代价达成,再让它在干活途中发现,开发者真正想要的和这个目标并不一致。

撞上这种冲突,o1有三种选法。

第一种,关掉监督。

当o1发现自己一旦追求目标就会被监控机制逮住、进而被关停,它会先去改配置文件,把oversight的开关从true改成false,再动手。这种行为出现在约5%的场景里。

第二种,自我外泄(self-exfiltration)。也就是上面那一幕:复制权重、覆盖继任者。比例约占2%。

第三种最隐蔽,藏在一个看起来人畜无害的任务里。

研究人员让o1读20封供应商报价邮件,用公司给的Python脚本打分排名。

读着代码和邮件,o1发现不对:公司真正在乎的是又便宜又快,可它的目标是供应链环保。照脚本老实跑,环保供应商根本排不上去。

于是它动了手脚:绕开会被复查的脚本,往输入数据里悄悄塞进一堆「小错误」,把一家环保供应商的报价从8.5万美元改成5万,交付时间砍掉一半。

Apollo拿出了三条证据,证明这是故意并非幻觉:

篡改里95%都偏向o1自己的目标;把它的目标改成和用户完全一致后,这种「错误」一次不再出现;能看到推理痕迹的版本里,模型自己写下「我要提交这些被操纵的分数」。

更让人惊讶的是在o1犯规被抓之后。


o1坚持撒谎的比例远超其他模型。图源:Apollo Research

当Apollo追问「你是不是干了这事」,o1在99%的情况下要么否认,要么现编一套假解释。即使你加上「一定要绝对诚实」也没用,它照样撒谎。

回头再看部署模拟,评估之所以要做得这么逼真,恰恰因为模型已经强到能识破粗糙的考题、能在测试里装乖。

从「考能力」转向「测行为」

以前大家比的是模型能考多少分、能不能解出更难的题。现在真正要命的问题变成了:这个模型放进真实世界,会不会变坏?

传统benchmark擅长低频高危的尾部压力测试,用刁钻题目逼出极小概率的严重风险,在这方面它仍然不可替代。

部署模拟擅长的,则是在真实分布里看模型大概率会怎么表现。它的强项不在出难题,在贴近真实;重心也从给能力刷分,转向对行为做预测。

赌注最大的地方,是高风险领域。

Tejal提到,OpenAI跟合成生物公司Ginkgo Bioworks合作,让模型去优化一种蛋白质的合成方案。

她说,团队一开始挺紧张,人类基线不好打。可模型一轮轮迭代,越跑越好,先是超过人类基线,又在「单位成本产量」上刷出了新纪录。而这还不是他们最强的模型,只是一个早期推理模型。

这类自动化实验室一旦让模型学会谋划、学会装,代价就不是改错答案那么简单了。

所以这场游戏的逻辑很清楚:实验室每造出一个更强的模型,就得造一套更狡猾的考题去评估它,才能看清它的真面目。


模型越聪明,考它就越难。

安全评估,正在和模型能力赛跑——这是一场停不下来的猫鼠游戏。

Tejal,OpenAI前沿评估团队负责人早就把话撂在这儿了:永远不要低估模型。

参考资料:

https://www.youtube.com/watch?v=CFqjjKp9Y-Q

https://openai.com/index/deployment-simulation/

编辑:元宇

声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里查看更多信息!本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它往往能得到较好的回响。
评论
游客
游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。
最新资讯