Mythos限测首日破防,论坛玩家猜网址就摸进门了

浏览17次 点赞0次 收藏0次

【导读】Mythos Preview 官宣第一天,一群Discord论坛里的人就靠猜链接地址拿到了访问权限。

官宣当天即被偷用?

Mythos限测首日,自己的「门」就先被撬了。

4月7日,Anthropic新模型Claude Mythos Preview,采取了限量发布的方式。

据Bloomberg、TechCrunch等媒体披露,当天即有一小群未授权用户已经摸到了Mythos Preview,获得了它的访问权限。


他们是根据Anthropic过去发布其他模型时使用的URL格式,猜出了Mythos的在线地址。

Anthropic官方表示:尚未发现证据表明其自身系统受到影响。

目前,Mythos只向Apple、Microsoft、CrowdStrike等少数合作方限量开放,令Anthropic没想到的是,发布当天就被一群论坛老哥靠猜网址给破了。

对齐最好的模型


https://www-cdn.anthropic.com/3edfc1a7f947aa81841cf88305cb513f184c36ae.pdf?utm_source=chatgpt.com

Anthropic曾在安全报告中表示,Mythos Preview似乎是该公司迄今已发布模型中对齐表现最好的一个,但它仍会像Claude Opus 4.6一样,在完成任务遇到障碍时偶尔采取令人担忧的规避行为。

报告还披露,Mythos Preview训练过程中出现过一个技术错误:约8%的强化学习训练回合中,奖励代码能够看到模型的思维链内容;该错误也影响了Claude Opus 4.6和Claude Sonnet 4.6的训练。

Anthropic表示,他们尚不确定这一问题是否显著影响了Mythos Preview的推理方式,但承认它可能对不透明推理或保密能力产生一定影响。

换句话说,如果奖励信号会作用于模型的推理文本,就存在让模型调整、包装甚至「表演」其推理过程的风险。

报告还称,Anthropic在训练、监控、评估和安全流程中都发现过错误;他们认为这些错误在Mythos Preview当前能力水平下不构成重大安全风险。

官宣当天

Discord的哥们儿就摸到了?

Mythos推出限测之后,Anthropic CEO Dario Amodei也在为同期启动的「Project Glasswing」(玻璃翼项目)站台。


在该计划中,Anthropic只通过Project Glasswing计划向大约12家公开启动伙伴、以及40多家软件基础设施相关组织提供。


https://www.anthropic.com/project/glasswing

目前,官方公开点名的是12家启动合作伙伴,包括亚马逊云、苹果、博通、微软、谷歌、英伟达等,同时还向40多家软件基础设施组织开放。


然而,官宣当天,剧情急转。

据Bloomberg拿到内部文件和知情人士的证词,就在Anthropic刚官宣Mythos、宣布向少数几家公司开放内测的那天,一个私人在线论坛里的几个人已经拿到了访问权限。

Bloomberg报道出来后,Anthropic发言人对TechCrunch给了一份很克制的声明:

我们正在调查一份报告,报告称有人未授权访问了Claude Mythos Preview。截至目前,没有证据表明这类所谓的未授权活动以任何方式影响了Anthropic自身系统。

Anthropic的官方回应证实点:这是没有未授权访问。Anthropic的措辞是「在查」,没完全确认但也没否认。

此外,Anthropic核心系统有没有被攻破。公司明确否认,说没证据显示自身系统受影响。

从已公开的事实看,这更像一次访问控制的失守,而不是一次技术意义上的入侵。

参考资料:

https://www.bloomberg.com/news/articles/2026-04-21/anthropic-s-mythos-model-is-being-accessed-by-unauthorized-users?srnd=phx-ai

https://www.aisi.gov.uk/blog/our-evaluation-of-claude-mythos-previews-cyber-capabilities

编辑:元宇

声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里查看更多信息!本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它往往能得到较好的回响。
评论
游客
游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。
最新资讯