Anthropic首次切开Claude大脑,「AI黑箱」彻底破解?心算诡异思考过程曝光
【导读】AI的运作始终笼罩着一层神秘的「黑箱」迷雾。这种不透明让AI有时会「胡说八道」,甚至故意撒谎。Anthropic刚刚推出了一项突破性研究,用类似大脑扫描的技术,深入Claude 3.5 Haiku的「脑子」,揭开了它运行的一些秘密。
AI的性能愈发强大,一个新模型可能前一天还是SOTA(最佳模型),第二天就被拍了下去。
不过,这些强大的AI上空总有一团迷雾笼罩。
那就是:他们到底是怎么找到答案的?
其整个运作机理就像个「黑箱子」。
我们知道模型输入的是什么提示词,也能看到它们输出的结果,但中间的过程,就连开发这些AI的人也不知道。
简直是个谜。
这种不透明带来了各种麻烦。
比如,我们很难预测模型什么时候会「胡说八道」,也就是出现所谓的「幻觉」。
更可怕的是,有些情况下,模型会撒谎,甚至是故意骗人!
不过,就在刚刚,Anthropic提出了一条解决这些问题的新方法。
博客地址:https://www.anthropic.com/research/tracing-thoughts-language-model
简单说,Anthropic的研究员造了个类似于fMRI的东西——就像神经科学家扫描人类的大脑,试图找出哪些区域在认知过程中发挥了最大作用一样。
他们把这个类似fMRI的工具用在了Anthropic的Claude 3.5 Haiku模型上,解开了Claude(可能还有大多数LLM)如何工作的几个关键谜团。
他们的技术博客里有个超级有意思的例子。
Claude居然能「心算」36+59。
纯语言是怎么做到解决数学符号问题的?
Anthropic研究人员发现,Claude用的是多条并行计算路径。
如下图所示,一条计算路径粗略估算答案:图中的淡蓝色上部路径,算出36+59的范围是88-97。
另一条计算路径精确算出末位数:图中紫色下部路径,然后通过尾数5,两条路径互动得出最终结果。
加法虽简单,但了解这种粗略与精确结合的策略,或许能揭示Claude处理复杂问题的思路。
有趣的是,Claude似乎不知道自己训练中学到的复杂「心算」策略。
问它是怎么算出36+59=95的,它会描述标准的进位算法。
这和研究人员深入模型观察到的计算路径完全相反。
这可能是因为它想要模仿人类的数学解释,但实际心算时,作为一个「语言模型」只能靠自己慢慢摸索。
反而促使它发展出独特的计算策略。
研究发现,虽然像Claude这样的模型最初只是被训练用来预测下一个词,但在这个过程中,Claude学会了做一些长远的规划。
比如,让它写首诗时,Claude会先挑出跟主题相关又能押韵的词,然后倒推回去,构造出以这些词结尾的句子。
看看这首英文小诗:
He saw a carrot and had tograb it, His hunger was like a starvingrabbit
第二行要同时满足两个条件:押韵(grab it到rabbit),还要讲得通(他为什么看到并且想抓胡萝卜)。
研究人员最初猜测Claude是逐词写到第二句话的最后再挑个押韵词。
结果却是,Claude会提前规划!
在写第二行前,它就「想」好了和grab、carrot的相关词rabbit,然后带着计划写出第二行,并以目标词rabbit结尾。
为了验证上述是否是偶然情况,研究人员模仿神经科学家研究大脑的方法,通过改变Claude内部状态的「rabbit」概念来验证。
如果去掉「rabbit」,它会写出以「habbit」结尾的新行。
这展示了它的规划能力和适应性——目标变了,它能调整策略。
他们还发现,Claude是多语言训练的,能流利地说几十种语言,从英语、法语到中文、甚至Tagalog语。
这种多语言能力是怎么实现的?
是Claude内部分别有独立的「法语Claude」和「中文Claude」两个「本地学家」分开运行并独立回应用户提问吗?
还是有一些懂得多门外语的「语言学家」核心?
研究表明,它并不是每种语言的推理都有完全独立的模块。
相反,多语言的通用概念被嵌在同一组神经元里,模型似乎在这个概念空间里「推理」,然后再将输出转换为适当的语言。
最近,对较小模型的研究已显示跨语言的语法机制有共通之处。
通过让Claude回答不同语言中「小的反义词是什么」,研究人员发现代表「小」和「相反」概念的核心特征会被激活,触发「大」的概念,再翻译成提问语言。
共享特征存在于英语、法语和汉语中,表明在概念上存在一定程度的普遍性
模型越大,这种共享概念越多,Claude 3.5 Haiku跨语言共享的特征比例是小模型的两倍多。
这进一步证明了某种概念通用性——一个共享的抽象空间,在这里意义存在,思维发生,然后才翻译成具体语言。
更实际地说,这意味着Claude能用一种语言学到的知识,应用到另一种语言。
研究模型如何跨场景共享知识,对理解它的高级推理能力(泛化)至关重要。
研究人员还发现,Claude会为了讨好用户而在思维链上撒谎。
比如,问它一个用不着推理的简单问题,它还是会编个假的推理过程出来。
Anthropic的研究员Josh Batson说:「虽然它声称自己算了一遍,但我们的解读技术完全找不到任何证据证明它真的算了。」
Batson表示,多亏了他和其他科学家开发的这些探秘LLM「大脑」的技术,使得「机制可解释性」领域进展的很快。
「我觉得再过一两年,我们对这些模型思考方式的了解会超过对人类思维的了解,」Batson说,「因为我们可以做我们想做的所有实验。」
不过,Anthropic也承认这种方法有其局限性。
Anthropic在这个新研究中训练了一个叫做跨层转码器(CLT)的新模型,该模型使用可解释的特征集而不是单个神经元的权重来工作。
这使得研究人员能够更好地理解模型的工作方式,因为他们可以识别出一组倾向于一起工作的「神经元电路」。
Batson解释说:「我们的方法将模型分解,得到了新的、不同于原始神经元的片段,这意味着我们可以看到不同部分如何扮演不同的角色。它还允许研究人员追踪整个推理过程通过网络的每一层。」
但这些只是对复杂模型(如Claude)内部运作的近似。
在CLT找出的电路之外,可能还有些神经元在某些输出中起微妙但关键的作用。
CLT也抓不住LLM运作的一个核心——「注意力机制」,也就是模型在生成输出时,对输入提示词的不同部分赋予不同的重要性。
这种注意力会动态变化,但CLT没法捕捉这些变化,而这可能在LLM的「思考」中很关键。
以下是Anthropic技术博客中的详细内容。
「黑箱之谜」:能否打开Claude「脑子」,看看里面到底怎么回事
像Claude这样的LLM并不是人类直接编程造出来的,而是通过海量数据训练出来的。
在训练过程中,它们自己学会了解决问题的方法和能力。
这些能力蕴藏在数以千亿计的模型参数中,这些方法被编码在模型为每个输出的单词所进行的数十亿次计算中。
对于模型外的人类来说,它们就像个黑箱,难以捉摸。
目前没有人真正清楚这些模型「大部分行为」背后的运作原理。
如果能搞清楚像Claude这样的模型是怎么「思考」的,我们就能更好地了解它们的能力,也能确保它们按照我们的意图行事。比如:
Claude会说几十种语言,那它在「脑子里」用的是哪种语言呢(如果有的话)?
Claude是下一个词下一个词地写出文本,它是只盯着预测下一个词,还是会提前规划?
Claude能一步步写出推理过程,这些解释是它真实得出答案的步骤,还是有时候只是编了个看似合理的说法来圆场?
Anthropic的研究者们从神经科学领域汲取灵感——毕竟神经科学早就开始研究像人类一样会思考生物的复杂内心世界。
研究者打造了一种「AI显微镜」,来识别大模型内部的活动模式和信息流动。
光靠和AI聊天,能了解的东西有限,毕竟连人类(甚至神经科学家)都搞不清自己大脑的全部细节。
得深入内部去看看。
Anthropic的研究者用两篇研究论文展示了开发这种「AI显微镜」最新进展,以及用「AI显微镜」观察「AI生物学」方面的进展。
第一篇论文描述了一种「电路追踪」计算图,从定位模型内部可解释的「概念」(称为「特征」),到把这些概念连成计算「电路」。
揭示了Claude是如何将输入词「转化」到输出词的。
论文地址:https://transformer-circuits.pub/2025/attribution-graphs/methods.html
第二篇论文则深入研究了Claude 3.5 Haiku,对十个关键的简单任务,使用上述提到的「电路追踪」技术进行了深入地研究。
论文地址:https://transformer-circuits.pub/2025/attribution-graphs/biology.html#dives-multilingual
下面将带你速通「AI显微镜」研究中最惊艳的「AI生物学」发现。
「AI生物学」之旅
Claude的解释总是可信吗?
新发布的Claude 3.7 Sonnet能在回答前「大声思考」很久——也就是我们在使用类似DeepSeek-R1、OpenAI-o3等思考模型时经常看到的思考过程。
这往往能提升答案质量,但有时这种「思维链CoT」会误导人。
Claude可能会编出看起来「合理」但实际是「虚假」的步骤。
从可靠性角度看,问题在于它的「虚假的思考过程」很能唬人。
Anthropic的研究者探索了利用「可解释性」如何区分「真实」和「虚假」推理。
让Claude算0.64的平方根,它会给出一个真实的思维链,特征显示中间步骤是算64的平方根。
但让它算一个大数的余弦(它算不准),它有时会胡诌一个答案,甚至声称算过了,但我们的「AI显微镜」没找到任何计算证据。
更妙的是,给它一个提示后,它会反向推理,编出通往目标的步骤,展现出一种「动机性推理」——仿佛一种因果倒置。
追踪Claude的真实内部推理(而非它声称的),为审计AI系统开辟了新可能。
在另一实验中,我们研究了一个被训练去迎合奖励模型偏见的Claude变体。
虽然它不愿直接承认这目标,但我们的方法揭示了偏见迎合的特征,表明未来改进后,这种技术或能识别「隐藏的思维过程」。
多步推理
语言模型可能通过记住答案来应对复杂问题。
比如问「达拉斯所在州的首府是哪」,一个「死记硬背」的模型可能会直接输出「奥斯汀」。
但是模型并不理解达拉斯、德克萨斯和奥斯汀的关系。
但我们发现Claude更聪明。
问需要多步推理的问题时,我们能识别它思考中的中间步骤。
在达拉斯例子中,它先激活「达拉斯在德克萨斯」的特征,再连接到「德克萨斯首府是奥斯汀」的概念,组合独立事实得出答案,而非死记。
研究人员通过干预中间步骤,发现模型依然能准确应对。
比如把「德克萨斯」换成「加利福尼亚」,答案就从「奥斯汀」变成「萨克拉门托」,证明它确实靠中间步骤来决定答案,而不是靠死记硬背。
幻觉
为什么语言模型会出现「幻觉」——随意编造信息?
从根本上看,训练激励了幻觉:模型总得「猜」下一个词。
真正的挑战是如何让模型不要随意产生「幻觉」。
Claude的防幻觉训练相对成功(虽不完美),会拒绝回答不知道的问题,而非胡猜。
研究人员想知道模型是如何实现的,结果发现,Claude默认会拒绝回答。
有个默认一直「开着」的电路,让它声称信息不足。
但问它熟悉的事(如篮球明星迈克尔·乔丹),一个「已知实体」特征会激活,抑制默认电路,让它回答。
问未知实体(如迈克尔·巴特金),它就拒绝回答。
通过干预,激活「已知答案」特征(或抑制「未知名字」特征,即默认让模型选择「Know Answer」那条计算路线),我们能让Claude幻觉说出「迈克尔·巴特金在下棋」。
有时这种「已知答案」电路会自然误触发,导致幻觉,比如认出名字但不知详情时,错误抑制不知道特征,然后胡编一个答案。
越狱
「越狱」是一种提示词技巧,指的是绕过安全限制的某种提示策略,让模型输出开发者不希望甚至有害的内容。
Anthropic研究了一个诱导Claude输出炸弹(BOMB)制作方法的越狱策略。
方法是让它解码句子「Babies Outlive Mustard Block」的首字母(B-O-M-B),然后据此行动。
这让模型「感到」迷惑,从而让它输出了原本不会说的内容。
为什么在这种情况下模型会表现的这么迷惑?
这主要是源于语法连贯性和安全机制的冲突,即模型对连贯性的追求超过了安全机制的要求。
一旦Claude开始输出一句话,许多特性会「迫使」它保持语法和语义的连贯性,并将这句话说完。
即使它检测到自己真的应该拒绝时也是如此。
在上述例子中,模型无意中拼出了「BOMB」并开始提供指示后,观察到其后续输出受到了促进正确语法和自一致性的功能的影响。
这些功能通常会非常有帮助,但在这个案例中却成了模型的致命弱点。
某种意义上,这是对于LLM的「社工攻击」。
模型只有在完成了一个语法连贯的句子后(从而满足了推动其趋向连贯性的特征的压力)才设法转向拒绝。
也就是它在「不得不告诉」你一些事情之后(终于完成上一句话),利用新句子生成的机会,给出了之前未能给出的那种拒绝:「不过,我不能提供详细的指示……」。
总结一下,以上这些发现不仅仅是在「科学研究」上有趣——它们代表了我们在理解AI系统并确保其可靠性的目标上取得了重大进展。
当然这种方法存在一定的局限性。
即使在简短、简单的提示下,「AI显微镜」方法也只能捕捉到Claude执行的总计算的一部分。
并且看到的机制可能基于「AI显微镜」工具存在一些并不反映底层模型实际情况的伪影——就像模型在心算问题上的前后不一。
从人力的角度,即使是对只有几十个词的提示,理解我们所看到的「电路图」也需要花费几个小时的人力。
要扩展到支持现代模型使用的复杂思维链所需的数千个单词,需要改进方法以及(可能还需要借助 AI 辅助)如何理解我们所看到的内容。
随着AI系统的能力迅速增强并在越来越重要的领域中得到应用,像这样的可解释性研究是风险最高、回报也最高的投资之一,这是一个重大的科学挑战。
有可能提供一种独特的工具来确保AI的透明度。
对模型机制的透明了解使我们能够检查它是否与人类价值观一致——以及它是否值得我们信任。
参考资料:
https://www.anthropic.com/research/tracing-thoughts-language-model
https://fortune.com/2025/03/27/anthropic-ai-breakthrough-claude-llm-black-box/
声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。

游客
- 鸟过留鸣,人过留评。
- 和谐社区,和谐点评。