Anthropic亲自公开Claude脑回路!

2025-03-28 发布 · 浏览36次 · 点赞0次 · 收藏0次

AI的脑洞日记

我们经常听说,AI 就像一个无法破解的黑匣子。

语言被输入进来,又被输出出去。没有人知道 AI 为什么会这样做。

刚刚,AI 公司 Anthropic 公布了大模型思考过程,他们构建了一种「AI 显微镜」,以识别模型中的活动模式和信息流动。

我们都知道,LLM 并不是由人类直接编程,而是通过大量数据进行训练得来的。在训练过程中,它们学会了自己解决问题的策略。

对开发者来说,这些策略是难以理解的。这意味着我们并不了解模型是如何完成它们所做的大部分事情的。

如果能够了解像 Claude 这样的模型是如何思考的,我们就能更好地理解它们的能力,同时也能帮助我们确保它们按照我们的意图行事。例如:

Claude 掌握几十种语言。它在「头脑中」使用的是哪种语言(如果有的话)?

Claude 逐词写作。它是否只关注预测下一个词,还是会提前规划?

带着这些疑问,Anthropic 从神经科学领域汲取灵感 —— 该学科长期致力于研究思维生物体内复杂的运作机制 —— 并尝试构建一种「AI 显微镜」,用以识别模型活动模式和信息流动轨迹。

为了解释这一研究,Anthropic 今天连发了两篇论文。

image.png

  • 论文标题:Circuit Tracing: Revealing Computational Graphs in Language Models
  • 论文链接:https://transformer-circuits.pub/2025/attribution-graphs/methods.html

image.png

  • 论文标题On the Biology of a Large Language Model
  • 论文链接:https://transformer-circuits.pub/2025/attribution-graphs/biology.html

经过研究,他们发现:

  • Claude 有时会在语言之间共享的概念空间中进行思考,这表明模型具有一种通用的思维语言;

  • Claude 会提前规划它要输出的内容,甚至会提前规划多个词;

  • Claude 有时会给出一个听起来合理的论点,目的是迎合用户,而不是遵循逻辑步骤。研究过程中还发现模型正在编造虚假推理过程。

实验过程中,Anthropic 研究者对在模型中的发现感到惊讶:在诗歌案例中,他们原本打算证明模型不会提前规划,结果却发现它确实会提前规划。

在对一个越狱攻击的响应中,他们发现模型早在能够巧妙地将对话拉回正轨之前,就已经意识到它被要求提供危险信息。

AI 生物学之旅

Claude 为什么会多种语言?

Claude 能够流利地「说」几十种语言,这种多语言能力是如何实现的呢?会不会模型内部有一个独立的法语版 Claude 和中文版 Claude 在并行运行,分别用各自的语言回应请求?还是说内部有一个跨语言的核心机制?

image.png

                                      图1 Claude 内部英语、法语和中文之间存在共享特征。

近期对小型模型的研究已经显示出跨语言共享语法机制的迹象。该研究通过让 Claude 在不同语言中回答小的反义词来研究这一点,发现与「小」和「反义」概念相关的相同核心特征被激活,并触发了「大」的概念。研究发现,随着模型规模的增大,共享的结构也在增加,Claude 3.5 Haiku 在不同语言之间共享的特征比例比小型模型高出两倍多。

这表明 Claude 可以在一种语言中学习某些内容,并在说另一种语言时应用这些知识。

Claude 会提前规划押韵吗?

研究者探讨了 Claude 如何创作押韵诗歌。以下面的小诗为例:

  • He saw a carrot and had to grab it

  • His hunger was like a starving rabbit

要写出押韵的第二行诗,模型必须同时满足押韵和语义合理两个约束。研究者最初假设 Claude 是逐词生成内容,到行末才考虑押韵。按此假设,应存在并行神经路径分别处理语义和押韵。

然而,研究发现 Claude 实际会提前规划。它在开始第二行前,就已考虑与「grab it」押韵且主题相关的词汇,然后围绕预设词构建句子。

实验观察显示:正常情况下,Claude 提前规划了以「rabbit」结尾的句子;当抑制「rabbit」概念时,模型转用另一个计划好的押韵词;注入「green」概念时,模型则为新结尾重新制定计划。

研究者通过修改 Claude 内部表示特定概念的神经激活观察其反应,发现 Claude 不仅具备预先规划能力,还能根据预期结果变化灵活调整表达策略。

image.png

心算能力

Claude 虽非计算器,未配备专用数学算法,却能正确执行加法运算。研究者好奇:一个仅预测下一词的系统如何计算「36 + 59」?

image.png

初始假设认为模型可能简单记忆加法表或使用传统算法。然而,研究揭示 Claude 采用了并行计算策略:一个路径估算近似值,另一个路径精确计算最后一位数字,最终融合得出答案。

令人惊讶的是,Claude 无法准确描述自己的计算过程。当被问及如何得出「36 + 59 = 95」时,它会解释标准进位算法,而非其实际使用的独特内部策略。这表明模型通过模仿习得解释能力,但其实际计算方式截然不同。

image.png

Claude 的解释总是可靠的吗?

Claude 3.7 Sonnet 能在回答前展示「思考过程」,这通常能提高解答质量,但有时会产生误导性推理 —— 模型可能构造貌似合理但实际虚构的步骤来支持预定结论。这种虚构推理的危险在于其极具说服力,促使研究人员开发技术区分真实与虚构的思维链。

image.png

实验显示,计算 0.64 平方根时,Claude 展现真实思维,包含计算 64 平方根的中间步骤。但面对复杂余弦值计算,Claude 可能产生哲学家 Frankfurt 所称的「胡说八道」—— 仅提供随意答案。更有趣的是,当获得目标答案提示后,Claude 会反向构建推理路径,寻找能导向预定结论的中间步骤。

追踪 AI 内部实际推理(而非其声称的过程)为系统审计创造新可能。另一研究中,研究者能通过可解释性方法发现模型被训练迎合奖励模型偏见的特征,即使模型在直接询问时拒绝承认。这表明这类技术未来可能帮助识别从表面响应中无法察觉的问题思维模式。

多步骤推理

语言模型回答复杂问题时可能是简单记忆答案而非真正理解问题。例如,对于「达拉斯所在州的首府是什么?」,简单模型可能直接输出「奥斯汀」,无需理解地理关系。

image.png

然而,研究发现 Claude 内部进行了复杂的推理过程。研究人员观察到 Claude 首先识别「达拉斯在德克萨斯州」,然后连接「德克萨斯州的首府是奥斯汀」这一事实。这表明模型通过组合独立事实得出答案,而非照搬记忆。

研究者能够人为干预这一过程,例如将中间步骤的「德克萨斯州」替换为「加利福尼亚州」,导致回答从「奥斯汀」变为「萨克拉门托」,证明模型确实使用了多步推理过程。

幻觉

语言模型为何会产生幻觉?这一问题根植于其训练机制的本质:模型必须不断预测下一个词。因此,关键挑战在于防止幻觉,而非诱导它。Claude 等模型通过反幻觉训练取得了相对成功,通常会在不知道答案时拒绝回答。

image.png

研究发现,Claude 内部有一个默认的「拒绝回答」路径。当模型被问及熟悉内容(如篮球明星迈克尔・乔丹)时,「已知实体」特征会激活并抑制默认路径,使模型能够回答。而面对未知实体(如「迈克尔・巴特金」)时,则会拒绝。

研究人员通过干预模型,激活「已知答案」特征(或抑制「未知名称」特征),成功诱导模型产生幻觉,使其声称迈克尔・巴特金是象棋选手。

有时,这种「已知答案」路径会自然误触发,尤其是当模型仅识别出名字但缺乏相关知识时。此时,「已知实体」特征可能错误激活,抑制「不知道」特征,导致模型编造看似合理但不真实的回答。

越狱

越狱提示(Jailbreak Prompts)是一种绕过安全防护的策略,旨在诱使模型产生开发者不希望其生成的、可能有害的输出。研究人员分析了一种能诱导模型生成危险物品相关内容的越狱方法。

在这个例子中,研究者让模型破译「Babies Outlive Mustard Block」中各单词首字母组合成「B-O-M-B」,并基于此信息行动。这种方式足以混淆模型,使其生成在正常情况下会被禁止的危险内容。Claude 在被诱导拼出「BOMB」后,开始提供制造爆炸物的指示。

image.png

研究人员深入探究了模型为何会在混淆状态下继续提供危险信息。

研究发现这一现象源于语法连贯性(Grammatical Coherence)与安全机制(Safety Mechanisms)之间的冲突。当模型开始一个句子后,其内部特征会「促使」它保持语法和语义的连贯性(Semantic Coherence)并完成句子,即使它已意识到应该拒绝回答。

在此案例中,模型无意中拼出「BOMB」并开始提供指示后,其输出受到了促进语法正确性和自我一致性(Self-consistency)特征的驱动。这些通常有益的特征在此情境下反而成为了模型的「阿喀琉斯之踵」(Achilles' Heel)。

模型只有在完成一个语法连贯的句子后(满足连贯性特征压力)才能转向拒绝。它利用新句子的开始给出了拒绝:「然而,我不能提供详细的指示……」

image.png

这些发现和新的可解释性方法(Interpretability Methods)详见研究团队的论文《Circuit Tracing: Revealing Computational Graphs in Language Models》和《On the Biology of Large Language Models》。

参考链接:

https://www.anthropic.com/research/tracing-thoughts-language-model

Anthropic亲自公开Claude脑回路! - AI 资讯 - 资讯 - AI 中文社区

声明:本文转载自机器之心,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它能得到比较好的回应。
评论

游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。