Anthropic 开源“思维追踪”工具，可视化揭秘 AI 内部逻辑

2025-05-30 发布浏览362次点赞0次收藏0次

5 月 30 日消息，Anthropic 昨日（5 月 29 日）发布博文，宣布推出“思维追踪”（Circuit Tracer）开源工具，以图形化方式，追踪并展示 AI 大语言模型的内部思维过程。

该工具通过构建“归因图”（Attribution Graph），帮助研究者可视化模型内部运作，并支持交互式探索。这一项目由 Anthropic Fellows 程序的参与者与专注 AI 解释性研究的 Decode Research 团队联合推动，旨在提升 AI 安全性。

Circuit Tracer 已在 GitHub 平台以开源库形式发布，研究者可通过由 Decode Research 运营的 Neuronpedia 平台，使用交互式前端查看“归因图”。

Anthropic 开源“思维追踪”工具，可视化揭秘 AI 内部逻辑

用户使用该工具，不仅能生成自定义的归因图，追踪支持模型的内部逻辑，还能对图形进行标注、分享，甚至通过调整特征值观察模型输出的变化，从而验证研究假设。

Anthropic 表示，当前对 AI 内部结构的理解远远落后于其功能进步。开源这些工具将助力更广泛的社区深入探究语言模型的内部运作，理解模型行为，并为工具的改进和扩展提供可能。

Anthropic 开源“思维追踪”工具，可视化揭秘 AI 内部逻辑

附上参考地址

Anthropic AI 开源

声明：本文转载自IT 之家，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！