从思考到行动：大模型自主工具调用能力的深度实现

2025-04-17 发布 · 浏览513次 · 点赞0次 · 收藏0次

本项目由复旦大学知识工场实验室肖仰华教授、梁家卿青年副研究员领导，博士生韩槿一，硕士生李廷云、熊程元、姜子上、王昕奕等同学共同参与完成。

GPT - 4o、Deepseek - R1 等高级模型已展现出令人惊叹的「深度思考」能力：理解上下文关联、拆解多步骤问题、甚至通过思维链（Chain - of - Thought）进行自我验证、自我反思等推理过程。

但是，多数主流模型仍在基础问题上犯错，复杂四则运算计算失误，简单「两个小数比大小」出错、甚至连数清楚 strawberry 里有几个「r」都能翻车……即使提示像 R1 这样具备深度思考能力的大模型也要消耗大量的 token 才能勉强答对。

合适的工具调用能够拓展大模型的能力边界，但现有工具调用方式将大模型限制在预设的工具使用框架内，更像是一个被动的「提线木偶」，而非真正具备主动性的智能体。主要体现在以下几个方面：

浅层模仿而非深度理解：SFT 只是学会了特定场景下工具调用的表面模式，而非真正理解工具的功能边界、适用场景和内部工作机制

上下文依赖性强：基于 Prompt 的工具调用方法高度依赖于提示的精确性和完整性。一旦用户描述模糊或提示设计不当，模型就无法正确选择和使用工具

工具组合能力受限：当需要多个工具协同解决复杂问题时，现有方法难以支持模型进行灵活的工具组合

复旦大学知识工场实验室团队在开源项目 SimpleGRPO 中开源实现了大模型自主工具调用机制，通过引入大模型的深度思考能力，从根本上重构了大模型工具调用的范式。该技术使大模型实现了从被动执行的「提线木偶」到具备自主决策能力的智能体的根本跃迁。

项目开源地址为：https://github.com/lsdefine/simple_GRPO/tree/main/Auto_Program

为什么大模型需要自主调用工具的能力？

深度整合：大模型不仅是工具的「操控者」，而是能在推理过程中深度理解工具的功能，知道什么时候、如何使用工具才能更高效地解决问题。

动态调整：每次调用工具后，模型会根据新获得的信息自动调整思路，不断改进解决方案，让每一次思考都更精确。

连续性与灵活性：不同于传统的单次工具调用，自主工具调用能力可以使得模型能够在复杂任务中多次调用工具，通过连续的交互获取最佳答案。

创新组合：当一个工具无法完成任务时，模型能创新性地将多个工具结合起来，解决更为复杂的挑战。

^{表. 一般模型和融入思考进行自主工具调用的模型在工具调用上的能力表现的差异}

如何实现大模型的工具自主调用？

我们使用强化学习算法给 LLM 装上「决策中枢」，实现两种神仙模式：

方案 1【边想边干】：LLM 思考到一半突然写代码辅助解决 → 编译器运行 → 继续思考完成后续的推理

当大模型在生成推理或解决问题的过程中，意识到某些步骤需要借助编程工具（如 Python）来完成时，它会直接生成相应的代码片段，并通过编译器执行这些代码，执行结果会被捕获并作为输入重新融入到大模型的推理过程中。

这种即时反馈机制使得模型能够动态调整后续的生成内容。这种方式类似于人类在解决问题时，发现某个计算或分析任务复杂到需要用程序来辅助，便动手编写代码并运行结果。

方案 2【专业分工】：LLM 负责提需求，直接说「我需要计算 38 和 16 的最小公倍数」，专属代码小弟秒速响应！强强联手更精准！

生成模型在推理过程中，当遇到需要编程工具协助的任务时，会明确描述出需求。例如，「我需要计算一组数据的标准差」或「请帮我实现一个排序算法」。这种需求描述通常以自然语言的形式表达，清晰且易于理解。接收到需求后，专门的代码生成模型会根据描述生成对应的 Python 代码。

该模型经过大量代码训练，擅长将自然语言需求转化为准确的代码实现。生成的代码通过编译器执行，执行结果被返回给生成模型。生成模型根据结果调整后续推理路径，确保整个过程连贯一致。

大模型边思考边行动

大模型自主调用 Python 命令行

我们首先在简单数学题上验证模型能否通过强化学习学会调用工具计算器来辅助解决问题，并观察其泛化性。我们设定模型可在回答中通过「>>>」调用 Python 命令行，检测到需要调用 python 程序时，编译执行并将代码运行结果插入到先前的生成过程中。以 Qwen2.5 - 7B 为基础模型，在 GSM8K 上训练。