让大模型互联网「冲浪」，通义实验室WebWalker解锁复杂信息检索新技能

2025-01-29 发布浏览498次点赞0次收藏0次

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文主要作者来自通义实验室和东南大学，通讯作者是通义实验室蒋勇和东南大学周德宇。其中第一作者吴家隆，东南大学硕士二年级，主要研究方向是 Agent 和 Efficient NLP，该工作在阿里巴巴通义实验室 RAG 团队科研实习完成。

在信息爆炸的时代，互联网就像一座庞大的迷宫，藏着无数宝藏。但传统搜索引擎往往只能触及表面，对于复杂、多层级的信息检索显得力不从心。比如，你想知道某个学术会议的详细议程、嘉宾介绍，还得自己手动点开一个个网页点击深挖，费时费力。

通义实验室 RAG 团队提出 WebWalker 帮你解决这一问题！

如 gif 所示，给定 ACL 2025 的网页地址和问题：industry track 的截止日期和开会地址。WebWalker 通过一次又一次的 Click 点击依次找到对应的信息，对网站进行充分的探索和挖掘。

就其应用场景来说，WebWalker 既可以作为独立的网页信息检索助手，或无缝集成到 RAG 系统中，拓展其应用范围，让它们能够处理更加复杂、多步骤的信息检索任务。

论文标题：WebWalker: Benchmarking LLMs in Web Traversal
论文地址：https://arxiv.org/pdf/2501.07572
Homepage 地址：
https://alibaba-nlp.github.io/WebWalker/
Modelscope Demo 地址:
https://www.modelscope.cn/studios/jialongwu/WebWalker
Huggingface Demo 地址:
https://huggingface.co/spaces/callanwu/WebWalker
Dataset 地址:
https://huggingface.co/datasets/callanwu/WebWalkerQA
Leaderboard 地址: https://huggingface.co/spaces/callanwu/WebWalkerQALeadeboard
Github 地址:
https://github.com/Alibaba-NLP/WebWalker

背景：大模型的「知识局限」与检索瓶颈

大型语言模型（LLMs）在自然语言处理任务中大放异彩，但它们的「知识」在训练后就固定了。虽然通过检索增强生成（RAG）能从网上获取最新信息，传统搜索引擎的横向搜索方式，很难深入挖掘网站内部深层内容，导致大模型在处理复杂信息时「心有余而力不足」。

传统搜索引擎如谷歌、必应等，它们的搜索方式，我们定义为对问题水平方向的搜索，难以深入到网站内部，挖掘那些深埋在网页之下的深层内容，对于隐藏在网页深层的有价值信息无能为力。无法像人类一样通过点击、输入等操作，逐步深入探索网页，获取丰富的细节。

解决思路

研究者首先定义了 Web Traversal 任务，即给定一个与问题相关的初始网站，系统地遍历网页以揭露隐藏在其中的信息对问题进行回答。同时，WebWalkerQA 应运而生，专门设计来评估大模型处理复杂、多步骤网页交互中嵌入查询能力的基准测试。其聚焦于文本推理能力，采用问答格式来评估大模型在网页场景中的问题解决能力，并且将动作限制为「Click 点击」，以更精准地评估智能体的导航和信息寻求能力，这种范式更加贴合实际应用场景。

同时，研究者提出了一个基于 Multi-Agent 框架搭建的 WebWalker 框架，进行网页的游走，获取需要的信息。

WebWalkerQA 基准

WebWalkerQA 通过两阶段漏斗式标注策略构建数据，先用 GPT-4o 进行初步标注，再由众包标注者进行质量控制和筛选，最终获得高质量的 680 个问答对，覆盖 1373 个网页，其中涉及到的领域有教育、会议、组织和游戏，贴近现实真实场景，并且分为多源和单源问答两种类型，模拟人类不同网页探索行为。

同时，团队了开源了 14k 条 silver data，包含了详细的页面点击的 trajectory，以供后续研究者研究使用。

WebWalker 框架

WebWalker 框架由 Explorer Agent 和 Critic Agent 组成。Explorer Agent 基于遵循思考 - 行动 - 观察范式，负责在网页中点击按钮、跳转页面；Critic Agent 则负责记忆，维护一个 Memory 来保存对问题回答有帮助的信息和判断当前 Memory 中的信息能否对问题进行回答。

这种分工协作让大模型更高效地管理记忆，应对长文本和复杂逻辑。WebWalker 让大模型在网页导航任务中能够更加高效地处理长文本信息，深入网页挖掘有价值的内容。

实验结果

研究者分别在两种设置下测试了 WebWalkerQA 的性能。第一种是 Agent 在 Web Traversal 任务下的性能，即输入给定的网页和问题，让 Agent 在网页内游走，获取信息进行回答。

另外，研究者分别在两种最主流的 Single-Agent 框架 ReAct 和 Reflexion 以及他们提出的 WebWalker 上进行了测试。测试指标分别是问答的正确率和正确回答的情况下 Agent 执行点击的次数 Action Count。

在 Agent 上的性能

从下图可以看出，数据集深度越深，考察内容越多，需要挖掘的信息越难找到，性能越低，这与论文构造 WebWalkerQA 想要考察的内容是一致的。

相比于 ReAct 和 Reflexion 框架，引入 Multi-Agent 的 WebWalker 框架对于长上下文理解的网页探索任务很有作用。

总体来说，WebWalkerQA 对现有 Agent 来说是仍有挑战，即使是性能最强的基于 GPT-4o 的 WebWalker，其表现也未达理想状态，仅仅只有 40，凸显了该基准的难度。

详细分析

如下左图是基于不同基座 LLM 在不同 Agent 正确率和执行次数的分布；右图是预测分布，研究者对错误类型进行了细致的划分，包括超过给定的最大执行次数 K，拒答或定位错误（没有找到正确的页面就进行了回答）以及推理错误（这里指找到了正确的页面但是仍回答错误）。

综合来看，在 ReAct 框架下，参数相对较小的模型由于缺乏深入挖掘信息的能力，无论是否找到了相关信息，在进行几次操作迭代后便开始进行回答判断，常常表现出「摆烂」或者不耐烦的特性。通过引入记忆机制来管理长上下文，或者随着模型参数的增强这种现象有所缓解，说明这种现象源于长上下文中噪声信息的干扰以及模型自身能力的局限性。

在 RAG 系统上的性能

另一种设置是直接端到端测试 RAG 系统下 QA 的性能，研究者分别测试了在 Close Book 和一些开源、商用 RAG 系统上的性能。结果显示，Close Book 在 WebWalkerQA 上结果很差，因为研究者收集页面信息具有高度的时效性。

同样地，WebWalkerQA 需要搜索引擎搜到比较深的页面内容，或者需要拆解 Query 进行搜索，这给 RAG 系统带来了挑战，最好的结果也是 40 左右。

二维 RAG 的探索

值得注意的是，WebWalker 中的 memory 对于回答 query 是非常重要的。如果 rag 链路中的搜索引擎可以当作对 query 进行横向搜索，WebWalker 是对页面的纵向深度探索，这是完全可以互补的。

因此，如果把 WebWalker 中的 memory 拼接到 rag 链路上，这种横向和纵向整合表现出色，在所有类别和难度的数据集上效果均有提升，证明了垂直探索页面对于提升 RAG 性能的潜力。这是对 RAG 二维探索的首次尝试！

此外，研究者对 WebWalker 的挖掘点击次数进行 scale up，看是否能得到更好、更多的 memory 信息。随着挖掘点击次数的增大，不仅在 WebWalker 上有较大提升，把 memory 加入到 rag 系统之后，性能也随之提升。这给 rag 系统进行 test-time 的拓展提供了新的角度。

突出 Insight

网页导航寻找信息仍比较困难：在需要规划和推理的任务中，网页导航任务仍需进行进一步的研究和探索。
结合 RAG 有效：RAG 与 WebWalker 的结合，在信息检索问答任务中展现出强大效果。这种协同作用不仅提升了信息检索的效率，还为处理复杂任务提供了强大的支持。Agentic 的二维 RAG 会很有帮助。
垂直探索有潜力：页面的垂直探索为 RAG 系统 test-time 的扩展提供了新思路。突破迭代搜索的范式，对页面进行垂直探索。

总之，WebWalkerQA 和 WebWalker 的出现，为大模型在复杂、多步骤信息检索任务中的网页遍历能力评估提供了新标准和工具。它们强调了网页信息获取任务中深度、垂直探索的重要性，是可能一直 Agentic RAG 的新方向。

局限与改进方向

数据规模：目前 WebWalkerQA 仅包含 680 个高质量问答对，规模有限，还有拓展空间。
多模态拓展：目前仅基于 HTML-DOM 解析，未来可结合视觉模态如截图，提供更直观的交互体验。
Agent 微调：WebWalker 目前仅靠提示驱动，后续可通过精细调优，让大模型更好地掌握网页浏览技巧。
Momory 与 rag 结合：目前是给定了 webwalker 页面进行了挖掘，如果想与 rag 链路进行更好的结合，可以对 query 进行改写到官网定位，再进行挖掘，把 memory 和正常检索到的知识一起作为检索增强的知识，这样结合更自然。

GPT 谷歌 AI 改写 models mod 工程 4 框架理想测试大模型体验性能 4o

声明：本文转载自机器之心，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！

让大模型互联网「冲浪」，通义实验室WebWalker解锁复杂信息检索新技能

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。