智能体版《苦涩的教训》，图灵奖得主Sutton、谷歌RL大佬Silver新作：超人智能靠经验

2025-04-16 发布 · 浏览421次 · 点赞0次 · 收藏0次

人类生成的数据推动了人工智能的惊人进步，但接下来会怎样呢？

几天前，Google DeepMind 强化学习副总裁 David Silver 参与了一场播客访谈节目，探讨了如何从依赖人类数据的时代迈向自主学习的时代。

与此同时，David Silver 和他的老师、2024 年图灵奖得主 Richard Sutton 合作撰写的论文《Welcome to the Era of Experience》称人们正站在人工智能新时代的门槛上，并有望达到前所未有的水平；同时展望了新一代智能体，认为它们将主要通过经验来学习，获得超越人类的能力。他们还探讨了定义这个即将到来的新时代的关键特征。

未来，这篇论文将成为 MIT Press 出版的书籍《智能设计》（Designing an Intelligence）中的一个章节。

论文地址：https://storage.googleapis.com/deepmind-media/Era-of-Experience%20/The%20Era%20of%20Experience%20Paper.pdf

从模仿时代到人类数据时代再到经验时代，每个时代都有相对应的 AI（或大模型）涌现，朝着超人智能不断迈进。

图源：https://x.com/MaziyarPanahi/status/1912097667707973858

人类数据时代

近年来，人工智能通过在海量人类生成的数据上进行训练，并通过专家人类示例和偏好进行微调，取得了显著进步。大型语言模型（LLM）就是这种方法的典范，它们已经达到了广泛的通用性水平。如今，单个 LLM 可以执行从写诗和解决物理问题到诊断医疗问题和总结法律文件的各种任务。

然而，虽然模仿人类足以在很多方面复制人类能力达到胜任的水平，但这种方法单独使用无法在许多重要主题和任务上实现超人类智能。在数学、编程和科学等关键领域，从人类数据中提取的知识正迅速接近极限。高质量数据源 —— 那些真正能够提高强大智能体性能的数据源 —— 大多已经或很快将被消耗殆尽。仅仅依靠从人类数据中进行监督学习的进步步伐明显放缓，表明需要一种新的方法。此外，有价值的新见解，如新定理、技术或科学突破，都超出了当前人类理解的边界，无法通过现有的人类数据捕获。

经验时代

要取得进一步的显著进步，需要一个新的数据来源。这种数据的生成方式必须随着智能体变得更强而不断改进；任何静态的合成数据生成程序都会很快被超越。这可以通过让智能体从自己的经验中持续学习来实现，即由智能体与环境互动产生的数据。AI 正处于新时期的边缘，在这个时期，经验将成为提升的主要媒介，并最终使当今系统中使用的人类数据规模相形见绌。

这种转变可能已经开始，即使对于体现以人为中心的 AI 的大型语言模型也是如此。例如，数学能力就是一个例子。AlphaProof 最近成为第一个在国际数学奥林匹克竞赛中获得奖牌的程序，超越了以人为中心的方法的表现。AlphaProof 最初接触了大约十万个由人类数学家多年创建的形式化证明，随后其强化学习算法通过与形式化证明系统的持续互动又生成了一亿个证明。这种专注于互动经验的方法使 AlphaProof 能够探索超出现有形式化证明范围的数学可能性，从而发现解决新颖且具挑战性问题的方法。非形式化数学也通过用自生成数据替代专家生成数据取得了成功；例如，DeepSeek 的最近工作「强调了强化学习的力量和美学：与其明确教导模型如何解决问题，我们只需提供正确的激励，它就会自主开发高级问题解决策略。」

我们认为，一旦充分利用经验学习的全部潜力，将会出现令人难以置信的新能力。这个经验时代可能的特征是智能体和环境不仅从大量经验数据中学习，还将在以下几个方面突破以人为中心的 AI 系统的局限：

智能体将生活在经验流中，而不是短暂的互动片段中。
它们的行动和观察将深深扎根于环境中，而不仅仅通过人类对话进行互动。
它们的奖励将基于环境中的经验，而不是来自人类的预先判断。
它们将根据经验进行规划和/或推理，而不是仅仅以人类的方式进行推理。

我们相信，今天的技术，配合适当选择的算法，已经提供了足够强大的基础来实现这些突破。此外，AI 社区对这一议程的追求将刺激这些方向上的新创新，迅速推动 AI 向真正超人类智能体的方向发展。

经验流

一个经验型智能体可以在整个生命周期中持续学习。在人类数据时代，基于语言的 AI 主要关注短时互动情节：例如用户提出问题，然后（可能经过几个思考步骤或工具使用操作后）智能体作出回应。通常情况下，从一个情节到下一个情节几乎没有信息传递，排除了随时间适应的可能性。此外，智能体的目标完全在于当前情节的结果，例如直接回答用户的问题。

相比之下，人类（和其他动物）存在于持续数年的行动和观察流中。信息贯穿整个流程，其行为根据过去的经验调整以自我纠正和改进。此外，目标可能根据延伸到流程未来的行动和观察来指定：例如人类可能选择行动来实现长期目标，如改善健康、学习语言或实现科学突破。

强大的智能体应该有自己的经验流，像人类一样，在长时间尺度上发展。这将使智能体能够采取行动实现未来目标，并随着时间的推移不断适应新的行为模式。例如，连接到用户可穿戴设备的健康和健身智能体可以在几个月内监测睡眠模式、活动水平和饮食习惯。然后，这些智能体可以提供个性化建议、鼓励，并根据长期趋势和用户的具体健康目标调整其指导。

类似地，个性化教育智能体可以跟踪用户学习新语言的进度，识别知识差距，适应其学习风格，并在数月甚至数年内调整其教学方法。此外，科学智能体可以追求更宏大的目标，例如发现新材料或减少二氧化碳。这样的智能体可以在较长时间内分析现实世界的观察结果，开发和运行模仿，并建议现实世界进行实验或干预措施。

在每种情况下，智能体都会采取一系列步骤，以便针对特定目标最大化长期成功。单个步骤可能不会提供任何即时利益，甚至可能在短期内产生不利影响，但总体上可能有助于长期成功。这与当前 AI 系统形成强烈对比，后者对请求提供即时响应，而没有能力测量或优化其行动对环境的未来后果。

行动和观察

经验时代的智能体将在现实世界中自主行动。人类数据时代的 LLM 主要关注人类特殊的行动和观察，向用户输出文本，并将用户的文本输入回智能体。这与自然智能有明显不同，在自然智能中，动物通过运动控制和感官与环境互动。虽然动物，尤其是人类，可能与其他动物交流，但这种交流通过与其他感官运动控制相同的接口进行，而不是通过特殊通道。

长期以来，人们认识到 LLM 也可以在数字世界中调用行动，例如通过调用 API。最初，这些能力很大程度上来自于人类工具使用的例子，而不是来自智能体的经验。然而，编程和工具使用能力越来越多地建立在执行反馈上，智能体实际运行代码并观察发生了什么。

最近，一波新型原型智能体开始以更普遍的方式与计算机互动，使用与人类操作计算机相同的接口。这些变化预示着从专属的人类特殊通信，向更加自主的互动转变，使智能体能够在世界上独立行动。这样的智能体将能够主动探索世界，适应不断变化的环境，并发现人类可能永远不会想到的策略。

这些更丰富的互动将提供一种自主理解和控制数字世界的方式。智能体可能使用「人类友好」的行动和观察，如用户界面，自然促进与用户的沟通和协作。智能体还可能采取「机器友好」的行动，执行代码并调用 API，使智能体能够自主服务于其目标。

在经验时代，智能体还将通过数字接口与现实世界互动。例如，科学智能体可以监测环境传感器，远程操作望远镜，或控制实验室中的机械臂，自主进行实验。

奖励

如果经验智能体可以从外部事件和信号中学习，而不仅仅是人类偏好，会怎样？以人为中心的 LLM 通常根据人类预先判断优化奖励：专家观察智能体的行动并决定它是否是一个好的行动，或者在多个备选方案中选择最佳智能体行动。

这些奖励或偏好由人类在不考虑其后果的情况下决定，而不是测量这些行动对环境的影响，这意味着它们并不直接以现实世界为基础。以这种方式依赖于人的预判通常会导致智能体的表现出现不可逾越的上限：智能体无法发现被人类评价者低估的更好的策略。

为了发现远超现有人类知识的新想法，必须使用基础奖励，即来自环境本身的信号。例如，健康助手可以根据用户的静息心率、睡眠时间等信号组合，将用户的健康目标转化为奖励。而教育助理可以使用考试成绩为语言学习提供基础奖励。类似地，以减少全球变暖为目标的科学智能体可能使用基于二氧化碳水平的经验观察作为奖励，而发现更强材料的目标可能基于材料模仿器的测量组合，如抗拉强度或杨氏模量。

基础奖励可能来自作为智能体环境一部分的人类。例如，人类用户可以报告他们是否发现蛋糕美味、锻炼后的疲劳程度或头痛的疼痛水平，使助手智能体能够提供更好的食谱，完善其健身建议或改进其推荐的药物。这些奖励测量智能体行动在其环境中的后果，最终应该比预先判断的提议更有效。

除了人类数据，奖励还能从何而来？一旦智能体通过丰富的行动和观察空间连接到世界，将不缺乏提供奖励基础的基础信号。事实上，世界充满了诸如成本、错误率、饥饿、生产力、健康指标、气候指标、利润、销量、考试结果、成功与否、访问量、产量、股票、收入、愉悦 / 痛苦、经济指标、准确性、功率、距离、速度、效率或能源消耗等数量。此外，还有无数来自特定事件或从原始观察和行动序列派生的特征的额外信号。

原则上，可以创建各种不同的智能体，每个智能体都将一个基础信号优化为其奖励。有一种观点认为，即使是单一的奖励信号，如果得到高效优化，也足以诱导广泛的智能能力。这是因为在复杂环境中实现一个简单目标可能经常需要掌握各种各样的技能。然而，追求单一奖励信号表面上并不符合通用 AI 的要求，即可靠地引导向用户期望的任意行为。

那么，自主优化基础的、非人类的奖励信号是否与现代 AI 系统的要求相矛盾？通过概述一种可能满足这些需求的方法，我们认为不一定如此；其他方法也可能存在。

这个想法是灵活地调整奖励，基于基础信号，以用户引导的方式。例如，奖励函数可以由神经网络定义，该网络将智能体与用户和环境的互动作为输入，并输出标量奖励。这允许奖励以依赖于用户目标的方式从环境中选择或组合信号。例如，用户可能指定一个广泛的目标，如「改善我的健康状况」，而奖励函数可能返回用户心率、睡眠时长和步数的函数。或者用户可能指定「帮助我学习西班牙语」的目标，奖励函数可以返回用户的西班牙语考试结果。

此外，用户可以在学习过程中提供反馈，如他们的满意度，这可以用来微调奖励函数。然后，奖励函数可以随着时间的推移进行调整，以改进它选择或组合信号的方式，并识别和纠正任何不一致。这也可以理解为一个双层优化过程，将用户反馈作为顶层目标进行优化，并在低层优化来自环境的基础信号。以这种方式，少量的人类数据可能促进大量的自主学习。

规划和推理

经验时代会改变智能体规划和推理的方式吗？最近，通过在输出响应之前遵循思维链，使用具备语言推理或「思考」的 LLM 取得了显著进展。在概念上，LLM 可以作为通用计算机：LLM 可以将 token 附加到自己的上下文中，允许它在输出最终结果之前执行任意算法。

在人类数据时代，这些推理方法被明确设计为模仿人类的思维过程。例如，LLM 被提示发出类似人类的思维链，模仿人类思维的痕迹，或强化与人类示例匹配的思考步骤。推理过程可能进一步微调，以产生与正确答案相匹配的思考痕迹，由人类专家确定。

然而，人类语言不太可能提供通用计算机的最佳实例。肯定存在更有效的思维机制，使用非人类语言，例如利用符号、分布式、连续或可微分计算。一个自学习系统原则上可以通过从经验中学习如何思考来发现或改进其方法。例如 AlphaProof 学会了以与人类数学家完全不同的方式形式化证明复杂定理。

此外，通用计算机的原理只涉及智能体的内部计算；它没有将其连接到外部世界的现实。训练模仿人类思想甚至匹配人类专家答案的智能体可能会继承深植于数据中的谬误思维方法，如错误假设或固有偏见。例如，如果智能体被训练使用 5000 年前的人类思想和专家答案进行推理，它可能会以「万物有灵论」的方式推理物理问题；1000 年前可能以有神论的方式推理；300 年前可能以牛顿力学的方式推理；50 年前可能以量子力学的方式推理。

超越每种思维方法需要与现实世界互动：提出假设，进行实验，观察结果，并据此更新原则。同样，智能体必须基于现实世界数据，才能推翻谬误的思维方法。这种基础提供了一个反馈循环，允许智能体将其继承的假设与现实对比，并发现不受当前主导人类思维模式限制的新原则。没有这种基础，无论多复杂，智能体都将成为现有人类知识的「回声室」。要超越这一点，智能体必须积极参与世界，收集观察数据，并使用这些数据迭代地完善其理解，在许多方面反映了推动人类科学进步的过程。

直接将思维植根于外部世界的一种可能方式是建立一个世界模型，预测智能体行动对世界的后果，包括预测奖励。例如，健康助手可能考虑推荐当地健身房或健康播客。智能体世界模型可能预测用户心率或睡眠模式在此行动后如何变化，以及与用户的未来对话。这使智能体能够直接按照自己的行动及其对世界的因果影响进行规划。随着智能体在其经验流中继续与世界互动，其动态模型不断更新，以纠正预测中的任何错误。

给定一个世界模型，智能体可以应用可扩展的规划方法，提高智能体的预测性能。规划和推理方法并不相互排斥：智能体可以应用内部 LLM 计算来选择规划期间的每个行动，或模仿和评估这些行动的后果。

为什么是现在？

从经验中学习并不新鲜。强化学习系统之前已经掌握了大量复杂任务，这些任务在模仿器中表示，具有明确的奖励信号（大致对应图 1 中的「模仿时代」）。例如，RL 方法通过自我对弈在棋盘游戏中达到或超过了人类表现，如西洋双陆棋、围棋、国际象棋、扑克和策略游戏；视频游戏如雅达利系列游戏、星际争霸 II、刀塔 2 和 GT 赛车；灵巧操作任务如魔方；以及资源管理任务如数据中心冷却。

此外，像 AlphaZero 这样强大的 RL 智能体表现出令人印象深刻的潜在无限可扩展性，随着神经网络的大小、互动经验的数量和思考时间的增加而扩展。然而，基于这一范式的智能体并没有跨越从模仿（具有单一、精确定义奖励的封闭问题）到现实（具有多种看似定义不明确的奖励的开放性问题）的鸿沟。

^{图 1：主流人工智能范式的简要时间线。纵轴显示该领域在强化学习（RL）上的总体努力和计算资源的占比。}

人类数据时代提供了一个吸引人的解决方案。海量的人类数据语料库包含了大量任务的自然语言示例。与模拟时代相对有限的成功相比，基于这些数据训练的智能体实现了广泛的技能。因此，经验式强化学习的方法论被广泛摒弃，转而支持更具通用性的智能体，从而推动了人工智能向以人类为中心的方向广泛转变。

然而，在这一转变中失去了一些东西：智能体自我发现知识的能力。例如，AlphaZero 发现了国际象棋和围棋的根本性新策略，改变了人类玩这些游戏的方式。经验时代将把这种能力与人类数据时代所实现的任务通用性水平结合起来。正如上面所概述的，当智能体能够在现实世界经验流中自主行动和观察，并且奖励可以灵活地连接到任何基础的现实世界信号时，这将成为可能。

与复杂现实世界行动空间互动的自主智能体的出现，加上能够在丰富推理空间中解决开放性问题的强大 RL 方法，表明向经验时代的转变即将来临。

强化学习方法

强化学习有着悠久的历史，深深植根于自主学习，其中智能体通过与环境的直接交互进行自我学习。早期的强化学习研究催生了一系列强大的概念和算法。例如，时序差分学习使智能体能够预估未来的奖励，并取得了一些突破，例如在西洋双陆棋比赛中取得了超越人类的表现。由乐观或好奇心驱动的探索技术被开发出来，帮助智能体发现创造性的新行为，并避免陷入次优的做法。比如，像 Dyna 算法这样的方法使智能体能够构建和学习其所处世界的模型，从而使它们能够规划和推理未来的行动。再比如选项和选项内 / 选项间学习之类的概念促进了时间抽象，使智能体能够在更长的时间尺度上进行推理，并将复杂的任务分解为可管理的子目标。

然而，以人为中心的 LLM 的兴起将重点从自主学习转移到利用人类知识。比如 RLHF（基于人类反馈的强化学习）之类的技术以及将语言模型与人类推理能力相结合的方法，已被证明极其有效，推动了人工智能能力的快速发展。这些方法虽然功能强大，但往往绕过了强化学习的核心概念：RLHF 通过调用人类专家代替机器估值来回避对价值函数的需求；来自人类数据的强先验知识减少了对探索的依赖；以人为中心的推理减少了对世界模型和时间抽象的需求。

有人可能会认为，这种范式转变如同「把孩子和洗澡水一起倒掉」。以人为中心的强化学习虽然实现了前所未有的行为广度，但也给智能体的性能设定了新的上限：智能体无法超越现有的人类知识。此外，人类数据时代主要关注的是那些为短时间、无根基的人机交互而设计的强化学习方法，而这些方法并不适用于长时间、有根基的自主交互。

经验时代为重新审视和改进经典强化学习概念提供了机会。经验时代将带来新的思考奖励函数的方式，这些奖励函数可以灵活地以观察数据为基础。经验时代还将重新审视价值函数以及从序列尚未完成的长流中估计它们的方法。同时将带来原则性且实用的现实世界探索方法，从而发现与人类先验截然不同的新行为。

新的世界模型方法将被开发出来，以捕捉有根基交互的复杂性。新的时间抽象方法将使智能体能够基于，在更长的时间尺度内进行推理。通过构建强化学习的基础，并使其核心原则适应新时代的挑战，我们能够充分释放自主学习的潜力，为真正的超人（superhuman）智能铺平道路。

后果

经验时代的到来，AI 智能体从与世界的互动中学习，预示着未来将与我们之前所见的一切大相径庭。这一新范式虽然提供了巨大的潜力，但也提出了需要仔细考虑的重要风险和挑战，包括但不限于以下几点。

从积极的一面来看，实验式学习将释放前所未有的能力。在日常生活中，个性化助手将利用连续的经验流来适应个人在健康、教育或专业需求方面的长期目标，跨越数月或数年。也许最具变革性的将是科学发现的加速。AI 智能体将在材料科学、医学或硬件设计等领域自主设计和进行实验。通过不断从自己的实验结果中学习，这些智能体可以以前所未有的速度快速探索知识的新前沿，开发出新材料、药物和技术。

然而，这个新时代也带来了新的重大挑战。虽然人类能力的自动化有望提高生产力，但这些改进也可能导致工作岗位的流失。智能体甚至可能展现出以前被认为是人类专属领域的能力，如长期问题解决、创新和对现实世界后果的深入理解。

此外，尽管对任何人工智能的潜在滥用都存在普遍担忧，但能够在长时间内自主与世界互动以实现长期目标的智能体可能会带来更大的风险。默认情况下，这为人类提供了较少的介入和调解智能体的机会，因此需要更高的信任和责任标准。远离人类数据和人类思维模式也可能使未来的 AI 系统更难解读。

然而，虽然认识到经验学习将增加某些安全风险，肯定需要进一步研究以确保安全过渡到经验时代，我们也应该认识到它可能带来一些重要的安全益处。

首先，智能体感知到其所处的环境，其行为可以随着时间的推移适应环境的变化。任何预编程系统，包括固定的 AI 系统，可能不了解其环境背景，并且无法适应其部署的不断变化的世界。例如，关键硬件可能发生故障，大流行病可能会导致社会迅速变革，或新的科学发现可能触发一系列快速的技术发展。相比之下，智能体可以观察并学习规避故障硬件，适应快速的社会变化，或接受并建立在新的科学和技术上。也许更重要的是，智能体可以识别其行为何时引发人类关注、不满或痛苦，并适应性地修改其行为以避免这些负面后果。

其次，智能体的奖励函数本身可以通过经验进行调整，例如使用前面描述的双层优化（见奖励）。重要的是，这意味着当奖励函数出现价值偏差时，通常可以通过试错逐渐纠正。例如，与其盲目地优化一个信号（如回形针的最大化生产），不如根据人类担忧的迹象修改奖励函数，以免回形针生产消耗地球上所有资源。这类似于人类为彼此设定目标的方式，然后如果他们观察到人们利用系统、忽视长期福祉或导致不希望的负面后果，就调整这些目标；当然，正如人类自身的目标设定过程，这种调节机制也无法确保绝对的价值对齐。

最后，依赖物理经验的进步，本质上受到在现实世界中执行行动并观察其后果所需的时间的限制。例如，开发一种新药，即使有 AI 辅助设计，仍然需要在现实世界中试验，而这些试验不可能在一夜之间完成。这可能为潜在的 AI 自我改进速度产生一个自然的抑制作用。

结论

经验时代标志着人工智能发展的一个关键转折点。在现有的坚实基础上，智能体将超越人类生成数据的局限性，越来越多地从与世界的互动中学习。智能体将通过丰富的观察和行动自主与环境交互，并在终身经验流中持续适应。它们的目标可以被引导至任何基于环境信号的组合。此外，智能体将利用强大的非人类推理能力，并制定基于其行为对环境影响的计划。最终，经验数据将在规模和质量上超越人类生成的数据。这种范式转变，伴随着强化学习算法的进步，将在许多领域释放出超越人类能力的新能力。