算法不重要,AI的下一个范式突破,「解锁」新数据源才是关键
众所周知,人工智能在过去十五年里取得了令人难以置信的进步,尤其是在最近五年。
回顾一下人工智能的「四大发明」吧:深度神经网络→Transformer 语言模型→RLHF→推理,基本概括了 AI 领域发生的一切。
我们有了深度神经网络(主要是图像识别系统),然后是文本分类器,然后是聊天机器人,现在我们又有了推理模型。领域内的进步一直在持续 —— 尽管范式转变级别的重大突破并不常见,但我们坚信能在缓慢而稳定的发展中前进。
值得深思的问题来了:下一个重大突破会是什么?取决于什么?
康奈尔大学 (科技校区) 博士生 JACK MORRIS 发表了一个新颖的观点:从 2012 年到现在,AI 的根本性突破并非来自全新的算法创新,而是来自我们能够利用的新数据源和更好的数据利用方式。
博客地址:https://substack.com/home/post/p-160974493
所以他认为人工智能的下一个范式突破可能要依靠视频数据(尤其是 YouTube)和实体世界数据(机器人)。
让我们看看作者是如何分析的:
事实上,一些研究人员最近提出了「人工智能的摩尔定律」,即计算机执行某些任务(在这里指的是某些类型的编码任务)的能力将随着时间的推移呈指数级增长:
「人工智能摩尔定律」。(顺便说一句,任何认为到 2025 年 4 月就能在无人干预的情况下运行自主智能体一小时的人都是在自欺欺人。)
虽然出于种种原因,我并不认同这种说法,但我无法否认人工智能的进步趋势。每年,我们的人工智能都会变得更智能、更快速、更便宜,而且这种趋势尚未看到尽头。
大多数人认为,这种持续的进步来自于学术界(主要是麻省理工学院、斯坦福大学、卡内基梅隆大学)和工业界(主要是 Meta、谷歌和少数中国实验室)研究界的稳定 idea 供给,同时还有很多在其他地方进行的研究是我们永远无法了解的。
研究方面确实取得了很大进展,尤其是在系统方面。这尤其体现在如何降低模型成本。这里挑选几个值得关注的例子:
2022 年,斯坦福大学的研究人员提出了 FlashAttention ,这是一种在语言模型中更好地利用记忆的方法,这种方法几乎在任何地方都有使用;
2023 年,谷歌的研究人员开发了推测解码,所有模型提供商都使用它来加速推理(也是 DeepMind 开发的,貌似是同时进行的);
2024 年,一群互联网狂热分子开发了 Muon ,它似乎是一个比 SGD 或 Adam 更好的优化器,并可能成为未来训练语言模型的方式;
2025 年,DeepSeek 发布了 DeepSeek-R1 ,这是一个开源模型,其推理能力与人工智能实验室(特别是谷歌和 OpenAI)的类似闭源模型相当。
人们在不断探索,现实也很酷:大家参与的是去中心化的全球化科学研究,研究成果会在 arXiv 、学术会议和社交媒体上公开分享。
如果我们正在进行如此多重要的研究,为什么有些人认为进展正在放缓?引起人们抱怨的是,最新的两个大模型 Grok 3 和 GPT-4.5 ,在此前的基础上仅取得了微小的改进。一个尤为突出的例子是,在最新的数学奥林匹克考试中,语言模型的得分仅为 5%,这表明最近的声明在报告系统能力时可能被夸大了。
人工智能「四大发明」
如果我们试图记录那些「重大」的突破,那些真正的范式转变,它们似乎正在以不同的速度发生。
1. 深度神经网络:深度神经网络在 2012 年 AlexNet 模型赢得图像识别竞赛后开始起飞;
2. Transformer + 大语言模型:2017 年谷歌在《Attention Is All You Need》中提出了 Transformer,导致了 BERT(谷歌,2018)和原始 GPT(OpenAI,2018)的诞生;
3. RLHF(基于人类反馈的强化学习):据我所知,最早在 OpenAI 2022 年的 InstructGPT 论文中提出;
4. 推理:2024 年 OpenAI 发布了 o1,随后 DeepSeek 发布了 R1。
其实,这四件事(深度神经网络→Transformer 语言模型→RLHF→推理)就概括了 AI 领域发生的一切:我们有了深度神经网络(主要是图像识别系统),然后是文本分类器,然后是聊天机器人,现在我们有了推理模型(不管那是什么)。
假设想要实现第五次这样的突破,研究一下已有的这四个案例可能会有所帮助。
是什么新的研究 idea 导致了这些突破性事件?所有这些突破的基础机制在 1990 年代甚至更早就已存在,这并不荒谬。我们正在应用相对简单的神经网络架构,进行有监督学习(1 和 2)或强化学习(3 和 4)。
交叉熵的有监督学习,即预训练语言模型的主要方式,源自 1940 年代 Claude Shannon 的工作。强化学习是通过强化学习高频训练(RLHF)和推理训练对语言模型进行后期训练的主要方法,它出现得稍微晚一些。它的出现可以追溯到 1992 年策略梯度方法的引入(这些 idea 在 1998 年 Sutton & Barto 出版的《强化学习》教科书第一版时就已经存在了)。
如果 idea 不是新的?那什么是?
这些「重大突破」可以说是我们已知一段时间的东西的新应用。首先,这意味着「下一个重大突破」可能不会来自一个全新的 idea,而是我们已经知道一段时间的东西的重新浮现。
但这里缺失一个部分 —— 这四次突破中的每一次都使我们能够从新的数据源学习:
1. AlexNet 及其后续工作解锁了 ImageNet,一个大型的分类标签图像数据库,推动了计算机视觉十五年来的进步 ;
2. Transformer 解锁了在「互联网」上的训练,以及下载、分类和解析网络上所有文本的竞赛(现在看来我们大部分已经完成);
3. RLHF 让我们可以从表明什么是「好文本」的人类标签中学习(主要是一种感觉);
4. 推理似乎让我们从「验证器」中学习,比如计算器和编译器,它们可以评估语言模型的输出。
提醒自己,这些里程碑中的每一个都标志着各自的数据源(ImageNet、网络、人类、验证器)首次大规模使用。每个里程碑之后都紧随着一阵疯狂的活动:研究人员竞争 (a) 从任何可用来源汲取剩余的有用数据和 (b) 通过新技巧更好地利用已有数据,使我们的系统更高效、对数据需求更少。
预计我们将在 2025 年和 2026 年看到这种趋势在推理模型中出现,因为研究人员正竞相寻找、分类和验证一切可能被验证的东西。
研究者创建了 ImageNet (当时最大的网络公共图像集),人工智能的进步可能是不可避免的。
新 idea 有多重要?
在这些情况下,我们实际的技术创新可能不会产生巨大差异,这一点值得一提。检视一下反事实。如果我们没有发明 AlexNet,也许另一种能处理 ImageNet 的架构会出现。如果我们从未发现 Transformer,也许我们会采用 LSTM 或 SSM,或者找到其他全新的方式来从我们在网络上可用的大量有用训练数据中学习。
这与一些人认为「除了数据之外什么都不重要」的理论一致。一些研究人员观察到,对于我们所做的所有训练技术、建模技巧和超参数调整,总体上产生最大差异的是改变数据。
一个有趣的例子是,一些研究人员致力于使用 Transformer 以外的架构开发一种新的类 BERT 模型。他们花了大约一年时间以数百种不同方式调整架构,并设法创造出一种不同类型的模型(这是一种状态空间模型或 SSM),当在相同数据上训练时,其性能与原始 Transformer 大致相当。
这一发现的等价性真正深刻,因为它暗示了我们可能从给定数据集中学习到的东西有一个上限。世界上所有的训练技巧和模型升级都无法绕过这个冷酷的事实,即从给定的数据集中只能学到这么多。
也许,对新 idea 的漠不关心就是我们应该从《苦涩的教训》中得到的。如果数据是唯一重要的东西,为什么 95% 的人都在研究新方法?
下一个范式转变从何而来? 会是 YouTube 吗?
显而易见的结论是,我们的下一个范式转变不会来自强化学习的改进或一种奇特的新型神经网络,而是会出现在我们解锁以前未曾访问或未能适当利用的数据源时。
许多人正在努力利用的一个明显信息源是视频。根据网络上的一个随机网站,每分钟约有 500 小时的视频上传到 YouTube。这是一个荒谬的数据量,比整个互联网上可用的文本多得多。它也可能是一个更丰富的信息源,因为视频不仅包含单词,还包含它们背后的语调以及关于物理和文化的丰富信息,这些都无法从文本中获得。
可以肯定地说,一旦我们的模型足够高效,或者我们的计算机变得足够强大,谷歌就会开始在 YouTube 上训练模型。毕竟,他们拥有这个平台;不利用这些数据为自己谋利将是愚蠢的。
AI 下一个「范式」的最后一个竞争者是某种具身化的数据收集系统 —— 或者,用普通人的话来说,机器人。目前,我们无法以适合在 GPU 上训练大型模型的方式从摄像头和传感器收集和处理信息。如果我们能够构建更智能的传感器或扩展我们的计算机直到它们能够轻松处理来自机器人的大量数据涌入,我们可能能够以有益的方式使用这些数据。
很难说 YouTube、机器人还是其他什么东西将成为 AI 的下一个大事件。我们现在似乎深深扎根于语言模型阵营,但我们似乎也很快就会用尽语言数据。
但如果我们想在 AI 方面取得进步,也许我们应该停止寻找新想法,开始寻找新数据!
原文链接:https://substack.com/home/post/p-160974493
声明:本文转载自机器之心,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。

游客
- 鸟过留鸣,人过留评。
- 和谐社区,和谐点评。