LeCun新作反杀AGI派!AI连「鸟」都搞不懂,拿什么超越人类?

2025-06-02 发布 · 浏览46次 · 点赞0次 · 收藏0次

【导读】LLM根本不会思考!LeCun团队新作直接戳破了大模型神话。最新实验揭示了,AI仅在粗糙分类任务表现优秀,却在精细任务中彻底失灵。

LLM真的可以像人类一样「思考」了?

图灵奖得主Yann LeCun联手斯坦福团队最新论文,狠狠打脸了LLM类人的神话。


论文链接:https://arxiv.org/abs/2505.17117

一直以来,LeCun认为,大模型就是随机鹦鹉,它们的智力甚至连阿猫阿狗都不如。


实验惊喜地发现,针对「鸟类」、「家具」这种粗分类任务,LLM表现远超「随机猜测」。

然而,它们在精细语义任务中,却栽了个大跟头。

还是同样的例子,人类一眼就能看出「知更鸟」比「企鹅」更像鸟类,这是因为知更鸟会飞、会唱歌,符合「鸟」的典型特征。

对于LLM,它们完全抓瞎,压根儿就分不清这种差异。


究其原因,LLM的内部概念结构和人类直觉,有着根本性错位。也就是说,它们可能知道「鸟」这个词,却理解不了「鸟」的深层含义。

那么,为什么LLM会有这种缺陷?

通过信息论框架,LeCun团队发现了惊人的事实:

LLM追求的是极致的统计压缩,而人类追求适应性语义丰富。


人类语言通过结构所定义的范畴或许因语言而异,但这些范畴最终都映射至一个共通的认知空间——这既代表着人类共同的精神遗产,亦勾勒出心智世界的地理图谱

在铺开具体实验细节之前,先来看看研究的核心亮点。

LLM类人思考?大错特错

大模型真的像人类一样,形成「概念」和「意义」吗?

还是,它们只是对海量文本的模式进行复杂拟合,根本不懂意义?

针对这些疑问,研究人员引入了一套经典的「心理学实验数据」。

不同于网友随手投票,这些数据是数十年来的严谨、可靠的科学实验成果,来自认知科学领域的黄金标准。

比如,如何判断什么是「鸟」、什么是「家具」等。

实验中,研究团队测试了30多个大模型,包括BERT、LLaMA、Gemma、Phi、Qwen以及Mistral等6大算法家族,让它们来「理解」这些数据。


这里,他们使用了两个关键指标的权衡:

·压缩能力:模型能多高效地「组织」信息?

·意义保留:压缩之后,还能留下多少语义细节?


那LLM结果如何?

三大关键发现

团队通过分析多个不同LLM的token嵌入,并将其与经典的人类分类基准进行对比,得出了3大关键发现。

发现1:LLM有点像人

大语言模型确实能建立与人类一致的概念分类,而且表现显著高于随机水平。


图1:LLM生成的聚类结果与人类概念分类呈显著一致性

图1中展示的是人类分类与LLM嵌入聚类之间的调整互信息(AMI)得分,横轴为模型大小。

结果取自三个心理学数据集的平均值。所有模型的表现都明显优于随机聚类。

LLM生成的聚类结果与人类定义的概念类别显著吻合,这表明,模型捕捉到了人类概念组织的关键特征

意外惊喜:小模型BERT竟然比超大模型表现更好这说明一个问题:模型不一定越大越聪明

这一现象揭示除规模因素外,还有其他变量会影响类人化的范畴抽象能力。

这些发现证实,LLM能够从其嵌入表示中还原出与人类认知相似的宽泛范畴,从而为更深层次的比较分析提供了依据。

然而,这种表面上的类人能力仅限于概念范畴的粗略划分。

进一步深入分析,发现真相并不简单。

发现2:精细语义的「滑铁卢」

在处理细粒度语义时,LLM明显吃力。

虽然LLM能有效构建宏观概念范畴,但其内部表征与人类感知的细粒度语义区分,如item典型性、与类别原型的心理距离等,仅保持有限的一致性。

这表明LLM与人类在概念内部的信息组织方式上,存在本质差异。


原文图5:LLM嵌入距离与人类典型性判断之间的相关性

比如——它们知道麻雀企鹅都是鸟,但没法理解:相比企鹅,麻雀是更「典型」的鸟


模型内部的概念结构,和人类的直觉不在一个频道上

在LLM中,item嵌入与其类别标签嵌入的相似性驱动因素,可能与人类典型性依赖的丰富多维标准,如感知属性、功能角色不同。

因此,LLM可能倾向于捕捉与类别标签更统计均匀的关联,从而低估了人类概念中以原型为中心的渐进性质。

更重要的是,这一偏差不仅体现在具体的典型性判断中,更在于LLM与人类在信息组织方式上的根本差异。

发现3:存在本质差异

LLM和人类大脑,优化的目标根本不是同一个

·LLM追求极致压缩,尽量减少冗余

·人类追求丰富灵活,坚持保留上下文与适应性


本质不同,注定思维方式不会一样。

这些发现揭示了当前人工智能与人类认知体系之间的重要差异,为构建更加贴近人类概念表征的LLM提供了方向。

这解释了为什么LLM既能展现出令人惊叹的能力,同时又错过了一些显而易见的拟人类式推理。

它们并没有出问题——

只是它们优化的是模式匹配,而不是人类使用的丰富、利用上下文的理解。

这意味着:

·目前Scaling可能无法实现类似人类的理解能力

·大家需要找到更好的方法,在压缩信息和保留语义丰富性之间取得平衡

·实现通用人工智能(AGI)可能需要重新思考当前的优化目标

简单来说,大模型就像是一台超级压缩机,拼命地把信息压缩,以消除冗余,追求最高效的模式匹配。

这让它们在处理大量数据时表现惊艳,但也丢掉了人类认知的精髓——

那些模糊的、语境化的、充满细微差别的意义。

还以之前的分类举例,人类会因为「知更鸟在树上唱歌」的画面强化「鸟」这一概念,而大模型只会冷冰冰地计算单词的统计概率。

这并不是LLM的「故障」,而是它们被设计成了「模式匹配的机器」。

接下来,具体看下实验的实施细节。

三大核心问题

概念是人类认知的核心支柱,能让人高效理解信息,从稀疏数据中进行类推,并实现丰富的交流。

若LLM希望超越表面模仿,迈向更接近人类的理解方式,就必须深入研究它们的内部表征是如何权衡「信息压缩」与「语义保真」。

已有研究探索了LLM中的概念结构,提供了有益的视角,但大多缺乏一种基于信息论的方法,来定量地比较LLM与人类在「压缩与语义」的权衡上的表现。

而且「概念」的定义也没有得到公认的认知理论支持。

因此,关于LLM与人类在表达效率与语义保真度之间如何权衡的严谨比较仍然是一个亟待解决的问题。

另一方面,认知科学领域也曾将信息论应用于人类概念学习的研究中,但这些工作通常未与现代AI模型建立联系。

这次新研究的目标正是要填补这一空白,将认知心理学、信息论与现代自然语言处理结合起来

为此,他们提出三大核心研究问题作为研究的主线:

[RQ1]:LLM中涌现出的概念,在多大程度上与人类定义的概念类别相一致?

[RQ2]:在人类与LLM中,这些概念是否展现出相似的内部几何结构,尤其是在典型性方面?

[RQ3]:在人类与LLM的概念形成过程中,各自是如何权衡表示压缩与语义保真的?



这三个问统一在信息论分析框架下进行探讨:

RQ1从宏观层面对比LLM和人类在概念分类上的对齐情况,这是信息压缩的关键表现;

RQ2深入到这些类别的内部结构,分析诸如「词条典型性」等语义细节的保留程度;

在此基础上,RQ3利用完整的信息论框架,全面比较LLM与人类在压缩与语义之间的优化策略是否存在根本差异。

统一框架:信息论分析

借鉴了率失真理论(Rate-Distortion Theory,RDT)信息瓶颈原理(Information Bottleneck,IB)的核心思想,研究团队从统一的信息论视角深入探讨研究中的三大核心问题。

研究首先从表示的紧凑性与语义保留这两个方面入手,逐步展开分析,最终综合这些见解来评估概念表示的整体效率。

结合信息论的视角,三大研究问题按如下方式展开

[RQ1]通过类别对齐探究表示的紧凑性:首先关注信息如何被压缩成类别结构。

无论是人类的分类方式,还是LLM生成的聚类方法,都是将多样的元素X简化成有组织的类别C。

针对RQ1,通过衡量模型聚类(CLLM)与人类分类(CHuman)之间的信息重合程度(如使用调整互信息等指标),评估两者在压缩信息时的一致性。这一部分主要对应框架中的「复杂性」维度,即输入信息的高效表示能力。

[RQ2]通过内部结构探究语义的保留:接下来考察在压缩后的表示中,意义是否仍然被准确保留

有效的系统应能维持重要的语义细节。

为研究RQ2,研究团队对比了LLM内部用于衡量元素中心性的指标与人类对典型性的判断,考察模型是否能捕捉到人类分类(CHuman)中的细致语义结构。这部分对应的是框架中的「失真」(或语义保真度)维度。

[RQ3]评估整体表示效率中的权衡关系:在探讨了紧凑性和语义保留之后,研究团队将整个框架整合起来。

针对RQ3,研究团队使用统一的目标函数L(将在后文详细说明),定量评估LLM与人类在应对信息权衡问题时的效率。

理论基础:率失真理论+信息瓶颈

为了严格形式化「表示紧凑性」与「语义保留」之间的平衡关系,信息论提供了一些理论工具。

其中,率失真理论(Rate-DistortionTheory,RDT)提供了基本框架。

RDT用来衡量在允许最大「失真」D(即语义损失)的前提下,将信息源X表示为C所需的最小「比率」R(即表示复杂度)。

其目标通常是优化R+λD代价函数,从而对表示效率进行系统评估。

另一个相关理论是信息瓶颈原理(Information Bottleneck,IB)

IB方法试图从输入X中提取一个压缩表示C,该表示在保留尽可能多关于相关变量Y的信息的同时,最小化C与X之间的互信息I(X;C)——也就是压缩带来的「代价」。

这个过程通常被形式化为最小化I(X;C)−βI(C;Y)。

分析框架直接借鉴了RDT中「率失真权衡」的核心思想,构建了一个明确表达该权衡的目标函数L


率失真曲线的例子

目标函数:复杂性与语义失真之平衡

在信息论的分析框架下,目标函数用于评估由原始词项集合X(如词嵌入)所派生的概念类簇C的表示效率:

其中,β≥0是一个超参数,用于平衡这两个部分在整体目标中的相对重要性。

这个函数提供了一个统一而严谨的度量方式,用于评估某个类簇方案C在信息压缩与语义保留之间的权衡效果,是解答RQ3的核心工具。

信息论框架要具备完整的工具集,还需要定两个关键部分:

(1)复杂性项,对应RDT中的「比率」,用于量化将原始项X表示为类簇C所需的信息成本,表示的紧凑程度(RQ1);

(2)失真项,对应RDT中的「失真」,用于衡量在这一类簇结构中所丢失或模糊的语义信息,衡量语义保留的程度(RQ2)。

与IB原理中的思想一致,复杂性项采用互信息I(X;C)。

但在失真项上有所不同,研究者采用的是类簇内部的语义方差,即项嵌入相对于类簇中心的离散程度,来直接衡量语义的保真度。

在IB中,「失真」与外部变量Y的相关性绑定不同。与之不同,这次做法是将语义失真作为类簇结构本身的一种内在属性直接计算。

不管是基于人类认知数据还是LLM嵌入构建的类簇结构C,这种直接的方法能够清晰地评估,类簇在保持结构紧凑性和表达原始数据X的语义信息之间,是如何实现平衡的。

下面将框架中的两个核心组成部分:复杂性(Complexity)失真(Distortion)

复杂性项

第一个部分是Complexity(X,C),衡量的是将原始项X表示为类簇C所需的信息成本或复杂程度。

具体地,它通过项与其类簇标签之间的互信息I(X;C)来衡量。

互信息越小,代表压缩效果越好,也就是说,用类簇标签C表示项X所需的信息越少。

定义如下:


因此,复杂性项可以表示为:


该项正是用于量化RQ1中所关注的「表示紧凑性」。

失真项

第二个部分是Distortion(X,C),用于衡量将项归入类簇时所损失的语义精度。

项嵌入在类簇内的平均方差来反映了语义精度损失,即类簇内的项与中心之间的距离越小,说明语义保留得越好,类簇越具有语义一致性。

对每个类簇c∈C,先计算其质心(中心点):


再类簇内部的方差:


最后,总的失真值定义为:

失真越小,说明类簇中的项越集中在其语义中心,语义信息保留越好,直接关联于RQ2中提出的语义保留问题。

实证研究

为了回答核心研究问题,研究者精心准备了基准数据集。

之后,在基准数据集和统一架构下,研究人员比较LLM与人类在概念策略差异。

数据集

自认知心理学中的经典研究,深入揭示了人类的概念形成过程,提供了丰富的实证数据,说明人类如何进行分类判断、如何评估类别成员归属感以及如何感知「典型性」。

与许多现代众包数据集相比,这些经典数据集经过认知科学专家的精心设计与筛选,更能反映人类深层次的认知模式,而非表面上的联想关系。

它们基于当时正在发展中的概念结构理论,具有高度理论指导意义。

研究团队特别选取了来自不同小组的三项深远影响的研究。




左右滑动查看

它们都采用了严谨的实验设计,并提供了关于类别分配和典型性的重要数据。

这次研究整合了这些数据,构建了统一的基准数据集,覆盖34个类别,共1049个item

[RQ1]评估概念对齐性

为探究LLM所生成的概念类别与人类定义的类别之间的对齐程度(对应RQ1,即表示紧凑性的考察),研究人员对LLM的token嵌入进行k-means聚类

聚类数量K由每个数据集中人类类别的数量决定。

以下指标用于衡量LLM类别与人类类别之间的一致性,并与随机聚类作为基线进行比较:

  • 调整互信息(AMI)

  • 归一化互信息(NMI)

  • 调整兰德指数(ARI

这些指标用于量化模型在压缩信息的同时,是否以与人类相似的方式组织类别。

[RQ2]分析类簇内部几何结构与语义保留

为了评估LLM表示是否能捕捉到人类所体现的「典型性」特征(对应RQ2,即语义保真度的衡量),

研究团队分析类别内部的几何结构:

  • 对每个item,计算其词元嵌入与其对应的人类定义类别名的词元嵌入之间的余弦相似度(例如,「robin」与「bird」)。

  • 然后,将这些LLM计算得到的相似度,与来自认知科学数据集的人类「典型性评分」进行相关性分析(采用Spearman等级相关系数ρ)。

该方法用于检验LLM能否捕捉人类在语义类别中对「更具代表性」成员的判断。

[RQ3]评估压缩与语义之间的整体权衡效率

为了评估LLM与人类在压缩信息与语义保留之间的整体平衡(对应RQ3),研究团队使用第4节中提出的目标函数L(β=1),分别对人类与LLM的概念结构进行计算。

  • LLM的类簇结构由多种K值下的k-means聚类结果构成;

  • 对比分析其复杂性项I(X;C)与失真项之间的权衡。

此外,他们还将类簇熵作为紧凑性(压缩能力)的辅助度量标准。

为保证稳健性,所有k-means聚类均进行100次随机初始化,并取结果平均值。

有关具体的细节和更多参考内容,请参阅原文。

参考资料:

https://x.com/ziv_ravid/status/1928118792803987636

https://arxiv.org/pdf/2505.17117

LeCun新作反杀AGI派!AI连「鸟」都搞不懂,拿什么超越人类? - AI 资讯 - 资讯 - AI 中文社区

声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它能得到比较好的回应。
评论

游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。