Bengio推AGI「高考」,GPT-5单项0分
【导读】GPT-5算不算AGI?AGI到底来没来?如来!面对各说各话的局面,我们迫切需要一个图灵测试式的权威标准来定义AGI。独立第三方非营利性AI研究机构,同时也是主流LLM评测标准HLE(Humanity's Last Exam,人类的最后考试)的提出者,AI安全中心(Center for AI Safety)的Dan Hendrycks和Yoshua Bengio等一众顶尖AI学者,于昨天发布了论文《A Definition of AGI》,给出了他们对AGI的定义,试图让AI研究机构和公众厘清通往AGI的真正方向。
在Yoshua Bengio和Dan Hendrycks等一众顶尖AI学者提出的AGI新检验标准中,GPT-5在长期记忆存储这一项中斩获0分!
GPT-5总分也仅有58分,目前仍处于挂科状态,未通过这场AGI测试。
长期以来,AGI(通用人工智能)这个词就像个不断移动的靶子,每当AI攻克一项过去被认为需要人类智慧的任务,我们就会把AGI的标准推得更远。
这导致关于「我们离AGI还有多远」的讨论经常各说各话、难有定论。
为了解决这个问题,Yoshua Bengio和Dan Hendrycks等研究者于昨日公开论文《A Definition of AGI》,在论文中提出了一个清晰且可量化的AGI定义。
他们对AGI的定义是:
AGI是一种在认知的通用性和熟练程度上能够与受过良好教育的成年人相当,甚至超越他们的AI。
AGI is an AI that can match or exceed the cognitive versatility and proficiency of a well-educated adult.
也就是说,AGI不光要在某一两个领域表现出色,而是要像人类一样全面发展,既有广博的知识,又能熟练运用各种技能,具备处理各种任务的能力。
这个定义的意义在于,它为AGI设定了一个清晰可测的目标。
过去大家对AGI的理解比较模糊,而现在有了一个具体标准:让AI去匹配人类认知能力的广度和深度。
研究者认为,有了明确的定义,关于AGI的讨论将更聚焦,也更容易判断当前AI距离真正的AGI还有多大差距。
从研究和政策角度来看,这就像给AGI制定了一份考核大纲,可以据此开发评测方法、跟踪进展。
我们不再需要用含糊的感觉去判断AI是否接近AGI,而是可以把「距离AGI还有多少分」量化出来。
这正是该论文的一大亮点:提出了AGI的量化评估框架。
基于CHC理论的AGI定义
与十项认知能力
那么,如何具体衡量AI是否达到了一个「受过良好教育的成年人」的智力水平呢?
作者借鉴了人类心理学中的Cattell-Horn-Carroll(CHC)认知能力理论,搭建了一个评估AGI的框架。
CHC理论是目前实证最充分的人类智力模型,它把人类的认知能力划分为多个层级和类别。
简单来说,人类的「智力」并不是单一的,而是由许多相对独立的认知能力组成的,比如记忆力、推理能力、语言理解、感知速度等等。
CHC理论经过一个多世纪的心理测量研究发展,提炼出了一系列「广义能力」以及其下的众多「狭义能力」。
几乎所有主流的人类智力测验都不同程度地采用了CHC框架来设计。
因此,作者认为,用CHC理论来定义和测试AI的智力水平,是一个既科学又系统的方法:相当于把AI放到人类智力测评的跑道上,看它各方面跑得怎么样。
基于CHC模型,作者将一般智能拆解为十个核心认知领域。
可以把这十项广义能力看作人类认知的主要维度,每个维度都对应着我们大脑擅长的一类任务。
下面我们依次介绍这十项核心认知能力,以及各自包含的含义,并结合日常类比来帮助理解:
常识与知识(General Knowledge, K):指对世界广泛的事实性理解,包括常识、文化、科学、社会和历史等各方面的知识。
举例来说,知道水往低处流、电闪雷鸣是怎么回事,或者明白拿破仑是谁、DNA的结构是什么,都属于常识性知识的范围。
如果把AI比作学生,这部分能力就是它的「课本知识」和「百科全书」储备。
读写能力(Reading & Writing, RW):指理解书面语言并产生书面语言的能力。这涵盖了从识字、阅读理解到写作表达等各个层次。
这相当于一个人的语文水平,例如阅读一篇文章后能领会大意,或者写一段通顺、有条理的文字。
对AI来说,这意味着能看懂给它的文本指令或资料,并且能用恰当的文字回答问题、写文章等。在日常比喻中,这项能力就是AI的「语文功底」。
数学能力(Mathematical Ability, M):指对数学知识和技能的掌握,包括算术、代数、几何、概率、微积分等。
这相当于人类的数学水平,比如心算、解方程、理解统计概率等等。
拥有这项能力的AI,应该像一个数学健将,能快速正确地解决数学问题。
临场推理(On-the-Spot Reasoning, R):这是解决新问题的灵活推理能力。
也称为「现场」或「即时」推理,有点类似于心理学中的流体智力(指个体在没有依赖既有知识和经验的情况下,进行逻辑推理、抽象思考和解决新问题的能力)。
它体现为在没有现成答案可套用的情况下,调动逻辑和注意力去推断新问题。
比如看到一个没见过的谜题,能够举一反三地想出解决办法,或者根据几条线索演绎/归纳出结论。
工作记忆(Working Memory, WM):指在脑海中暂时存储和操作信息的能力。
这就好比人脑的「即时缓存」或黑板,我们用它来暂存刚看/听到的信息,并对其进行心算、排序、比较等实时加工。
例如我们在人脑中计算37+48,会先记下中间结果,这是工作记忆在起作用。
对AI来说,工作记忆体现为在交互过程中保留上下文和动态信息的本领。
类比来说,工作记忆好的AI就像脑子里有更大的便签本,能同时记住好几件事并处理;
而工作记忆差,就容易「短路」,前一句话还没捋明白,后一句就忘了前文是什么。
长期记忆存储(Long-Term Memory Storage, MS):指持续学习新信息并长期保留的能力。
这对应人类的记性和学习能力,比如你今天学了一个新单词,过几天还能想起来,这就是长期记忆存储在发挥作用。
一个具有长期记忆能力的AI,应当可以在与人互动的过程中不断积累知识,就像人类可以通过日积月累成为专家一样。
而目前的大多数AI模型在这方面相当于「健忘症」患者:它们只能在训练阶段摄取知识,部署后基本无法自主记忆新事物。
所以这一项能力对现有AI来说几乎是空白,也因此作者强调长期记忆能力是通往AGI的一大瓶颈。
长期记忆提取(Long-Term Memory Retrieval, MR):指高效准确地从记忆中检索信息的能力。
这就像人的回忆本领,脑子里存了很多知识,但能不能在需要时快速准确地想起来,也是一门功夫。
如果把AI的大型预训练模型比作浩如烟海的资料库,那么检索能力就是从中快速找出正确答案而不张冠李戴的本领。
比如,一个强大的检索能力意味着AI不容易胡编乱造(出现幻觉),问它一个有准确答案的问题时,它能从「记忆库」里准确认出答案来。
反之,检索不可靠的AI就像记忆仓库里虽然啥都有,却常常拿错档案。
视觉处理(Visual Processing, V):指感知、分析和创造视觉信息的能力。
人类有很强的视觉技能,比如认人识物、看图表理解空间关系等等。
对于AI,视觉处理能力意味着它能像人一样「看」并理解图像或视频内容,甚至凭想象生成有意义的图画。
具备视觉处理的AI,相当于给它装上了慧眼,它能通过摄像头/图像输入认识这个世界的模样。
举个例子,如果给AI看一张热闹的街景照片,它能描述出「照片里有许多人在市场上买东西」,或者你让它画一只紫色的猫,它能生成相应的图像。
这种视觉智能对于让AI在物理世界或数字环境中导航、操作至关重要。
听觉处理(Auditory Processing, A):指辨别、理解和创造声音信息的能力。
在人类,这包括听音辨词、欣赏音乐、分辨声音来源等等。
本质上,这是AI的「耳朵」和「声音大脑」,能否听懂别人说的话、听出声音模式,或者合成自然的语音。
如果AI具备听觉处理能力,它就能把语音转换成文字(语音识别)、听音乐找出旋律节奏,甚至自己「开口说话」(语音合成)并让人类听起来舒服自然。
举例来说,给AI一段口述,它能准确转录成文字;或者让AI听一段旋律哼唱,它能判断这是哪首歌。
听觉处理让AI在声音的世界里如鱼得水。
思维速度(Processing Speed, S):指快速完成简单认知任务的能力。
可以理解为大脑的处理速度和反应时。
在人类测试中,常通过一些限时任务来测量这个能力,比如要求受测者在短时间内划掉文本中出现的特定字母、或者比大小、反应灯亮按键等。
思维速度快的AI,就好比脑子转得快,在简单任务上反应迅捷、不拖泥带水。
例如扫描一段文字里有没有某个关键词,或者在几幅图里迅速找出不同之处等。
如果一个AI的思维速度跟不上,它在与人互动或处理实时任务时可能显得迟缓。
以上这十项,就是作者框架下衡量AGI所需的十大认知能力。
可以看到,这套能力清单涵盖了知识、语言、数学、推理、记忆、感知和速度等各个方面,力求全面模拟人类智力结构。
每个大类下还有更具体的子能力(例如推理下细分为演绎、归纳等),但论文主要聚焦在这十个「广度」维度上,每个维度在总评分中各占10%权重。
这样设计是为了强调「通用性」的重要:AGI需要各科均衡,不能一条腿粗一条腿细。
所以在这个评估体系中,如果某AI在某个维度上完全达不到人类水平,那它拿到的AGI总分就一定不会高。
GPT-4与GPT-5的能力评分对比
有了上述这份「认知能力清单」,作者就像给AI安排了一场综合性智力测验。
他们选取了OpenAI的GPT-4和GPT-5作为被试,逐项测评这两代模型在各能力上的表现。
测试的方法并非简单跑几个通用基准,而是针对每项能力设计/选取了特定的子测试。
这些子测试很多借鉴自人类智力测验的题目,比如用记忆测试来检查AI的工作记忆,用数学题考查数学能力,用听写和阅读理解考查语言能力,等等。
通过这样的方式,力求让AI真刀真枪地展示每项认知本领。
测试结果汇总后,作者给出了GPT-4和GPT-5的「成绩单」——也就是在每个能力维度上的得分,以及总的AGI分数。
每个能力满分为10分(对应人类成年水平的100%),十项满分总计100。
结果发现,GPT-4总分为27,GPT-5为58。
最终结果的呈现形式是一个雷达图:GPT-4的图谱整体面积小得多,GPT-5则大了不少,但二者的形状都极其不规则,凸显出明显的短板长板。
正如作者所言,这张图清楚展示了当前AI模型「参差不齐」的智力结构。
下面我们结合具体科目,看一下这两代模型的强项和弱项:
知识(K):在常识和百科知识方面,两代模型都算是「见多识广」。
GPT-4在知识广度上已达到8/10的水平,GPT-5稍有提升接近9/10,这意味着它们拥有的大量训练语料让它们掌握了相当多的事实和常识。
注:总计分数部分满分为10%,因为平分成了十项能力
这一点并不意外,毕竟大语言模型本就是靠大量文本学习来的。
需要明确的一点是,知识问答类任务中模型偶尔会犯常识性错误或幻觉,这属于检索能力的问题,在后面讨论。
读写(RW):语言理解与表达是GPT系列的强项。 GPT-4在这项上得分约6/10,GPT-5则提升到10/10,几乎可以说达到了人类优秀水平。
GPT-5的进步体现在更复杂的阅读理解和更连贯的文本生成上,相当于语文功底从良好跃升到优秀。
这意味着GPT-5已经能非常出色地理解文章、回答问题、写作段落,几乎媲美专业作者。
当然,这里的评价主要针对语义理解和生成的准确性、连贯性,并不代表它有创造力或真正「理解」文章含义,只能说在表面语言任务上已经炉火纯青。
数学(M):数学推理一直是GPT-4的弱项之一,它的得分仅4/10,表现出对复杂数学问题的吃力。
而GPT-5在数学能力上有了巨大飞跃,达到了10/10。
GPT-5已经能够很好地解决各类数学题,包括算术、代数甚至微积分等。
这仿佛是从一个勉强及格的数学学生,一跃成为「数学满分」。
作者没有详述GPT-5为何数学进步如此明显,但我们可以猜测可能引入了新的训练方法或专门的算术模块。
GPT-5如今在数学考试中几乎满分答卷,这对很多依赖数学推理的任务(如工程计算、数据分析)是一大提升。
推理(R):这里指临场推理(流体智力)。
GPT-4在这项上几乎挂零(0/10),表现出对全新问题缺乏灵活解题的能力。
这也佐证了许多人对GPT-4的印象:它善于基于学过的样本模式回答问题,但如果问题需要真正全新的推理步骤,它常常无从下手。
而GPT-5在这一项上取得了一定突破,得分约7/10。
这意味着GPT-5引入了一些「思考」能力,能在一定程度上通过多步推理、逻辑链条来解决新问题。
GPT-5在解一些逻辑谜题、数学应用题时表现得更好了,能够分步骤推导结论。
当然7/10离满分还有差距,说明它仍然容易在非常复杂的新颖推理任务上犯错,但相比GPT-4的惨不忍睹,已经是质的飞跃。
工作记忆(WM):GPT-4在工作记忆上的得分只有2/10。
我们已经知道,工作记忆关乎模型在一次对话或任务中能处理多长的上下文、不丢失信息。
GPT-4有大约8K到32K字的上下文窗口,这给它一些「短期记忆」,但显然仍有限。
而GPT-5的工作记忆得分提升到5/10。
推测GPT-5可能扩大了上下文窗口或改进了保持多项信息的能力(比如更好地跟踪对话中的多个人名、时间线等)。
5分仍只是中等,但意味着GPT-5在长对话、复杂任务时比前代更不容易「断片」了。
让它阅读一篇较长文章然后回答细节问题,GPT-5出错的概率比GPT-4降低,因为它能「记住」更多细节在脑中。
同时也说明,它距离人类那种自如地在脑中同时记忆和处理多项信息的状态还有很大差距。
长期记忆存储(MS):令人遗憾但不意外的是,这一项GPT-4和GPT-5都是0/10。
也就是说,现有这些GPT模型几乎没有自主累积新长期记忆的能力。
它们的大脑在训练结束后基本就是固定的,聊天过程中学到的新信息不会真正「存入」长期记忆。
当对话结束或上下文清除后,它们相当于又回到出厂状态,不会记得你上次告诉它的事实。
作者强调这是当前AI与人类智能的最大鸿沟之一:没有持续学习的能力,就谈不上真正的智能进化。
这一结果也在意料之中,因为目前主流的大语言模型架构并未集成一个随时间更新记忆的机制。
虽然有些研究在尝试引入外部数据库或增量学习模块,但就GPT-5来看,这块仍是空白。
所以两代模型在「学新知识」这件事上跟鱼的记忆差不多(神经网络参数不更新就不会有新长期记忆)。
长期记忆提取(MR):在检索已有知识方面,GPT-4得分4/10,GPT-5同样4/10。
这说明即使拥有庞大的训练语料,模型在准确回忆方面还是不够可靠。
经常出现的张冠李戴或者幻觉,就是因为检索机制不完善。
GPT-5并没有比GPT-4在这上面明显改进,依赖外部工具查证(如联网搜索)依然有必要。
作者提到,业界常用的RAG(检索增强生成)技术,其实就是在弥补模型检索能力的不足——相当于考场上临时查阅资料以防答错。
但这也从反面强调了模型内在记忆检索能力的短板。
换句话说,目前GPT模型脑子里即便存了大量知识,但自己翻书找答案的能力很有限,经常是翻错章节或者胡编一段交卷。
视觉处理(V):GPT-4本身是一个以文本为主的模型,虽然有多模态版本(GPT-4V)能看图,但整体视觉能力在评估中记为0/10。
GPT-5具备了一定视觉功能,得分4/10。
4分意味着GPT-5在图像识别、视觉推理等方面有了一定基本功,但还远远不完整。
比如,它也许可回答一些图片内容的问题,或者简单生成/编辑图像,但复杂的视觉任务(如详细图像描述、视频理解)仍难胜任,和人类相比依然是「睁眼瞎」的水平。
听觉处理(A):GPT-4几乎不具备纯粹的听觉处理能力(除非接语音识别前端,但模型本身不会「听」),所以是0/10。
GPT-5给这一项打出了6/10。
这表示GPT-5已经学会听和说的一部分本领,可能体现在它能接受语音输入并转写文本,或者生成较为自然的语音回答,甚至对一些音频模式有所理解。
6分说明GPT-5的听觉能力已有长足进步,例如可以听一句话判断说的是什么,或者根据要求合成某种声调的语音。
但这离人类水平还有差距,比如对音乐的理解、复杂噪音环境下的语音识别等,它可能还做不到。
这一进步让GPT-5在多模态交互上更上一层楼,能用耳朵获取信息、用嘴巴输出信息了,这对于打造像真人一样的AI助理很重要。
思维速度(S):在反应速度方面,两代模型都是3/10左右。
这个结果可能看上去奇怪:AI在计算机上跑,不是速度应该很快吗?
这里的「速度」更多指认知反应速度,包括处理简单任务的即时性。
GPT模型因为受限于推理步骤和生成速度,在某些简单任务上反而不如人类迅捷。
比如,让GPT-4快速找出一段文本里所有含字母「e」的单词,人类可能一扫而过几秒就找到,但GPT需要一字一字处理未必更快。
而GPT-5的速度得分同样有限,表明在及时反应、实时操作上AI还没有优势。
当然,这里也可能受测试设置影响,比如人工还有视觉直观优势。
目前AI在即时细微反应(如点击、比对)的任务上表现平平,不像在知识问答上那样厉害。
综合来看,这份成绩单清晰地告诉我们,GPT-4和GPT-5在智力结构上都很不均衡。
GPT-4擅长的主要是语言和知识方面,但严重欠缺推理和感知;
GPT-5虽然补上了不少推理、视觉、听觉的短板,但仍有硬伤(尤其是记忆存储),整体尚未达到人类平均水平的58%。
这和人类的认知曲线形成鲜明对比:人类成年人的这十项能力通常相对均衡,很少出现某项为零的情况(除非有感官或认知障碍)。
所以,用一个形象的比喻:当前的AI像是「偏科状元」,在某些科目上考了满分,另一些科目却交了白卷;而真正的AGI则应该像一个全面发展的优等生,各科都达标且没有致命短板。
智力参差不齐
能力扭曲现象与AI瓶颈
通过上述评估,作者绘制的AI能力图谱可谓高低起伏、凹凸不平。
这种「锯齿状」的智力曲线凸显了当前AI的局限,也揭示出一个令人警惕的现象:能力扭曲(Capability Contortion)。
所谓能力扭曲,可以打个比方:当AI在某些方面特别强,而在另一些基础方面特别弱时,它往往会「拆东补西」,试图用强项去弥补弱项,从而表现出貌似全面的能力。
然而,这种补偿策略其实是对系统能力的一种扭曲和掩盖。
它可能暂时让AI看起来什么都会一点,但底层的短板并未真正解决,整个系统因此变得脆弱且充满假象。
作者在论文中点出了当前大模型出现的两大典型「能力扭曲」案例:
用工作记忆代替长期记忆:
因为GPT模型没有真正的长期记忆模块,开发者只能不断扩大上下文窗口(即工作记忆容量)来让模型「记住」更多信息。
比如,给GPT-4加入长达数万字的上下文,使其能够在一次对话中保留大量之前提到的内容,甚至整本书或全部代码。
这种做法就像让一个记性差的学生考试时狂看小抄:他不是真的记住了知识,而是把整本书摊在桌上,需要时赶紧翻找答案。
短期看,好像问题解决了——模型在一次交互中确实能引用更早提到的信息;
但长期看,这非常低效且脆弱:上下文窗口越拉越长,模型处理变慢、计算资源狂增,而且一旦对话结束,所有信息又烟消云散。
这种用「更大的工作记忆」弥补「没有长期记忆」的做法,本质上就是一种能力扭曲。
它掩盖了模型缺乏持续学习能力的弱点,却不能真正取代「把知识学进脑子」这种长期记忆功能。
正如作者所说,这种方法不可能扩展到需要数天、数周上下文的任务中,终究不是长久之计。
用外部搜索代替内部记忆检索:
另一种扭曲是针对模型爱瞎编乱造(记忆检索不准)的弱点。
解决方案往往是在模型回答前接入一个搜索引擎或知识库查询真实资料,简称RAG(检索增强生成)。
这样,模型就不必完全依赖自身记忆,可以像人那样「Google一下」再回答。
这看起来很聪明,但作者指出,这其实是一种双重掩盖。
首先,它掩盖了模型无法可靠访问自身知识的缺陷,参数里存了那么多训练知识,可模型自己却不信任,要借助外脑来确认。
其次,更重要的是,它掩盖了模型缺乏真正动态记忆的事实。
因为无论接多少外部知识库,模型本身不会更新,每次查询到的信息也只是临时使用,无法内化成自己的经验。
就好比一个人做任何决定都要「Google一下」,自己从不积累知识,这样的人称不上真正聪明。
同理,一个高度依赖外部检索而内部记忆一片空白的AI,也算不上真正的AGI。
作者甚至担心,如果未来我们过度依赖这种外接工具的方式,反而延缓了对AI自身记忆系统的研发,让AI始终缺乏一块重要的认知拼图。
通过这些分析,作者是想说明:当前AI之所以在某些复杂任务上看起来还凑合,是因为它的强项遮盖了弱项,出现了所谓「通用性的错觉」。但一旦把强项隔离开或者遇到需要弱项的场景,AI就会原形毕露。
这种「不平衡发展」其实是非常危险的,它让我们高估了AI的泛化能力。
真正的AGI,必须是在各个核心认知模块上都扎实过硬,而不是靠几个超强能力带着几个残疾能力勉强走路。
作者特别强调了长期记忆这个短板,因为它关系到AI能否自主学习和适应。
没有长期记忆,就没有持续成长,AI每次都从零开始重新学习环境和上下文,效率低下且无法积累经验。
这个瓶颈不突破,AGI始终会停留在「被训练好的程序」的层面,而无法进化为「能不断自学的新智能体」。
此外,还有感知能力(视觉、听觉)的短板也限制了AI深入现实世界的潜力。
一个看不见听不着的智能体,很难说是真正的AGI,因为人类的大量认知是通过多模态感知获得的。
综上所述,AI智力参差不齐既是一个客观现状,也是下一步发展的重点攻克方向。
那些在成绩单上亮红灯的科目,就是AI研究的待补课之处。
例如,如何赋予AI持续学习新知识的能力?如何让AI具备内部的知识检索和校正机制,从而减少幻觉?如何提升AI对视觉世界的理解?
这些都是实现AGI路上绕不开的挑战。
能力扭曲现象则提醒我们,不要被AI在某些领域的神奇表现冲昏头脑,它可能只是暂时找了拐杖。
唯有补齐短板,我们才能迎来真正健步如飞的AGI。
AGI挑战与这一框架的意义
通过这篇论文,作者表达了这样一种立场:实现真正的AGI依然任重道远,但现在我们至少有了一把标尺。
他们并不认可那种「GPT-5已经是半个AGI」的乐观论调,因为数据清楚地表明,哪怕是GPT-5,相对于人类水平还有近一半的差距。
而且这差的部分并非刷刷题就能补上,其中涉及AI体系结构上的深层挑战(尤其是持续学习和多模态整合)。
作者呼吁AI研究社区应当正视这些短板,把更多精力放在基础认知能力的提升上,而非只追求在现有基准上堆模型参数、拼数据量。
因为再大的语言模型,如果内存还是0、眼睛还是全盲,也无法迈过AGI的门槛。
同时,这套AGI定义与评估体系本身就提供了指明方向的价值。
对研究者来说,它等于是给出了AI全面发展的KPI。
以后研究者可以对照这十项能力来设计新模型:
比如,我的新模型有没有加入记忆模块?推理能力是否提高?有没有视听输入输出?
这样一来,AI研究就不再是一味追求某个指标的极致,而是全面补齐拼图的工程。
如果业界和学界能够采纳这样的评估框架,那么大家对于「进展」的衡量将更加理性。
当有新模型出来时,不应仅看它在几个基准上超越了前代,还要看它的AGI成绩单是否更均衡。
这样的风向转变,有助于避免陷入狭窄的军备竞赛,而是真正向实现AGI的目标前进。
对于政策制定者和公众而言,这个明确的AGI定义也非常有意义。
过去AGI的概念非常模糊,监管者和社会大众难以讨论AI发展程度,因为缺乏共识标准。现在有了「匹敌一个受教育成年人」这么一个标准,而且还能通过量化测试来评估某个AI离这个标准有多远。
决策者可以据此制定阶段性的目标和规制:
比如,当某AI系统的AGI得分接近80/100时,意味着它快到人类水准了,可能需要特别的审查和安全措施等。
反之,如果某些AI声称自己有多强大,我们也可以要求拿出AGI测试的成绩单来验证,不至于被夸大的宣传误导。
一个客观的标准有助于对齐各方认知,推动负责任的AI发展。
而对于更广泛的公众,也能从这套框架中受益。
它用贴近日常的语言,把AI能力说得明明白白,AI擅长什么、不擅长什么,一目了然。
而且这种划分和测评结果非常有助于科普——当有人再问「AI什么时候能像人一样聪明」时,我们可以回答:「等它考满这十门课,而且别再有挂科的时候。」
这比起空泛地争论「有没有灵性」之类的问题,要具体得多。
可以说,作者为AGI讨论注入了一剂科学理性的强心针,我们不应再神化或妖魔化AGI,而是把它视为一系列可攻克的技术难题,一步步去解决。
当然,作者也承认,他们的定义和框架有其局限。
比如他们侧重的是「智力」本身的能力,而未涵盖身体机能(如机器人操作)或情感社交等方面。
但是这恰恰符合他们的初衷:专注于心智层面的AGI。
毕竟,一个躯体健壮但大脑低幼的机器人,不能算AGI;
反之,一个软件如果在认知上达到人类水平,哪怕没有实体身体,我们依然可以称它为AGI。
身体行动能力可以看作另一个维度,但不在此次定义范围。
还有,他们设定的标准是人类平均受教育成年人的水平,而不是人类所有技能的总和或顶尖专家水平。
这点也很重要:目标是造出「相当于一个普通人」的AI,而不是集合全人类才华于一身的超级智能。
毕竟,对于AGI来说,会人类会的每一样东西到平均水准,就已经足够震撼了。
再往上的ASI,则超出了本文讨论的范畴。
这样的边界划定,避免了不切实际的要求,让AGI成为一个可以努力但不致虚无的目标。
AI的成人礼考试
Dan Hendrycks等人在这篇《A Definition of AGI》论文中为我们描绘了AGI的蓝图和进度表。
测试用的具体问题集也在论文结尾附录中(https://www.agidefinition.ai/paper.pdf),感兴趣的话你可以去看看你能答对多少题,替我们捍卫人类尊严。
这套定义将原本玄乎的AGI拆解成十个实在的能力指标,并用人类标准校准了100分满分。
通过这把标尺,我们清晰地看到当前AI的成绩单:有惊喜的高分,也有明显的缺项;
通过这个框架,我们也明确了补短板的路线:记忆、感知、推理……一项项攻关,最终拼出真正的AGI。
正如作者所比喻的,这是一场「AI的成人礼考试」。
虽然目前的大模型们离及格线尚有距离,但至少我们知道了及格线在哪里、差距有哪些。
接下来,就要看AI研究社区如何共同努力,让这张智力成绩单上的分数节节高升,曲线越来越平滑。
也许终有一天,当那10项能力都点亮100%,我们才能自信地宣布:真正的AGI,来了!
参考资料:
https://www.agidefinition.ai/
https://x.com/DanHendrycks/status/1978828377269117007
声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。

游客
- 鸟过留鸣,人过留评。
- 和谐社区,和谐点评。