改掉幻觉=杀死AI?Science曝光大模型「先天死穴」

2025-11-09 发布 · 浏览26次 · 点赞0次 · 收藏0次

【导读】《Science》的一篇新文章指出,大模型存在一个先天难解的软肋:幻觉难以根除。AI厂商让大模型在不确定性情况下说「我不知道」,虽然有助于减少模型幻觉,但可能因此影响用户留存与活跃度,动摇商业根本。

就在OpenAI完成重组,解除上市限制的当天,《Science》一篇热文曝出大模型的一个先天致命软肋,这一软肋导致大模型难以彻底摆脱幻觉。


文章指出,虽然OpenAI完成了期待已久的重组,但它的核心产品仍会出现幻觉

以往我们经常将这种幻觉主要归因于训练数据质量,但这一解释并不充分。

上个月OpenAI与佐治亚理工学院的研究团队在一篇预印本论文中指出:

就像学生在考试遇到难题时会「蒙」答案一样,大模型在不确定的情况下也会倾向于「猜」,生成看似合理但其实错误的回答,而不是承认自己不知道。


论文:https://arxiv.org/abs/2509.04664《大模型为何会产生幻觉》

在不确定时选择「我不知道」,可显著降低幻觉,但为什么模型设计者们没有这么做?

研究人员认为问题主要出在大模型的训练和评估机制上:

在大模型的训练和评估过程中更倾向于「奖励猜测」,而不是「鼓励承认不确定性」。

但要改变这一点并不容易。

让大模型学会说「我不知道」,也可能动摇AI厂商的商业根基。

比如,有人就质疑OpenAI是否会真心让自家模型更重视「真实性」而不是「吸引力」。

这是一个极大的挑战。

如果ChatGPT经常回答「我不知道」,用户可能就会流失到竞争对手那里。

大模型幻觉为何难以根除?

「如果把幻觉彻底修好,将会杀死这个产品」。

谢菲尔德大学的AI研究员魏星曾发文称OpenAI的「反幻觉」方案会杀死ChatGPT。


OpenAI的研究人员认为幻觉并不神秘,他们分析了大模型在预训练阶段可能导致的错误,发现即使训练数据无误,预训练目标也可能使模型产生错误。


研究人员进一步指出,幻觉之所以在后续阶段持续存在,是因为主流评估体系的评分方式鼓励模型像学生考试一样去「猜」,而不是诚实地表达不确定性。

OpenAI曾探讨过幻觉难以根除的原因,认为其源头在于预训练的「下一个词预测」:模型通过学习海量文本,掌握如何根据统计规律预测下一个词。

但这种预测就像是囫囵吞枣,每个语句都没有通过「真/假」标签进行优化,当缺乏标记为错误的示例时,有效语句与无效语句的区分就显得尤为困难,因此会出现幻觉。

以图片识别举例,若数百万张猫狗照片被标注为「猫」或「狗」,算法便能可靠分类。

但如果改为按宠物生日标注照片,由于生日数据本质上随机,无论算法多么先进,此任务必然产生错误。

在语言模型的预训练中也存在类似机制。

比如拼写和括号遵循固定模式,因此随规模扩大错误会消失。

而像宠物生日这类任意低频事实无法仅凭模式预测,因此容易导致幻觉。

OpenAI澄清了几种关于模型「幻觉」的误解:

误解:提高准确率就能消除幻觉,因为100%准确的模型永远不会产生幻觉。

主张:准确率永远无法达到100%,因为无论模型规模、搜索能力或推理能力如何,某些现实世界的问题本质上无法解答。

误解:幻觉现象不可避免。

主张:并非如此,因为语言模型在不确定时可选择保持沉默。

误解:避免幻觉需要特定程度的智能,而这仅能通过大型模型实现。

主张:小型模型更易认知自身局限。例如面对毛利语问题时,不懂毛利语的小型模型可直接回应「我不知道」,而掌握部分毛利语的模型则需评估回答信心。

误解:幻觉是现代语言模型中神秘的故障现象。

主张:我们已理解幻觉产生的统计机制及其在评估中的奖励机制。

为什么大模型「刷榜」难杜绝?

OpenAI官方博客在介绍这篇论文时,将幻觉描述为「看似合理却错误的陈述」。


博客:https://openai.com/zh-Hans-CN/index/why-language-models-hallucinate/

而且幻觉的出现具有不可预知性,它可能以出人意料的方式出现。

比如,你询问一篇论文的标题,它会自信地给出三个不同答案,但都是错误的。

该论文的合著者、OpenAI研究科学家Adam Kalai认为,虽然我们永远不可能做到100%准确,但这并不意味着模型必须要产生幻觉。

解决之道可以在「后训练」阶段,借助人类反馈和其他微调(fine-tuning)方法会引导模型变得更安全、更精确。

但这也会导致大模型「刷榜」的现象:

由于模型表现会通过标准化基准测试来评分,得分高就意味着名气和商业成功,于是公司就往往将训练目标锁定在「刷高分」上。

OpenAI认为,幻觉现象持续存在,部分原因在于当前评估方法设置了错误的激励机制。

研究人员分析了十大热门基准测试中,有九个都采用「答对得1分,空白或错误得0分」的二元评分方式,只有WildBench的评分标准为1–10分制。

虽然回答「我不知道」可能被认为比「严重幻觉但看起来合理的回答」略好,但总体上仍会被评为低于「勉强合格」的回答。

这意味着IDK(我不知道)在该基准下可能得到部分分数,但不会被视为优选策略。


在这种评分机制下,由于「随意猜测」和「不答」惩罚相同,那些喜欢「不懂装懂」的模型,反而会被谨慎回答「我不知道」的模型更容易拿高分。

举个例子,假设大模型被问及某人生日但却不知答案,如果随便猜一天,就会有1/365的概率猜中,而说「不知道」则必然得零分。

如果在数千道测试题中,这种猜测型模型最终在评分机制中的表现会优于承认不确定性的谨慎模型。

Kalai推测,这可能正是过去防幻觉方案迟迟无法落地的原因。

为什么准确率得分越高

幻觉也可能越大

针对唯一「正确答案」的纯客观问题,OpenAI将模型的回复分为三类:准确回复、错误回复以及不妄加猜测的弃权。

OpenAI认为「弃权」体现了谦逊,并将之视为核心价值观。


就准确性而言,前代o4-mini模型表现略胜一筹,然而其错误率(即产生幻觉的概率)显著更高。

这说明,在不确定时采取策略性猜测虽能提升准确率,却会增加错误和幻觉的发生。

OpenAI认为仅以准确率为标准的评分机制仍主导着模型评估体系,促使开发人员倾向于构建盲目猜测而非保留不确定性的模型:

「这正是模型虽然日益进步但仍会产生幻觉,即自信给出错误答案而非承认不确定性的重要原因」。

因此,OpenAI的研究团队呼吁重新设计评分机制,让错误猜测受到惩罚,从而让模型在「碰壁中学会谦虚」。

即使好意的调整

也可能引发反效果

普林斯顿大学计算机科学家、SWE-Bench基准创建者Carlos Jimenez认为想要改评分标准并不容易。

因为不同主题领域都有独特的评估方式,「每个学科在衡量不确定性或信心时都有自己的标准。」

此外,也有学者担心好意的调整也可能引发反效果。

伊利诺伊大学厄巴纳-香槟分校的计算机科学家彭昊警告说,鼓励模型说「我不知道」与当前优化大模型「自信度」的做法一样,也可能带来新的幻觉。

他略带悲观地指出,目前恐怕没有任何数据或指标能自然地解决幻觉问题,因为这些模型「太擅长钻系统的空子了」。

模型幻觉并非单纯的数据问题,而是训练机制、评测体系与商业模式综合因素导致的结果。

在技术层面,研究者普遍认为幻觉无法彻底根除,只能被缓解;

在商业层面,若模型频繁回答「我不知道」,用户体验与留存率都可能下降。

当前,以OpenAI、Anthropic为代表的AI初创公司都面临着巨大的盈利压力,在让模型更真实和更有吸引力之间,没有公司愿意冒着失掉用户的风险,率先牺牲吸引力,因为这很可能将用户推向那些看起来更「自信」的竞争者。

但是从AI技术的进步来看,让AI学会说「我不知道」有助于减少幻觉,推动模型向更成熟的方向进化。

参考资料:

https://www.science.org/content/article/ai-hallucinates-because-it-s-trained-fake-answers-it-doesn-t-know%20

https://openai.com/zh-Hans-CN/index/why-language-models-hallucinate/

改掉幻觉=杀死AI?Science曝光大模型「先天死穴」 - AI 资讯 - 资讯 - AI 中文社区

声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它能得到比较好的回应。
评论

游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。