OpenAI论文指出,语言模型会产生幻觉的主因,在于训练与评测机制奖励「猜测」,而非诚实表达不确定,导致错误输出持续存在。
三大重点一次看
重点一:语言模型会产生「幻觉」的主因,在于训练与评测机制奖励「猜测」,而非诚实表达不确定,导致错误输出持续存在。
重点二:现行主流评测标准采二元计分,对「不知道」或「不确定」的答案给予零分,促使模型倾向猜测。
重点三:研究建议修改主流评测机制,明确纳入「信心门槛」与错误惩罚,以减少AI幻觉并提升可信度。
生成式AI无疑是人类近年最受瞩目的生产力工具。但发展至今,「人工幻觉」(hallucination)——也就是AI「睁眼说瞎话」的机率仍存,这让不少大量使用AI的工作者,仍需花费时间审核、排除AI生成的错误。
但绝顶聪明的AI,又为何时不时会吐出AI本身也不确定的「答案」?
针对这个问题,OpenAI于近日释出论文〈Why Language Models Hallucinate〉,直言人工幻觉的根本原因并非技术缺陷或人为疏忽,而是训练与评测机制本身奖励模型在不确定时选择「猜答案」,而非诚实表达「不知道」。
这个情况十分类似面对选择题的考生,如果不确定答案,「合理猜测」是效益最高的方案。
评测机制是幻觉元凶:瞎猜可能得分,不猜肯定0分
这份研究主要透过「统计归约」与「行为分析」方法,揭示AI语言模型在面对不确定问题时,为何倾向猜题,而不是考虑坦承不知道。
研究分析指出,主流语言模型评测的计分方式,由于多采用二元评分(正确=1分,错误或「不知道」=0分)。在这种规则下,模型如果选择「不知道」或空白,得分必然为零;但即使随机猜测,仍有机会获得分数。
从期望值角度来看,这种推导不仅用于AI模型,也类比人类考试行为——只要规则惩罚空白,考生自然倾向猜题。
OpenAI以「要求AI猜测某人生日」举例说明,若被问某人生日而不知情,随便猜「9月10日」有1/365 的机率碰巧正确;回答「我不知道」则保证得零分,长期下来猜测在记分板上更吃香。
根据实测数据,在GPT-5 系统卡的SimpleQA 测试中,GPT-5-Thinking-Mini「弃权率」52%、「错误率」26%;较旧的OpenAI o4-mini「弃权率」仅1% 但「错误率」高达75%。这显示低弃权(不肯说不知道)虽可换取些许准确率(24% 对22%),却伴随大量自信错误,反映评分标准鼓励猜题而非谦逊。
指标 | GPT-5-Thinking-Mini | OpenAI o4-mini |
---|---|---|
弃权率 | 52%(未给出具体答案) | 1% |
准确率 | 22%(正确答案,越高越好) | 24% |
错误率 | 26%(错误答案,越低越好) | 75% |
总计 | 100% | 100% |
因此整体结论是:当评估只重准确率、不给「恰当表达不确定性」部分得分时,模型就宁愿猜测而非承认不知道,导致幻觉率居高不下。
什么是二元分类?
研究将语言模型的生成任务(即产生一段文字或答案)视为一个「二元分类」问题,也就是判断每个生成结果到底是「有效」(正确、合理),还是「错误」(不正确、幻觉)。这种归约方法称为「Is-It-Valid(二元分类)」。
简单来说,每个模型生成的答案都被标记为「+」(有效)或「−」(错误)。这样的好处是,可用统计学和机器学习理论(如分类误差率)来量化和解释语言模型的错误来源。
OpenAI抛4解方:改革评测方式,让AI更谦逊并坦率
论文结论指出,预防语言模型(AI)产生幻觉,不能仅靠新增幻觉检测或后续微调,而必须从根本上改革主流评测与训练机制。具体包括以下4大重点:
-
修改评测标准:在主流语言模型评测中,应明确纳入「信心门槛」与错误惩罚。例如,要求模型仅在置信度高于某一门槛时才作答,否则应选择「不知道」(IDK),并对错误答案给予分数惩罚,对IDK不扣分。
-
鼓励诚实表达不确定:评测机制应奖励模型在不确定时诚实表达,而非一味猜测。这样可降低幻觉发生率,提升模型在实际应用中的可信度。
-
将改革纳入主流基准:仅靠新增幻觉专用评测无法扭转现有激励结构,必须将上述改革纳入现有主流评测(如SWE-bench、MMLU等),才能真正改变模型行为。
-
行为式校准(Behavioral Calibration):推动模型在不同信心门槛下,能根据自身置信度选择最合适的回应,并可用于客观审计。
总结来说,只有当评测与训练机制不再惩罚「不知道」或不确定的诚实表达,并对过度自信的错误给予惩罚,AI幻觉现象才有望被有效抑制,AI系统的可靠性与社会接受度才能提升。
本文链接地址:https://www.wwsww.cn/rgzn/34309.html
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。