哪一款AI最可靠?为何对LLM来说坦承无知比已读乱回更难?

AI模型评比平台Artificial Analysis指出,多数LLM其实「猜错比答对多」,而Claude 4.1 Opus因较低幻觉率领先。

哪一款AI最可靠?

重点一:依据AA‑Omniscience 显示,多数大型语言模型在高难度知识题上「猜错比答对多」,仅三款例外;核心指标Omniscience Index 以惩罚幻觉衡量可靠度。

重点二:在全知指数上,Claude 4.1 Opus因较低幻觉率领先;GPT‑5.1与Grok 4则多靠较高准确率。

重点三:各模型在不同领域表现不一,没有「一款通吃」。例如Claude 4.1 Opus在法律、软体工程、人文社科较稳

先进AI 大模型虽然越来越强,但近期一份报告指出,在「少幻觉、敢承认不知道」这件事上,仍然是不及格。

第三方AI 模型评比平台Artificial Analysis 于11 月18 日公布全新基准「AA‑Omniscience(全知指标)」指出,在面对高难度知识题时,当前主流大型语言模型(LLMs)「猜错比答对多」,仅有三款模型例外。

该评测以「Omniscience Index(全知指数)」为核心,采用加权惩罚幻觉(错误作答)的方法:答对加一分、错误且有作答扣一分、选择不作答记零分,从而衡量「知识可靠度」,而非仅看正确率。

团队强调,模型的嵌入知识对真实世界应用至关重要;在知识不足时,模型易做出错误假设。且即便有工具如网络搜索辅助,模型也须「先知道该搜什么」。例如,遇到「MCP」查询时,不应错把「Multi Client Persistence」当答案,而应辨识为「Model Context Protocol(模型上下文协定)」。

低幻觉的Claude vs. 高正确率的Grok/GPT

Artificial Analysis 指出,在整体「事实可靠度」(Omniscience Index)排名上,Anthropic 的Claude 4.1 Opus 居首,其优势主要来自「低幻觉率」。相较之下,OpenAI 与xAI 的模型则以较高「正确率」拉升名次,但因更倾向在不确定时「冒险作答」,而非「不懂就闭嘴」,因此可靠度未达顶尖水准。

纯以「正确率」衡量时,xAI 的Grok 4 居首,OpenAI 的GPT‑5 与Google 的Gemini 2.5 Pro 紧随。 Artificial Analysis 也提及伊隆·马斯克近期披露Grok 4「总参数达3 兆」,暗示大模型规模与前训练算力或许是支撑其正确率表现的因素。


这张图把每个AI 放在一个座标上。横轴是「Omniscience Index」,越往右代表越可靠、越少幻觉;纵轴是「Accuracy」(准确率),越往上代表越常答对。图/ Artificial Analysis

值得注意的是,在「幻觉率」榜单上,Anthropic 三款机型包办最低幻觉率前段班:Claude 4.5 Haiku 以约26% 领先,Claude 4.5 Sonnet 与Claude 4.1 Opus 分列其后。这也呼应评测核心观点:高知识并不必然等于低幻觉;能否在不确定时「选择不作答」是可靠度的关键。

知识量不等于可靠度! AI 懂更多,却未必说得对

Artificial Analysis 团队在报告中指出,AA‑Omniscience 涵盖6,000 题、42 主题、6 大领域(商业、人文与社会科学、健康、法律、软体工程、工程与数学),并细分89 子题(如Python 资料函式库、公共政策、税务等),更细致地刻画各模型的强弱。

结果显示:各模型在不同领域轮流领先,并无「全能王」。例如,Claude 4.1 Opus 在法律、软体工程、人文社科领先;OpenAI 的GPT‑5.1 在商业题表现最可靠;xAI 的Grok 4 则在健康与「科学、工程与数学」领域居前。


这张热力图把各个AI 在六个领域的「可靠度分数」做横向比较。每一列是领域(法律、健康、商业、软体工程、人文社科、理工),每一栏是一个模型。颜色已做「该领域内」的标准化:在同一列里,最好的模型显示为绿色,最差的是红色,中间就落在黄橘色。图/ Artificial Analysis

另一个发现是,模型规模与正确率正相关,但不必然提升可靠度。

白话说,模型越大,代表知识量越多,所以在「正确率」排行榜表现亮眼;但由于「可靠度」看的是遇到不确定时会不会硬答、造成幻觉。因此,像Kimi K2 Thinking和DeepSeek R1(0528)虽然答对比例高,遇到不熟的题目仍可能胡乱作答,拉低了「全知指数」。

反过来说,Llama 3.1 405B虽然不是最大的,但更懂得在不确定时不作答,幻觉率较低,整体「可靠度」因此胜过规模更大的Kimi K2 款式。

结论:选用AI 的建议,也是「诚实为上」

总结来说,AA‑Omniscience 的证据显示:能在不确定时停手、降低幻觉的模型,才在真实场景更可靠;仅看准确率,会把「会猜」误认为「会答」。因此,选择模型时,应以事实可靠度、幻觉率与拒答行为为核心准则,并依领域差异做选择。

最后,模型规模与准确率虽有正相关,但并不直接降低幻觉;缩减幻觉更依赖训练与校准机制。基于此,企业在落地知识密集型任务时,应优先采用「校准佳、愿意在不确定时拒答」的模型。

本文链接地址:https://www.wwsww.cn/rgzn/35512.html
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。