哪一款AI最会读书?5款主流AI大PK,只有Claude没出现幻觉


在外媒AI阅读实测中,Claude以无「幻觉」的稳定表现夺冠,ChatGPT紧追在后,但整体AI得分偏低。专家提醒,重要个人文件仍应自己阅读。

哪一款AI最会读书?

时间来到2025年,生成式AI出现许多主打资料整合的功能,例如Google旗下的Notebook LM,抑或是各家推出的Deep Research功能皆然,其仰赖的都是AI模型的「阅读能力」,以及输入资料后的推理能力。

针对当前五款主流AI模型的阅读能力,《华盛顿邮报》的实测结果显示,由Anthropic公司开发的Claude表现最出色,在总体评分中夺冠,也是唯一未出现「幻觉」(hallucination,指AI捏造资讯)的AI,第二名则是OpenAI旗下的ChatGPT。

先说结论,撇除分数评级的高低,《华盛顿邮报》测试结果显示,当前AI在深度理解与分析上仍有显著不足,整体平均得分仅约70%,相当于学术评级中的D+,显示AI的阅读理解能力仍有极大进步空间。

AI阅读各有所长:Claude擅长法律、ChatGPT较懂文学

《华盛顿邮报》本次评估了包含Claude、ChatGPT、Copilot、Meta AI,以及Google的Gemini五款AI。测试范围涵盖文学小说、法律合约、医学研究及政治演说四大领域,并由各领域专家对AI的回答进行盲评,其结果如下:

文学领域:ChatGPT 7.8;Claude 7.3;Meta AI 4.3;Copilot 3.5;Gemini 2.3。
法律领域:Claude 6.9;Gemini 6.1;Copilot 5.4;ChatGPT 5.3;Meta AI 2.6。
健康科学领域:Claude 7.7;ChatGPT 7.2;Copilot 7;Gemini 6.5;Meta AI 6。
政治领域:ChatGPT 7.2;Claude 6.2;Meta AI 5.2;Gemini 5;Copilot 3.7。

总体得分而言:

Claude:69.9
ChatGPT:68.4
Gemini:49.7
Copilot:49
Meta AI:45

总结来说,Claude以些微分差胜过ChatGPT,至于Gemini、Copilot、Meta AI,则落于50分以下评级。值得一提的是,Claude为唯一未产生幻觉的AI。

本次测试的文件,在文学方面为小说《The Jackal's Mistress》、在医学方面为COVID-19、帕金森氏症的医学论文、在法律方面为租赁协议及建筑承包合约,在政治领域则为川普的演讲文件。

结果显示,AI在不同专业领域的表现差异甚大。例如,ChatGPT在文学和政治类别中表现较佳,但在法律文件的理解上则落后;Claude则在法律和健康科学领域取得最高分。

然而,即使是表现最好的Claude,其在文学领域的评分也非顶尖,而Gemini在文学理解方面,甚至出现了被评审形容为「不准确、误导且草率」的解读,甚至有种企图蒙混过关的感觉。

值得注意的是,除了Claude,其余四款AI均在测试中出现了程度不一的资讯捏造情况。这证实了AI阅读长文的能力仍有限,故生成摘要常有遗漏重要资讯,或过度强调正面内容而忽略负面细节的问题。

注1:原文测试时间为2025年4月至5月,所使用的AI版本为:ChatGPT-4o、Gemini 2.0 Flash、Claude 3 Sonnet、Llama 4、Copilot for Microsoft 365。

注2:评审对每个AI答案进行10分制评分,每个学科领域的得分是所有评分的平均值。总分为四个学科领域赋予同等权重,并以100分制呈现。

专家总结:AI难取代真人阅读

尽管部分AI在特定分析性问题上展现出令人惊艳的能力,例如ChatGPT总结小说的摘要及书评,或是Claude对修订法律文件提出的建议、协助产出医学论文的洞察等。但整体而言,专家们对当前AI的阅读理解能力仍持谨慎态度。

例如参与评审的企业律师Sterling Miller指出,AI在法律文件处理上的表现不够稳定,尚不能替代专业律师;小说家Chris Bohjalian则表示,AI的回答有时像是「戴着人类面具的机器人」,假装理解实则不然。

至于主持测试的记者则建议,若要使用AI协助阅读,最好同时使用至少两款工具进行比较,并且对于攸关个人权益的重要文件,仍应亲自仔细阅读。

总地来说,AI目前可作为一种辅助工具,例如协助快速掌握新主题、解读专业术语,但不应完全依赖其结果。

本文链接地址:https://www.wwsww.cn/rgzn/32557.html
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。