哪一款AI最会读书？5款主流AI大PK，只有Claude没出现幻觉

在外媒AI阅读实测中，Claude以无「幻觉」的稳定表现夺冠，ChatGPT紧追在后，但整体AI得分偏低。专家提醒，重要个人文件仍应自己阅读。

哪一款AI最会读书？

时间来到2025年，生成式AI出现许多主打资料整合的功能，例如Google旗下的Notebook LM，抑或是各家推出的Deep Research功能皆然，其仰赖的都是AI模型的「阅读能力」，以及输入资料后的推理能力。

针对当前五款主流AI模型的阅读能力，《华盛顿邮报》的实测结果显示，由Anthropic公司开发的Claude表现最出色，在总体评分中夺冠，也是唯一未出现「幻觉」（hallucination，指AI捏造资讯）的AI，第二名则是OpenAI旗下的ChatGPT。

先说结论，撇除分数评级的高低，《华盛顿邮报》测试结果显示，当前AI在深度理解与分析上仍有显著不足，整体平均得分仅约70%，相当于学术评级中的D+，显示AI的阅读理解能力仍有极大进步空间。

AI阅读各有所长：Claude擅长法律、ChatGPT较懂文学

《华盛顿邮报》本次评估了包含Claude、ChatGPT、Copilot、Meta AI，以及Google的Gemini五款AI。测试范围涵盖文学小说、法律合约、医学研究及政治演说四大领域，并由各领域专家对AI的回答进行盲评，其结果如下：

文学领域：ChatGPT 7.8；Claude 7.3；Meta AI 4.3；Copilot 3.5；Gemini 2.3。
法律领域：Claude 6.9；Gemini 6.1；Copilot 5.4；ChatGPT 5.3；Meta AI 2.6。
健康科学领域：Claude 7.7；ChatGPT 7.2；Copilot 7；Gemini 6.5；Meta AI 6。
政治领域：ChatGPT 7.2；Claude 6.2；Meta AI 5.2；Gemini 5；Copilot 3.7。

总体得分而言：

Claude：69.9
ChatGPT：68.4
Gemini：49.7
Copilot：49
Meta AI：45

总结来说，Claude以些微分差胜过ChatGPT，至于Gemini、Copilot、Meta AI，则落于50分以下评级。值得一提的是，Claude为唯一未产生幻觉的AI。

本次测试的文件，在文学方面为小说《The Jackal's Mistress》、在医学方面为COVID-19、帕金森氏症的医学论文、在法律方面为租赁协议及建筑承包合约，在政治领域则为川普的演讲文件。

结果显示，AI在不同专业领域的表现差异甚大。例如，ChatGPT在文学和政治类别中表现较佳，但在法律文件的理解上则落后；Claude则在法律和健康科学领域取得最高分。

然而，即使是表现最好的Claude，其在文学领域的评分也非顶尖，而Gemini在文学理解方面，甚至出现了被评审形容为「不准确、误导且草率」的解读，甚至有种企图蒙混过关的感觉。

值得注意的是，除了Claude，其余四款AI均在测试中出现了程度不一的资讯捏造情况。这证实了AI阅读长文的能力仍有限，故生成摘要常有遗漏重要资讯，或过度强调正面内容而忽略负面细节的问题。

注1：原文测试时间为2025年4月至5月，所使用的AI版本为：ChatGPT-4o、Gemini 2.0 Flash、Claude 3 Sonnet、Llama 4、Copilot for Microsoft 365。

注2：评审对每个AI答案进行10分制评分，每个学科领域的得分是所有评分的平均值。总分为四个学科领域赋予同等权重，并以100分制呈现。

专家总结：AI难取代真人阅读

尽管部分AI在特定分析性问题上展现出令人惊艳的能力，例如ChatGPT总结小说的摘要及书评，或是Claude对修订法律文件提出的建议、协助产出医学论文的洞察等。但整体而言，专家们对当前AI的阅读理解能力仍持谨慎态度。

例如参与评审的企业律师Sterling Miller指出，AI在法律文件处理上的表现不够稳定，尚不能替代专业律师；小说家Chris Bohjalian则表示，AI的回答有时像是「戴着人类面具的机器人」，假装理解实则不然。

至于主持测试的记者则建议，若要使用AI协助阅读，最好同时使用至少两款工具进行比较，并且对于攸关个人权益的重要文件，仍应亲自仔细阅读。

总地来说，AI目前可作为一种辅助工具，例如协助快速掌握新主题、解读专业术语，但不应完全依赖其结果。

本文链接地址：https://www.wwsww.cn/rgzn/32557.html
郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。