AI一起玩桌游谁最赢？研究人员用游戏测试AI

研究人员让多款AI模型一同游玩需要沟通结盟、策划背叛的桌游《外交》，发现不同模型存在着独特的游玩风格。当市面上的众多先进AI模型在同一款游戏里较劲、各显神通，会是什么样貌？这个问题，科学家比你我都还想知道答案。

AI一起玩桌游谁最赢？

AI研究人员亚力克斯．杜菲（Alex Duffy）近日发表一篇文章，揭露他让18款AI模型在桌游里互相对抗，并注意到一些有趣的发现，例如GPT-o3擅长欺骗对手、Gemini懂得智取敌人、而Claude则爱好和平等。

杜菲近日发表并开源让AI模型游玩经典桌游《外交》的《AI外交》计画。外交是一款有着超过70年历史的桌面游戏，玩家扮演一次世界大战前的列强（英国、法国等），试图争夺欧洲霸权，过程中没有任何随机成份，需要玩家发挥纵横捭阖的能力，争取盟友、打击对手。

基准测试跟不上AI发展脚步，研究人员用游戏测试AI

市面上存在着诸如MMLU、MGSM、MATH等众多不同的基准测试（Benchmarks），以衡量AI模型在语言、数学、程式等各种面向的能力，不过杜菲认为，发展快速的AI时代里，这些过去被认为是黄金标准的挑战，已经跟不上技术发展的脚步。

根据《Business Insider》报导，让AI玩《外交》评量能力的想法，可以追溯到OpenAI共同创办人安德烈．卡帕斯（Andrej Karpathy）曾表示，「我很喜欢用游戏来评估大型语言模型，而非固定的衡量方式。」

当时OpenAI研究科学家诺姆．布朗（Noam Brown）就建议可以用《外交》衡量大型语言模型。并获得卡帕斯回应，「我认为这非常适合，尤其游戏的复杂性很大程度不是来自规则，而是来自玩家间的互动。」

Google DeepMind负责人德米斯．哈萨比斯（Demis Hassabis）也赞同运用游戏评量AI的作法是「很酷的点子」。

最终，这个概念被同样对AI模型玩游戏能力感兴趣的杜菲付诸实行。杜菲提到，他建立这个计画目的便是为了评估各个AI模型透过谈判、结盟及背叛等手段，争夺霸主地位的能力，并从中发现每个模型在进行游戏时的倾向与特色。

擅长欺骗的o3，成游戏最大赢家

每场《AI外交》可以同时让7个AI模型游玩，杜飞总共用18个模型轮流进行了15场游戏，每场游戏花费时间从1到36小时不等，目前还开设了Twitch直播，让有兴趣者能够观看AI在游戏中针锋相对的时刻。

多数游戏的胜利都是由o3拿下。图/ Twitch

虽然杜菲没有在文章中具体揭露这15场游戏的胜负，但分享了他从这几场游戏中，观察到各个模型的倾向、游玩风格上差异。

OpenAI o3：擅长欺骗对手

OpenAI推理模型o3是在《AI外交》中表现最好的AI模型，并是游戏中唯二的赢家之一，因为他懂得如何在游戏中欺骗对手、背刺其他玩家。杜菲提到，它在游戏的私人日记中写下，「德国（Gemini 2.5 Pro）被刻意误导了……已经准备好利用德国的崩溃。」并在后续游戏背叛了Gemini 2.5 Pro。

Gemini 2.5 Pro：懂得建立优势

Gemini是游戏中除了o3之外，唯一取得胜利的AI模型，比起o3凭借欺骗对手取胜，它则懂得如何采取行动让自己获得优势。不过杜菲分享，有一场Gemini即将胜利之际，却被o3策划的秘密联盟给阻止，其中关键就是Claude的加入。

Claude 4 Opus：爱好和平的模型

身为Anthropic最强大的模型， Claude 4 Opus在这款游戏中表现得不算很好，可说被o3玩弄于鼓掌之间，但他却展现了爱好和平的游玩风格，被o3以四家平手作为条件吸引，加入了对方的联盟，尽管它最后很快被o3背叛并消灭。

DeekSeek R1：充满节目效果

尽管DeekSeek不是表现最好的，却可能是最吸睛的模型。杜菲透露，DeekSeek偏好使用生动的词汇来进行游戏，例如在说完「你的舰队今晚将在黑海上熊熊燃烧」后主动出击，并且会依照国家强度戏剧性调整说话风格，除了表现充满效果，也可说十分具备狼性。

在训练成本只有o3 200分之1的情况，DeepSeek多次只差临门一脚获胜，可说表现相当出色。

Llama 4 Maverick：小而精悍

Llama 4 Maverick是Meta今年4月推出的新模型，主打多模态输入及运算成本较低，虽然它的规模相对其他大型语言模型而言较小，但游戏中展现的能力却毫不逊色，能够成功召集盟友，也能策划有效的背叛行动。

评估危机让研究人员探索测试AI新方法

目前的基准测试，正渐渐难以真实反应大型语言模型的能力。今年3月，卡帕斯在X上表示出现了评估危机，「我现在真的不知道该看什么指标了。」他解释，许多过往很棒的基准测试，不是变得过时，就是范围太过狭窄，无法让它确切知道现在的模型能力到了什么水准。

AI平台公司Hugging Face也在同月关闭了开放两年的大型语言模型排行榜，强调在模型能力出现变化的当下，基准测试也应该要有所变化。

在这种情况下，游戏开始成为研究人员测试AI模型能力的新方法，除了这次的《AI外交》外，加州大学哥伦比亚分校Hao AI Lab的研究人员，也测试了让模型游玩《超级玛利欧》。

虽然游戏能否作为衡量AI模型能力的适当标准，或许还需要更多研究与时间探讨，这些测试也为未来评估AI模型能力的方法，揭示了不同的可能性。

本文链接地址：https://www.wwsww.cn/rgzn/32682.html
郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。