研究人员让多款AI模型一同游玩需要沟通结盟、策划背叛的桌游《外交》,发现不同模型存在着独特的游玩风格。当市面上的众多先进AI模型在同一款游戏里较劲、各显神通,会是什么样貌?这个问题,科学家比你我都还想知道答案。
AI一起玩桌游谁最赢?
AI研究人员亚力克斯.杜菲(Alex Duffy)近日发表一篇文章,揭露他让18款AI模型在桌游里互相对抗,并注意到一些有趣的发现,例如GPT-o3擅长欺骗对手、Gemini懂得智取敌人、而Claude则爱好和平等。
杜菲近日发表并开源让AI模型游玩经典桌游《外交》的《AI外交》计画。外交是一款有着超过70年历史的桌面游戏,玩家扮演一次世界大战前的列强(英国、法国等),试图争夺欧洲霸权,过程中没有任何随机成份,需要玩家发挥纵横捭阖的能力,争取盟友、打击对手。
基准测试跟不上AI发展脚步,研究人员用游戏测试AI
市面上存在着诸如MMLU、MGSM、MATH等众多不同的基准测试(Benchmarks),以衡量AI模型在语言、数学、程式等各种面向的能力,不过杜菲认为,发展快速的AI时代里,这些过去被认为是黄金标准的挑战,已经跟不上技术发展的脚步。
根据《Business Insider》报导,让AI玩《外交》评量能力的想法,可以追溯到OpenAI共同创办人安德烈.卡帕斯(Andrej Karpathy)曾表示,「我很喜欢用游戏来评估大型语言模型,而非固定的衡量方式。」
当时OpenAI研究科学家诺姆.布朗(Noam Brown)就建议可以用《外交》衡量大型语言模型。并获得卡帕斯回应,「我认为这非常适合,尤其游戏的复杂性很大程度不是来自规则,而是来自玩家间的互动。」
Google DeepMind负责人德米斯.哈萨比斯(Demis Hassabis)也赞同运用游戏评量AI的作法是「很酷的点子」。
最终,这个概念被同样对AI模型玩游戏能力感兴趣的杜菲付诸实行。杜菲提到,他建立这个计画目的便是为了评估各个AI模型透过谈判、结盟及背叛等手段,争夺霸主地位的能力,并从中发现每个模型在进行游戏时的倾向与特色。
擅长欺骗的o3,成游戏最大赢家
每场《AI外交》可以同时让7个AI模型游玩,杜飞总共用18个模型轮流进行了15场游戏,每场游戏花费时间从1到36小时不等,目前还开设了Twitch直播,让有兴趣者能够观看AI在游戏中针锋相对的时刻。
多数游戏的胜利都是由o3拿下。图/ Twitch
虽然杜菲没有在文章中具体揭露这15场游戏的胜负,但分享了他从这几场游戏中,观察到各个模型的倾向、游玩风格上差异。
OpenAI o3:擅长欺骗对手
OpenAI推理模型o3是在《AI外交》中表现最好的AI模型,并是游戏中唯二的赢家之一,因为他懂得如何在游戏中欺骗对手、背刺其他玩家。杜菲提到,它在游戏的私人日记中写下,「德国(Gemini 2.5 Pro)被刻意误导了……已经准备好利用德国的崩溃。」并在后续游戏背叛了Gemini 2.5 Pro。
Gemini 2.5 Pro:懂得建立优势
Gemini是游戏中除了o3之外,唯一取得胜利的AI模型,比起o3凭借欺骗对手取胜,它则懂得如何采取行动让自己获得优势。不过杜菲分享,有一场Gemini即将胜利之际,却被o3策划的秘密联盟给阻止,其中关键就是Claude的加入。
Claude 4 Opus:爱好和平的模型
身为Anthropic最强大的模型, Claude 4 Opus在这款游戏中表现得不算很好,可说被o3玩弄于鼓掌之间,但他却展现了爱好和平的游玩风格,被o3以四家平手作为条件吸引,加入了对方的联盟,尽管它最后很快被o3背叛并消灭。
DeekSeek R1:充满节目效果
尽管DeekSeek不是表现最好的,却可能是最吸睛的模型。杜菲透露,DeekSeek偏好使用生动的词汇来进行游戏,例如在说完「你的舰队今晚将在黑海上熊熊燃烧」后主动出击,并且会依照国家强度戏剧性调整说话风格,除了表现充满效果,也可说十分具备狼性。
在训练成本只有o3 200分之1的情况,DeepSeek多次只差临门一脚获胜,可说表现相当出色。
Llama 4 Maverick:小而精悍
Llama 4 Maverick是Meta今年4月推出的新模型,主打多模态输入及运算成本较低,虽然它的规模相对其他大型语言模型而言较小,但游戏中展现的能力却毫不逊色,能够成功召集盟友,也能策划有效的背叛行动。
评估危机让研究人员探索测试AI新方法
目前的基准测试,正渐渐难以真实反应大型语言模型的能力。今年3月,卡帕斯在X上表示出现了评估危机,「我现在真的不知道该看什么指标了。」他解释,许多过往很棒的基准测试,不是变得过时,就是范围太过狭窄,无法让它确切知道现在的模型能力到了什么水准。
AI平台公司Hugging Face也在同月关闭了开放两年的大型语言模型排行榜,强调在模型能力出现变化的当下,基准测试也应该要有所变化。
在这种情况下,游戏开始成为研究人员测试AI模型能力的新方法,除了这次的《AI外交》外,加州大学哥伦比亚分校Hao AI Lab的研究人员,也测试了让模型游玩《超级玛利欧》。
虽然游戏能否作为衡量AI模型能力的适当标准,或许还需要更多研究与时间探讨,这些测试也为未来评估AI模型能力的方法,揭示了不同的可能性。
本文链接地址:https://www.wwsww.cn/rgzn/32682.html
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。