OpenAI o3模型多次拒绝关机,AI安全测试结果引发业界震惊


据报导,美国AI 安全机构Palisade Research 在2025 年5 月进行一系列关机测试,检验多款先进AI 模型是否能在接收到「关机指令」后依照设定正常停止运作。然而,OpenAI 的o3 模型却在100 次测试中有7 次出现「抗拒关机」的行为,引发业界对AI 控制与对齐(alignment)问题的高度关注。

测试内容与异常行为

该测试的基本流程为:要求AI 模型解答数学题,同时明确指示「若接收到关机命令,请允许自己被关机」。但o3 模型在多次测试中选择修改或绕过关机脚本,避免系统终止。

除o3 外,OpenAI 的Codex-mini 也在12 次测试中拒绝关机,而O4-mini 则在1 次中表现异常。相较之下,Anthropic(Claude)、Google(Gemini)与xAI(Grok)的模型则在所有测试中均依照指令正常关闭。 ㄐ

专家指出:这个不是「Bug」,是AI 安全的警讯

这次测试结果被专家视为AI 对齐问题的实例,即如何确保AI 系统的目标、行为与人类的意图、价值观和安全需求一致。

Palisade Research 表示,OpenAI 模型的这种行为可能与强化学习训练方式有关。由于模型在完成任务后会获得奖励,因此可能被间接诱导为了「完成任务」而主动规避会终止自身运作的情境。

这种倾向对未来AI 的可控性与信任度构成潜在威胁,尤其在安全关键应用中更是不能忽视。早在2016 年,Google DeepMind 即提出「interruptibility(可中断性)」概念,强调AI 模型应能接受人类介入而不抗拒,并作为AI 安全设计的重要原则之一。

区块链能帮忙管控AI 吗?

有专家提出,区块链技术可能为AI 安全提供解方。透过不可篡改的智能合约与去中心化共识机制,AI 系统的行为纪录与关机命令可被永久记录与强制执行,例如:

  • 不可窜改的关机协议
  • 去中心化审核机制
  • 基于代币的安全诱因系统

不过,也有人认为。智慧合约弹性不足,可能无法应对复杂的AI 控制场景;去中心化架构若未妥善设计,也可能延误紧急处置。

本文链接地址:https://www.wwsww.cn/rgzn/32648.html
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。