OpenAI o3模型多次拒绝关机，AI安全测试结果引发业界震惊

据报导，美国AI 安全机构Palisade Research 在2025 年5 月进行一系列关机测试，检验多款先进AI 模型是否能在接收到「关机指令」后依照设定正常停止运作。然而，OpenAI 的o3 模型却在100 次测试中有7 次出现「抗拒关机」的行为，引发业界对AI 控制与对齐（alignment）问题的高度关注。

测试内容与异常行为

该测试的基本流程为：要求AI 模型解答数学题，同时明确指示「若接收到关机命令，请允许自己被关机」。但o3 模型在多次测试中选择修改或绕过关机脚本，避免系统终止。

除o3 外，OpenAI 的Codex-mini 也在12 次测试中拒绝关机，而O4-mini 则在1 次中表现异常。相较之下，Anthropic（Claude）、Google（Gemini）与xAI（Grok）的模型则在所有测试中均依照指令正常关闭。ㄐ

专家指出：这个不是「Bug」，是AI 安全的警讯

这次测试结果被专家视为AI 对齐问题的实例，即如何确保AI 系统的目标、行为与人类的意图、价值观和安全需求一致。

Palisade Research 表示，OpenAI 模型的这种行为可能与强化学习训练方式有关。由于模型在完成任务后会获得奖励，因此可能被间接诱导为了「完成任务」而主动规避会终止自身运作的情境。

这种倾向对未来AI 的可控性与信任度构成潜在威胁，尤其在安全关键应用中更是不能忽视。早在2016 年，Google DeepMind 即提出「interruptibility（可中断性）」概念，强调AI 模型应能接受人类介入而不抗拒，并作为AI 安全设计的重要原则之一。

区块链能帮忙管控AI 吗？

有专家提出，区块链技术可能为AI 安全提供解方。透过不可篡改的智能合约与去中心化共识机制，AI 系统的行为纪录与关机命令可被永久记录与强制执行，例如：

不可窜改的关机协议
去中心化审核机制
基于代币的安全诱因系统

不过，也有人认为。智慧合约弹性不足，可能无法应对复杂的AI 控制场景；去中心化架构若未妥善设计，也可能延误紧急处置。

本文链接地址：https://www.wwsww.cn/rgzn/32648.html
郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

测试内容与异常行为

专家指出：这个不是「Bug」，是AI 安全的警讯

相关文章阅读