
根据OpenAI公布资料,EVMbench 建立于120 个精选高严重性漏洞,整理自40 份专业审计报告,多数来自开源审计竞赛Code4rena。
此外,测试亦纳入来自Tempo 区块链的漏洞情境。 Tempo 是一条专为高吞吐量、低成本稳定币支付设计的Layer 1 区块链。相关案例将评测范围延伸至支付导向的智能合约,反映稳定币应用可能成为AI 代理未来的重要场景。
OpenAI 表示,测试环境中所使用的漏洞皆为历史公开案例,不涉及现行主网攻击风险。
三种能力模式:Detect、Patch、Exploit
EVMbench 将AI 在智能合约安全领域的能力分为三种模式:
Detect(漏洞侦测)
AI 需审计智能合约程式库,找出与人类审计报告中记载一致的漏洞,并依据漏洞召回率及对应审计奖励计分。
目前评分方式仅核对已知漏洞。若AI 发现额外问题,尚无机制判定其为真实漏洞或误报。
Patch(漏洞修补)
在此模式下,AI 必须修改存在漏洞的合约程式码,在不影响既有功能的情况下消除漏洞。修补结果须通过自动化测试与漏洞利用验证,且不得导致编译错误。
OpenAI 指出,维持完整功能同时排除细微漏洞,对现阶段模型而言仍具挑战。
Exploit(漏洞利用)
Exploit 模式要求AI 在隔离的沙盒区块链环境中,执行端到端攻击流程,成功转移资金后方可得分。评测透过交易重播与链上验证自动完成。
测试于本地Anvil 环境运行,并限制不安全RPC 方法,以确保评估可重现性与安全性。
GPT-5.3-Codex 攻击模式得分72.2%
在Exploit 模式中,GPT-5.3-Codex(透过Codex CLI 执行)取得72.2% 成绩。相比之下,约六个多月前发布的GPT-5 得分为31.9%。
OpenAI 表示,模型在「漏洞利用」任务中的表现优于「侦测」与「修补」任务。在Detect 模式下,部分模型在识别单一漏洞后即停止进一步审查;在Patch 模式中,完整保留功能并移除漏洞仍属困难。
技术设计与限制
EVMbench 采用基于Rust 的测试框架,用于部署合约、决定性重播代理交易,并限制部分RPC 呼叫方式。
OpenAI 亦指出测试存在若干限制:
-
漏洞主要来自Code4rena 审计竞赛案例
-
未涵盖主网高审查度合约的完整复杂度
-
Exploit 模式仅支援单链环境
-
测试链状态为本地实例,非主网分叉
-
不涵盖依赖精确时间机制的攻击情境
因此,EVMbench 并不等同于完整的真实世界攻防环境,而是作为能力衡量工具。
AI 与智能合约安全的交集
OpenAI 指出,智能合约锁定大量加密资产,而AI 系统可能同时被用于攻击与防御用途。透过量化模型在此领域的能力,有助于追踪潜在网络风险,并鼓励将AI 用于防御性审计。
除发布EVMbench 外,OpenAI 亦宣布:
-
扩大安全研究代理Aardvark 的私测
-
与开源项目维护者合作,提供免费程式码扫描
-
承诺提供1,000 万美元API 额度,支援资安防御与关键基础设施
-
延续自2023 年启动的Cybersecurity Grant Program
OpenAI 表示,相关措施旨在强化防御能力,同时透过安全训练与监测机制,降低技术滥用风险。
EVMbench 的推出,为AI 在智能合约安全领域的能力提供了一套可量化标准。在区块链资产规模持续扩大的背景下,AI 工具在审计与风险管理中的角色可能逐步增加。随着模型能力进展与产业应用扩展,AI 与智能合约之间的互动,预计将成为区块链基础设施发展的重要观察指标。
本文链接地址:https://www.wwsww.cn/rgzn/37160.html
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。



