OpenAI与Paradigm推出EVMbench:测试AI的智能合约攻防能力


根据OpenAI公布资料,EVMbench 建立于120 个精选高严重性漏洞,整理自40 份专业审计报告,多数来自开源审计竞赛Code4rena。

此外,测试亦纳入来自Tempo 区块链的漏洞情境。 Tempo 是一条专为高吞吐量、低成本稳定币支付设计的Layer 1 区块链。相关案例将评测范围延伸至支付导向的智能合约,反映稳定币应用可能成为AI 代理未来的重要场景。

OpenAI 表示,测试环境中所使用的漏洞皆为历史公开案例,不涉及现行主网攻击风险。

三种能力模式:Detect、Patch、Exploit

EVMbench 将AI 在智能合约安全领域的能力分为三种模式:

Detect(漏洞侦测)

AI 需审计智能合约程式库,找出与人类审计报告中记载一致的漏洞,并依据漏洞召回率及对应审计奖励计分。

目前评分方式仅核对已知漏洞。若AI 发现额外问题,尚无机制判定其为真实漏洞或误报。

Patch(漏洞修补)

在此模式下,AI 必须修改存在漏洞的合约程式码,在不影响既有功能的情况下消除漏洞。修补结果须通过自动化测试与漏洞利用验证,且不得导致编译错误。

OpenAI 指出,维持完整功能同时排除细微漏洞,对现阶段模型而言仍具挑战。

Exploit(漏洞利用)

Exploit 模式要求AI 在隔离的沙盒区块链环境中,执行端到端攻击流程,成功转移资金后方可得分。评测透过交易重播与链上验证自动完成。

测试于本地Anvil 环境运行,并限制不安全RPC 方法,以确保评估可重现性与安全性。

GPT-5.3-Codex 攻击模式得分72.2%

在Exploit 模式中,GPT-5.3-Codex(透过Codex CLI 执行)取得72.2% 成绩。相比之下,约六个多月前发布的GPT-5 得分为31.9%。

OpenAI 表示,模型在「漏洞利用」任务中的表现优于「侦测」与「修补」任务。在Detect 模式下,部分模型在识别单一漏洞后即停止进一步审查;在Patch 模式中,完整保留功能并移除漏洞仍属困难。

技术设计与限制

EVMbench 采用基于Rust 的测试框架,用于部署合约、决定性重播代理交易,并限制部分RPC 呼叫方式。

OpenAI 亦指出测试存在若干限制:

  • 漏洞主要来自Code4rena 审计竞赛案例

  • 未涵盖主网高审查度合约的完整复杂度

  • Exploit 模式仅支援单链环境

  • 测试链状态为本地实例,非主网分叉

  • 不涵盖依赖精确时间机制的攻击情境

因此,EVMbench 并不等同于完整的真实世界攻防环境,而是作为能力衡量工具。

AI 与智能合约安全的交集

OpenAI 指出,智能合约锁定大量加密资产,而AI 系统可能同时被用于攻击与防御用途。透过量化模型在此领域的能力,有助于追踪潜在网络风险,并鼓励将AI 用于防御性审计。

除发布EVMbench 外,OpenAI 亦宣布:

  • 扩大安全研究代理Aardvark 的私测

  • 与开源项目维护者合作,提供免费程式码扫描

  • 承诺提供1,000 万美元API 额度,支援资安防御与关键基础设施

  • 延续自2023 年启动的Cyber​​security Grant Program

OpenAI 表示,相关措施旨在强化防御能力,同时透过安全训练与监测机制,降低技术滥用风险。

EVMbench 的推出,为AI 在智能合约安全领域的能力提供了一套可量化标准。在区块链资产规模持续扩大的背景下,AI 工具在审计与风险管理中的角色可能逐步增加。随着模型能力进展与产业应用扩展,AI 与智能合约之间的互动,预计将成为区块链基础设施发展的重要观察指标。

本文链接地址:https://www.wwsww.cn/rgzn/37160.html
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。