OpenAI与Paradigm推出EVMbench：测试AI的智能合约攻防能力

根据OpenAI公布资料，EVMbench 建立于120 个精选高严重性漏洞，整理自40 份专业审计报告，多数来自开源审计竞赛Code4rena。

此外，测试亦纳入来自Tempo 区块链的漏洞情境。 Tempo 是一条专为高吞吐量、低成本稳定币支付设计的Layer 1 区块链。相关案例将评测范围延伸至支付导向的智能合约，反映稳定币应用可能成为AI 代理未来的重要场景。

OpenAI 表示，测试环境中所使用的漏洞皆为历史公开案例，不涉及现行主网攻击风险。

三种能力模式：Detect、Patch、Exploit

EVMbench 将AI 在智能合约安全领域的能力分为三种模式：

AI 需审计智能合约程式库，找出与人类审计报告中记载一致的漏洞，并依据漏洞召回率及对应审计奖励计分。

目前评分方式仅核对已知漏洞。若AI 发现额外问题，尚无机制判定其为真实漏洞或误报。

在此模式下，AI 必须修改存在漏洞的合约程式码，在不影响既有功能的情况下消除漏洞。修补结果须通过自动化测试与漏洞利用验证，且不得导致编译错误。

OpenAI 指出，维持完整功能同时排除细微漏洞，对现阶段模型而言仍具挑战。

Exploit 模式要求AI 在隔离的沙盒区块链环境中，执行端到端攻击流程，成功转移资金后方可得分。评测透过交易重播与链上验证自动完成。

测试于本地Anvil 环境运行，并限制不安全RPC 方法，以确保评估可重现性与安全性。

在Exploit 模式中，GPT-5.3-Codex（透过Codex CLI 执行）取得72.2% 成绩。相比之下，约六个多月前发布的GPT-5 得分为31.9%。

OpenAI 表示，模型在「漏洞利用」任务中的表现优于「侦测」与「修补」任务。在Detect 模式下，部分模型在识别单一漏洞后即停止进一步审查；在Patch 模式中，完整保留功能并移除漏洞仍属困难。

EVMbench 采用基于Rust 的测试框架，用于部署合约、决定性重播代理交易，并限制部分RPC 呼叫方式。

OpenAI 亦指出测试存在若干限制：

因此，EVMbench 并不等同于完整的真实世界攻防环境，而是作为能力衡量工具。

OpenAI 指出，智能合约锁定大量加密资产，而AI 系统可能同时被用于攻击与防御用途。透过量化模型在此领域的能力，有助于追踪潜在网络风险，并鼓励将AI 用于防御性审计。

除发布EVMbench 外，OpenAI 亦宣布：

OpenAI 表示，相关措施旨在强化防御能力，同时透过安全训练与监测机制，降低技术滥用风险。

EVMbench 的推出，为AI 在智能合约安全领域的能力提供了一套可量化标准。在区块链资产规模持续扩大的背景下，AI 工具在审计与风险管理中的角色可能逐步增加。随着模型能力进展与产业应用扩展，AI 与智能合约之间的互动，预计将成为区块链基础设施发展的重要观察指标。

本文链接地址：https://www.wwsww.cn/rgzn/37160.html
郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。