OpenAI 与 Paradigm 推出 EVMbench 以测试 AI 智能合约黑客攻击

Rongchai Wang 2026年3月5日 00:55

新基准评估 AI 代理检测、修补和利用智能合约漏洞的能力。GPT-5.3-Codex 在利用任务上得分 72.2%。

OpenAI 和加密风险投资公司 Paradigm 发布了 EVMbench,这是一个衡量 AI 代理在以太坊智能合约中查找、修复和利用漏洞能力的基准测试。这一公告发布之际,AI 驱动的安全工具正在竞相保护锁定在 DeFi 协议中超过 1000 亿美元的资金。

该基准测试从 40 个真实安全审计中提取了 120 个精选的高严重性漏洞,主要来自 Code4rena 竞赛。它还包括来自 Tempo(一个为稳定币支付而构建的第 1 层区块链)安全审查的漏洞场景。

破坏智能合约的三种方式

EVMbench 在三种不同模式下测试 AI 代理。在检测模式中,代理审计合约存储库并根据发现已知漏洞进行评分。修补模式要求代理在不破坏现有功能的情况下修复有漏洞的代码。利用模式是最激进的——代理必须对部署在沙箱区块链上的合约执行实际的资金抽取攻击。

结果显示 AI 能力在这一领域的进步速度有多快。通过 Codex CLI 运行的 GPT-5.3-Codex 在利用任务上达到了 72.2% 的成功率。这是仅在六个月前推出的 GPT-5 的 31.9% 分数的两倍多。

有趣的是,AI 代理在攻击方面的表现优于防御。利用设置有一个明确的目标——持续迭代直到耗尽资金。检测和修补被证明更困难。代理有时在发现一个错误后就停止,而不是进行彻底审计,并且在消除微妙漏洞的同时保持完整的合约功能仍然具有挑战性。

OpenAI 承认 EVMbench 无法捕捉现实世界合约安全的全部难度。像 Uniswap 或 Aave 这样大量部署的协议所接受的审查远超审计竞赛代码。该基准测试也无法验证代理是否发现了人类审计员遗漏的合法漏洞——它仅检查已知问题。

利用环境在干净的本地 Anvil 实例上运行,而不是分叉的主网状态,并且依赖时间的攻击不在范围内。目前仅限单链环境。

除了 EVMbench,OpenAI 承诺提供 1000 万美元的 API 积分,专门用于防御性安全研究。该公司正在将其 Aardvark 安全研究代理扩展到更多用户,并与开源维护者合作进行免费代码库扫描。

时机很重要。随着 AI 代理在利用合约方面变得更好,漏洞发现和利用之间的窗口正在缩小。不使用 AI 辅助审计的协议团队将越来越发现自己处于劣势,而攻击者正在使用。

OpenAI 公开发布了 EVMbench 的任务、工具和评估框架。对于 DeFi 开发者和安全研究人员来说,这既是一个衡量标准,也是对 AI 能力发展方向的警告。

图片来源:Shutterstock