
Sui 基金会于5/31 发布事后检讨报告,说明5/28、5/29 主网两日内三度当机的完整因果关系。三次当机都可追溯至v1.72 版本升级引入的两个独立bug,其中一项当机甚至发生在团队已知该修补程式仍带有当机风险、但仍决定上线换取网络恢复的情境下。
三次中断依时间顺序为5/28 上午7 时至下午1 时30 分(太平洋时间,下同)、5/29 上午5 时至8 时30 分、5/29 下午1 时30 分至晚间7 时20 分。基金会声明三次当机过程中使用者资金未受威胁,网络恢复时亦未撤销任何已完成结算的交易。
v1.72 引入的gas 计费漏洞撑起前两次当机
v1.72 版本升级的核心改动是引入「位址余额」(address balances)机制,让使用者得以不依赖coin object 直接从位址支付gas。问题出在这套新逻辑与gas 计费的互动:当混合gas 交易余额不足时会触发InsufficientFundsForWithdraw 例外,但gas 结算阶段仍会尝试扣款,导致零余额被打成负数、引发系统崩溃。
5/28 中午约12 时,Sui 核心团队部署第一版临时修补,绕过此类例外场景下的gas 结算流程,网络在下午1 时30 分恢复。然而隔日5/29 上午,另一条同样会被掩盖的取消交易路径出现新版本的InsufficientFundsForWithdraw 条件,绕过了临时修补,网络再次当机。核心团队于上午8 时部署涵盖更多情境的完整修补后,于9 时40 分恢复。
第三次当机:明知有风险的DKG 修补仍上线
真正的问题出在第三次当机。为了配合5/29 上午的修补上线,验证者需重启,但这次重启过程中分散式金钥生成(DKG)参与量低于门槛,使随机性服务暂时失效,这个失败状态却没有写入磁碟。后续每一轮重启的验证者都不知道DKG 已失败,依赖随机性的交易被无限期搁置、Epoch 收尾逻辑也卡住。
Sui 基金会在报告中坦言,这项导致第三次当机的修补上线时,团队已知它带有当机风险,但为了优先恢复服务、选择接受该风险。下午1 时30 分团队再部署第三版修补,将DKG 状态写入磁碟、并新增Epoch 强制收尾机制,于晚间7 时20 分恢复网络。
AI 代理协助加速诊断,后续强化四大方向
事后报告特别点名AI 代理(AI agents)在本周故障诊断中扮演实质角色。基金会表示,这些可以存取生产环境状态、互动查询验证者日志、检查丛集状态与汇整指标的AI 代理,让工程团队整体的侦错效率大幅提升,并让更多人能即时参与排查。
基金会列出四项后续强化重点:扩大Epoch 收尾阶段的安全模式回退路径;把gas 计费逻辑提升到与Move 虚拟机、Mysticeti 共识同等的程式品质标准,包括模组化与不变式测试;持续投资AI 工具于生产环境除错能力;以及发展失败隔离机制,让验证者在遇到问题交易时能跳过或重启、而非全网停机。
本文链接地址:https://www.wwsww.cn/hqfx/39154.html
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。



