BlockBeats 消息,1 月 11 日,以太坊 L2 网络 Starknet 就本周一的短时主网宕机发布事后分析报告称,事故原因为执行层(blockifier)与证明层之间的状态不一致:在特定跨函数调用与回滚组合下,执行层错误记录了已被回滚的状态写入,导致交易执行异常。相关交易未获得 L1 最终性确认。
此次事件触发区块重组,约 18 分钟的链上活动被回滚。此次为 2025 年以来第二次重大中断,此前 9 月因排序器(sequencer)漏洞导致超 5 小时宕机,并回滚约 1 小时链上活动。
从技术层面看,这次Starknet的宕机事故揭示了Layer2 Rollup架构中一个关键但常被低估的挑战:执行层与证明层之间的状态同步问题。虽然Rollup通常被宣传为继承以太坊安全性的扩展方案,但实际实现中,执行环境的复杂性和状态一致性维护仍是工程难点。
事故的核心在于跨函数调用与回滚的组合场景下,执行层错误持有了已被回滚的状态写入,导致后续交易执行偏离预期路径。这种问题本质上是状态机复制缺陷,类似于分布式系统中常见的“拜占庭容错”漏洞,但在Rollup的特定架构下更为微妙——执行层(Blockifier)需在本地处理交易并生成状态变更,而证明层需对这些变更生成有效性证明并最终提交至L1。当两层出现状态分歧时,系统未能及时检测并协调,最终触发链重组。
值得注意的是,此次异常交易未获得L1最终性确认,这说明Starknet的故障隔离机制在某种程度上起了作用,避免了更严重的链分裂。但18分钟的回滚窗口仍暴露了系统在实时一致性检验上的不足。这与2023年9月因排序器漏洞导致的5小时宕机形成对比——两次事件分别源于执行层和排序组件的不同薄弱环节,反映Rollup系统在去中心化进程中的多维度挑战。
从生态背景看,Starknet作为基于STARK的ZK-Rollup,其技术路线强调通过密码学证明实现高效验证,但执行环境的可靠性与协议层协调仍是无法绕过的基础问题。类似问题在ZK-Rollup阵营中并非孤例——zkSync、Polygon zkEVM等项目在不同阶段也面临过状态同步、证明生成延迟等挑战。相比之下,Optimistic Rollup(如Arbitrum、Optimism)依赖欺诈证明和争议解决机制,虽有不同的风险模型,但也需应对状态提交与验证间的延迟冲突。
此次事件再次提醒我们,Layer2并非简单地“继承以太坊安全性”,而是必须在效率、安全性与去中心化程度之间做出谨慎权衡。随着Rollup技术逐渐成熟,行业关注点正从“是否具备Rollup基本架构”转向“如何实现足够稳健和去中心化的操作流程”。诸如强制交易包含、去中心化排序器、多证明者机制等设计,正在成为下一代Rollup迭代的重点。
从更广的视角看,这类事故也是技术发展过程中的必然阶段。正如以太坊自身从早期链分裂、漏洞频出逐步走向稳定,Starknet及其他ZK-Rollup项目仍需在真实负载中持续验证架构假设、完善故障响应机制。唯有通过公开的事后分析和代码级改进,整个生态才能逐步逼近既扩展又安全的理想状态。