Chainfeeds 导读:
当问题发生时,Sui 工程团队迅速诊断问题并发布修复方案,随后由验证节点部署,最大限度地缩短了网络中断时间。
文章来源:
https://mp.weixin.qq.com/s/6ycV6FKCL26Qu3NiM29jRw
文章作者:
Sui
观点:
Sui:Sui 网络基于对象的架构支持大规模并行处理不同的用户交易,这在大多数其他网络中无法实现。然而,如果多笔交易同时写入同一共享对象,则这些交易必须按顺序执行,且涉及该特定对象的交易处理量存在上限。阻塞控制系统通过限制写入同一共享对象的交易速率,防止网络因执行时间过长的检查点而过载。我们最近升级了阻塞控制系统,以通过更准确地估算交易复杂度来提高共享对象的利用率。但新模式 TotalGasBudgetWithCap 的代码中存在一个 bug,导致此次问题的发生。在问题确立后,代码修复十分直接(详见 PR #20365)。该修复已部署到主网(v1.37.4)和测试网(v1.38.1)。在验证节点社区的积极响应下,从修复发布到 Sui 网络恢复正常仅用了 15 分钟。在这个过程里,我们学到了:1)事件检测与响应系统运行良好: 自动警报与社区报告几乎同时触发,我们迅速调动团队资源进行诊断和修复。2)验证节点社区表现出色: 修复发布后,Sui 网络几乎立刻恢复正常。预防措施包括:1)改进测试系统: 增加更多类似触发此次崩溃的对抗性交易类型,以发现潜在问题;2) 优化构建流程: 提高调试和发布二进制文件的生成速度,进一步减少事件响应时间。此次中断过程中的一部分时间是由于等待构建发布版本。
内容来源