Walter Fan's Blog

如何做一个接近零停机的 HTTP 服务

零停机服务不是一句“部署两套集群”就能实现的口号。真正可用的方案，是 active-active 流量、快速超时、跨集群重试、熔断摘除、共享幂等状态和无状态应用设计一起配合，让一次集群故障尽量止步于一次请求内部。

产线故障发生时，真正让团队稳下来的不是某个高手突然开天眼，而是一套提前准备好的结构：Runbook 负责行动，时间线负责事实，决策树负责判断，检查表负责防漏。四件武器配合得好，故障处理就从“群里互相喊话”变成“按步骤止血、按证据决策、按事实复盘”。

ChaosBlade 是阿里巴巴开源的混沌工程实验工具。它的价值不在于“搞坏系统”，而在于用可控、可观测、可回滚的实验，提前暴露分布式系统里的脆弱假设。

Posted on 五 06 3月 2026 in Journal • Tagged with journal, sre, observability, reliability, LMAT, USED

LMAT 是观测的四件套(Log/Metrics/Alert/Trace), USED 是系统体检的四个指标(Usage/Saturation/Error/Delay)。一个管"看见", 一个管"看懂"。把这两套方法配起来, 稳定性工作才不至于变成“救火队日常”。

Posted on 五 06 3月 2026 in Tech • Tagged with observability, SRE, monitoring, stability, LMAT, USED

隐患险于明火，防范胜于救灾，责任重于泰山。本文介绍服务稳定性的两个核心方法论：LMAT（Log, Metrics, Alert, Trace）和 USED（Usage, Saturation, Error, Delay），并结合实践经验，讲解如何构建一套系统化的服务稳定性保障体系。