Walter Fan's Blog

⭐ 推荐文章

大龄程序员尚能饭否 — 大龄程序员的自我审视
不要让快餐与短视频改变了我们 — 在碎片化时代保持清醒
从手搓 Workflow 到 LangGraph — AI 流程编排的两种路径
AI 时代，我为什么还要写作 — 写作是自娱自乐与表达欲
职场工具箱之 SCAMPER — 用 7 个动作把没想法变成有方案

产线故障应对：Runbook、时间线、决策树、检查表怎么用才不慌

Posted on 四 07 5月 2026 in Method • Tagged with incident-response, runbook, timeline, decision-tree, checklist, reliability, sre, methodology

产线故障发生时，真正让团队稳下来的不是某个高手突然开天眼，而是一套提前准备好的结构：Runbook 负责行动，时间线负责事实，决策树负责判断，检查表负责防漏。四件武器配合得好，故障处理就从“群里互相喊话”变成“按步骤止血、按证据决策、按事实复盘”。

给 secrets 表加 history 表：这是不是一个靠谱的审计方案？

Posted on 一 27 4月 2026 in Tech • Tagged with mysql, audit-log, database, secret-management, partitioning, reliability

用 secrets_action_history 记录 secrets 表的新增、修改和删除，看起来像一个小需求，其实踩中了变更索引、审计、备份、review、性能、数据生命周期和 MySQL 分区限制这几块地雷。本文讨论这个方案是否靠谱，并给出按时间窗口拉取变更、定时清理、分区维护和巡检的落地方案。

ChaosBlade：把混沌工程从口号变成可回滚的实验

Posted on 一 27 4月 2026 in Tech • Tagged with chaos-engineering, chaosblade, reliability, sre, kubernetes

ChaosBlade 是阿里巴巴开源的混沌工程实验工具。它的价值不在于“搞坏系统”，而在于用可控、可观测、可回滚的实验，提前暴露分布式系统里的脆弱假设。

服务稳定性之 LMAT 和 USED：别等着报警, 先学会"看病历"

Posted on 五 06 3月 2026 in Journal • Tagged with journal, sre, observability, reliability, LMAT, USED

LMAT 是观测的四件套(Log/Metrics/Alert/Trace), USED 是系统体检的四个指标(Usage/Saturation/Error/Delay)。一个管"看见", 一个管"看懂"。把这两套方法配起来, 稳定性工作才不至于变成“救火队日常”。