给 AI Agent 装个行车记录仪:用 Claude Code 和 Codex 的 Hook 追踪 Skill 调用

Posted on 一 01 6月 2026 in Tech • Tagged with AI Agent, Claude Code, Codex, Hooks, Observability, Skills

用 Claude Code 和 Codex CLI 各自官方的 hook 机制,把 AI Agent 调用 skill 的过程审计下来——什么时候触发了、传了什么参数、跑了多久,全留痕。给两家都给出可直接抄的配置。


Continue reading

服务稳定性之 LMAT 和 USED:别等着报警, 先学会"看病历"

Posted on 五 06 3月 2026 in Journal • Tagged with journal, sre, observability, reliability, LMAT, USED

LMAT 是观测的四件套(Log/Metrics/Alert/Trace), USED 是系统体检的四个指标(Usage/Saturation/Error/Delay)。一个管"看见", 一个管"看懂"。把这两套方法配起来, 稳定性工作才不至于变成“救火队日常”。


Continue reading

服务稳定性之 LMAT 和 USED

Posted on 五 06 3月 2026 in Tech • Tagged with observability, SRE, monitoring, stability, LMAT, USED

隐患险于明火,防范胜于救灾,责任重于泰山。本文介绍服务稳定性的两个核心方法论:LMAT(Log, Metrics, Alert, Trace)和 USED(Usage, Saturation, Error, Delay),并结合实践经验,讲解如何构建一套系统化的服务稳定性保障体系。


Continue reading