服务稳定性之 LMAT 和 USED:别等着报警, 先学会"看病历"

Posted on Fri 06 March 2026 in Journal • Tagged with journal, sre, observability, reliability, LMAT, USED • 2 min read

LMAT 是观测的四件套(Log/Metrics/Alert/Trace), USED 是系统体检的四个指标(Usage/Saturation/Error/Delay)。一个管"看见", 一个管"看懂"。把这两套方法配起来, 稳定性工作才不至于变成“救火队日常”。


Continue reading

服务稳定性之 LMAT 和 USED

Posted on Fri 06 March 2026 in Tech • Tagged with observability, SRE, monitoring, stability, LMAT, USED • 7 min read

隐患险于明火,防范胜于救灾,责任重于泰山。本文介绍服务稳定性的两个核心方法论:LMAT(Log, Metrics, Alert, Trace)和 USED(Usage, Saturation, Error, Delay),并结合实践经验,讲解如何构建一套系统化的服务稳定性保障体系。


Continue reading