监控、日志与可观测性¶
这部分考什么¶
高级运维的价值不只是“处理故障”,更是提前发现问题并缩短定位时间。
复习框架¶
监控体系¶
- 指标、日志、链路追踪的分工
- RED / USE 方法论
- 主机监控、容器监控、应用监控
- 告警分级与收敛
常用组件¶
- Prometheus
- Alertmanager
- Grafana
- Loki / ELK
- Jaeger / Tempo / SkyWalking
告警治理¶
- 告警阈值设计
- 去重、抑制、聚合
- 值班与升级机制
- 告警疲劳治理
可观测性建设¶
- 从“有监控”到“能定位”
- 发布、容量、故障的关联分析
- 业务指标与技术指标联动
面试常见问法¶
- 你如何设计一套监控告警体系?
- Prometheus 为什么适合云原生场景?
- 告警很多但定位慢,问题通常出在哪?
后续待补¶
- 指标设计范式
- 典型 Grafana 看板思路