跳转至

监控、日志与可观测性

这部分考什么

高级运维的价值不只是“处理故障”,更是提前发现问题并缩短定位时间。

复习框架

监控体系

  • 指标、日志、链路追踪的分工
  • RED / USE 方法论
  • 主机监控、容器监控、应用监控
  • 告警分级与收敛

常用组件

  • Prometheus
  • Alertmanager
  • Grafana
  • Loki / ELK
  • Jaeger / Tempo / SkyWalking

告警治理

  • 告警阈值设计
  • 去重、抑制、聚合
  • 值班与升级机制
  • 告警疲劳治理

可观测性建设

  • 从“有监控”到“能定位”
  • 发布、容量、故障的关联分析
  • 业务指标与技术指标联动

面试常见问法

  • 你如何设计一套监控告警体系?
  • Prometheus 为什么适合云原生场景?
  • 告警很多但定位慢,问题通常出在哪?

后续待补

  • 指标设计范式
  • 典型 Grafana 看板思路