Frank's Ops & Tech Lab

监控、日志与可观测性

正在初始化搜索引擎

🏠 首页
☁️ 云原生 & K8s
☁️ AWS 云资源
🚀 中间件
☕ Java & JVM
🛠️ DevOps 实践
🎯 面试准备
📝 个人笔记
📈 技术指标分析
📂 归档

Frank's Ops & Tech Lab

🏠 首页
☁️ 云原生 & K8s
☁️ 云原生 & K8s
☁️ AWS 云资源
☁️ AWS 云资源
- EKS 资源管理
- EKS 两种创建模式
🚀 中间件
🚀 中间件
- RocketMQ/Kafka
- Redis/Nacos
☕ Java & JVM
☕ Java & JVM
- 性能调优
- OOM 排查实战
🛠️ DevOps 实践
🛠️ DevOps 实践
🎯 面试准备
🎯 面试准备
📝 个人笔记
📝 个人笔记
- 笔记说明
- 事故复盘
  事故复盘
  - 目录说明
  - 平台值班复盘示例
- 内部笔记
  内部笔记
  - 目录说明
  - 优路科技 DevOps / AI 基础设施技术面问题清单
- 平台专题
  平台专题
  - 目录说明
📈 技术指标分析
📈 技术指标分析
- 股票技术分析
📂 归档

目录

这部分考什么
复习框架
面试常见问法
后续待补

监控、日志与可观测性¶

这部分考什么¶

高级运维的价值不只是“处理故障”，更是提前发现问题并缩短定位时间。

复习框架¶

监控体系¶

指标、日志、链路追踪的分工
RED / USE 方法论
主机监控、容器监控、应用监控
告警分级与收敛

常用组件¶

Prometheus
Alertmanager
Grafana
Loki / ELK
Jaeger / Tempo / SkyWalking

告警治理¶

告警阈值设计
去重、抑制、聚合
值班与升级机制
告警疲劳治理

可观测性建设¶

从“有监控”到“能定位”
发布、容量、故障的关联分析
业务指标与技术指标联动

面试常见问法¶

你如何设计一套监控告警体系？
Prometheus 为什么适合云原生场景？
告警很多但定位慢，问题通常出在哪？

后续待补¶

指标设计范式
典型 Grafana 看板思路

© 2026 frank，保留所有权利。渝ICP备2026008916号-1

Made with Material for MkDocs