跳转至

故障排查与性能优化

这部分考什么

面试官往往会通过故障题来判断你是否真正经历过生产环境,而不是只停留在概念层。

复习框架

排障思路

  • 先止血还是先定位
  • 从现象到链路的拆解方式
  • 从系统层到应用层的排查顺序
  • 如何缩小问题范围

高频故障类型

  • CPU 飙高
  • 内存泄漏 / OOM
  • 磁盘打满
  • 网络抖动
  • 数据库连接耗尽
  • 发布引发服务雪崩

性能优化

  • 容量评估与压测
  • JVM / 应用参数优化
  • 数据库慢查询治理
  • 缓存命中率优化
  • 系统瓶颈定位

复盘能力

  • 根因分析
  • 时间线整理
  • 改进项设计
  • 如何避免同类问题复发

面试常见问法

  • CPU 100% 时你会怎么查?
  • 一次线上事故里你最关键的判断是什么?
  • 你如何做一份让团队信服的复盘?

后续待补

  • 真实故障案例模板
  • 常见场景排障 SOP