跳转至

OOM 排查实战

现象识别

OOM 不一定只表现为进程直接退出,也可能先出现频繁 Full GC、接口超时、实例反复重启等前置信号。

排查步骤

  1. 确认 OOM 类型
  2. 获取日志与 GC 信息
  3. 分析堆转储或对象分布
  4. 回看最近发布与流量变化

常见类型

  • Java heap space
  • Metaspace
  • Direct buffer memory
  • Unable to create new native thread

实战建议

  • 保留异常时刻的线程栈和 GC 日志
  • 结合业务流量峰值分析对象增长原因
  • 优先排查缓存、集合膨胀和消息堆积

复盘模板

  • 触发时间
  • 影响范围
  • 根因分析
  • 临时止血手段
  • 长期修复方案