OOM 排查实战¶
现象识别¶
OOM 不一定只表现为进程直接退出,也可能先出现频繁 Full GC、接口超时、实例反复重启等前置信号。
排查步骤¶
- 确认 OOM 类型
- 获取日志与 GC 信息
- 分析堆转储或对象分布
- 回看最近发布与流量变化
常见类型¶
- Java heap space
- Metaspace
- Direct buffer memory
- Unable to create new native thread
实战建议¶
- 保留异常时刻的线程栈和 GC 日志
- 结合业务流量峰值分析对象增长原因
- 优先排查缓存、集合膨胀和消息堆积
复盘模板¶
- 触发时间
- 影响范围
- 根因分析
- 临时止血手段
- 长期修复方案