Kubernetes 集群维护¶
日常巡检重点¶
- 节点资源使用率是否异常
- Pod 重启次数是否持续升高
- 核心组件是否存在 CrashLoopBackOff
- 存储、网络与 DNS 是否稳定
常用检查命令¶
kubectl get nodes
kubectl get pods -A
kubectl top nodes
kubectl top pods -A
kubectl get events -A --sort-by=.lastTimestamp
常见维护动作¶
节点维护¶
- Cordon / Drain 节点
- 升级 kubelet 或容器运行时
- 检查磁盘与 inode 使用率
工作负载维护¶
- 优化
requests与limits - 清理异常 Job 和历史副本
- 排查探针配置不合理导致的重启
故障排查思路¶
- 先看事件
- 再看资源使用和日志
- 最后定位是否为网络、存储或配置发布引起
经验沉淀方向¶
建议后续补充真实巡检清单、告警阈值和典型故障案例。