Kubernetes 集群维护¶

日常巡检重点¶

节点资源使用率是否异常
Pod 重启次数是否持续升高
核心组件是否存在 CrashLoopBackOff
存储、网络与 DNS 是否稳定

常用检查命令¶

kubectl get nodes
kubectl get pods -A
kubectl top nodes
kubectl top pods -A
kubectl get events -A --sort-by=.lastTimestamp

常见维护动作¶

节点维护¶

Cordon / Drain 节点
升级 kubelet 或容器运行时
检查磁盘与 inode 使用率

工作负载维护¶

优化 requests 与 limits
清理异常 Job 和历史副本
排查探针配置不合理导致的重启

故障排查思路¶

先看事件
再看资源使用和日志
最后定位是否为网络、存储或配置发布引起

经验沉淀方向¶

建议后续补充真实巡检清单、告警阈值和典型故障案例。