跳转至

Kubernetes 集群维护

日常巡检重点

  • 节点资源使用率是否异常
  • Pod 重启次数是否持续升高
  • 核心组件是否存在 CrashLoopBackOff
  • 存储、网络与 DNS 是否稳定

常用检查命令

kubectl get nodes
kubectl get pods -A
kubectl top nodes
kubectl top pods -A
kubectl get events -A --sort-by=.lastTimestamp

常见维护动作

节点维护

  • Cordon / Drain 节点
  • 升级 kubelet 或容器运行时
  • 检查磁盘与 inode 使用率

工作负载维护

  • 优化 requestslimits
  • 清理异常 Job 和历史副本
  • 排查探针配置不合理导致的重启

故障排查思路

  1. 先看事件
  2. 再看资源使用和日志
  3. 最后定位是否为网络、存储或配置发布引起

经验沉淀方向

建议后续补充真实巡检清单、告警阈值和典型故障案例。