跳转至

高可用、容灾与稳定性治理

这部分考什么

高级岗位通常会从“单点故障怎么消除”“跨可用区怎么设计”“稳定性怎么度量”来考察你的平台视角。

复习框架

高可用设计

  • 单点识别
  • 主备、主主、多副本
  • 故障转移与健康检查
  • 无状态与有状态服务的 HA 设计

容灾设计

  • 同城双活、两地三中心
  • RPO / RTO
  • 数据备份与恢复演练
  • 关键依赖降级

稳定性治理

  • SLI / SLO / SLA
  • 错误预算
  • 容量冗余
  • 演练与预案

平台层手段

  • 多可用区部署
  • 自动扩缩容
  • 限流降级熔断
  • 发布风险控制

面试常见问法

  • 你如何评估一个系统是否真正高可用?
  • RPO 和 RTO 在实际工作里怎么落地?
  • 如果核心依赖宕机,你会怎么设计降级方案?

后续待补

  • HA 架构样例
  • 容灾面试题模板