高可用、容灾与稳定性治理¶
这部分考什么¶
高级岗位通常会从“单点故障怎么消除”“跨可用区怎么设计”“稳定性怎么度量”来考察你的平台视角。
复习框架¶
高可用设计¶
- 单点识别
- 主备、主主、多副本
- 故障转移与健康检查
- 无状态与有状态服务的 HA 设计
容灾设计¶
- 同城双活、两地三中心
- RPO / RTO
- 数据备份与恢复演练
- 关键依赖降级
稳定性治理¶
- SLI / SLO / SLA
- 错误预算
- 容量冗余
- 演练与预案
平台层手段¶
- 多可用区部署
- 自动扩缩容
- 限流降级熔断
- 发布风险控制
面试常见问法¶
- 你如何评估一个系统是否真正高可用?
- RPO 和 RTO 在实际工作里怎么落地?
- 如果核心依赖宕机,你会怎么设计降级方案?
后续待补¶
- HA 架构样例
- 容灾面试题模板