优路科技 DevOps / AI 基础设施技术面问题清单¶
使用方式¶
这份清单按“如果我是面试官,会怎么追问”的角度整理。
准备时不要只背答案,最好每个模块都准备 1-2 个真实案例,按下面结构表达:
一、最近项目深挖¶
- 你现在维护的 ACK 集群规模多大?节点数、Pod 数、核心业务 QPS 大概多少?
- ACK 托管版和 ACK Edge 你都用过,它们在网络、节点管理、发布、故障排查上最大的差异是什么?
- 你简历里写“火山云 VKE 迁移到 ACK Edge”,迁移前后做了哪些准备?回滚方案是什么?
- 你说 K8s 故障恢复时间降到 10 分钟内,具体是哪些故障?你怎么定位的?
- 你做的 DevOps 平台包含哪些模块?哪些是你独立设计的?后端技术栈是什么?
二、Kubernetes / CNI / kube-proxy¶
- CNI 和 kube-proxy 分别负责什么?
- Terway 和 Flannel 的网络模型有什么区别?
- 你们 ACK 和 ACK Edge 都是 IPVS 模式,IPVS 和 iptables 模式差异是什么?
- Service 访问不通,你会怎么排查?从 DNS、Service、EndpointSlice、IPVS、CNI 到 Pod 怎么一步步看?
kube-ipvs0是什么?为什么 ClusterIP 会绑在这个接口上?- Flannel VXLAN 模式下,MTU 配错会出现什么现象?
- Pod 跨节点访问偶发超时,你会看哪些指标和命令?
- NetworkPolicy 你用过吗?Calico/Cilium/Terway 对网络策略支持有什么差异?
三、CI/CD 和发布体系¶
- 你们现在发布链路是 Jenkins、云效还是混合?怎么触发、审批、回滚?
- K8s 里滚动发布如何做到无损?
- Java 应用优雅停机你们怎么做?
preStop、terminationGracePeriodSeconds、readinessProbe分别起什么作用? - 如果一次发布后错误率上升,但 Pod 都是 Running,你怎么定位?
- 灰度发布你调研过哪些方案?按比例、按 Header、按用户、按地域分别怎么做?
- 如果让你设计一个 AI 服务发布流水线,你会加哪些质量门禁?
四、监控、日志、告警、SRE¶
- 你们 Prometheus / Grafana / ARMS 分别监控什么?
- 一个服务你会设计哪些核心 SLI/SLO?
- 告警太多怎么办?怎么做告警收敛和分级?
- 你怎么判断一个故障是应用问题、网络问题、数据库问题还是云资源问题?
- 日志、metrics、tracing 三者分别解决什么问题?
- 如果 AI 接口 P99 延迟突然升高,你会怎么查?
- 怎么做容量评估?CPU、内存、连接数、队列长度、QPS 之间怎么关联?
五、AI Gateway / AI Infra¶
- 你理解的 AI Gateway 是什么?和普通 API Gateway 有什么区别?
- 如果公司有多个模型供应商,比如 DeepSeek、OpenAI、Claude、通义千问,你怎么统一接入?
- 模型调用失败时,fallback 怎么设计?什么时候重试,什么时候降级?
- 怎么统计每个业务线、每个用户、每个模型的 token 成本?
- 怎么做模型调用限流?按用户、按应用、按模型、按租户分别怎么限?
- Prompt、模型 Key、用户输入、模型输出,哪些需要审计?
- AI Agent 运行环境你怎么设计?任务状态、工具调用、超时、重试、日志怎么处理?
- 长耗时 AI 任务,比如 AI 写歌、图片识别、报告生成,适合同步接口还是异步队列?
- 如果一个 AI 任务执行 2 分钟,前端怎么感知进度?后端怎么保存状态?
- 如果模型输出不稳定,你从基础设施角度能做什么?
六、异步任务和队列¶
- AI 生成类任务为什么通常要异步化?
- Redis Stream、Kafka、RabbitMQ、Celery 你会怎么选?
- 任务失败怎么重试?重试会不会导致重复执行?
- 如何保证任务幂等?
- 队列积压了怎么扩容?怎么判断是 worker 不够、模型慢,还是下游存储慢?
- 如果任务执行到一半节点挂了,怎么恢复?
七、云资源、成本和稳定性¶
- 你做过哪些云成本优化?
- 如何识别闲置资源?
- K8s 里
request/limit怎么设置?设置不合理会有什么问题? - HPA、VPA、Cluster Autoscaler 分别解决什么问题?
- 如果 AI 推理服务成本很高,你会从哪些角度优化?
- GPU 资源如果利用率低,你会怎么分析?
八、安全和治理¶
- 生产数据库变更你们怎么审批?
- DMS + 飞书审批 + SQL 风险识别具体怎么落地?
- 代码仓库权限你怎么做最小权限?
- AccessKey 轮换为什么重要?怎么避免业务无感知失败?
- AI 场景下,模型 Key 泄露怎么办?
- Prompt 注入、敏感信息泄露、模型输出违规,基础设施层能做哪些防护?
九、Linux / 网络基础¶
- TCP 三次握手和四次挥手讲一下。
TIME_WAIT太多怎么办?- 一个接口偶发超时,你会用哪些 Linux 命令排查?
top、iostat、vmstat、ss、tcpdump分别看什么?- DNS 慢怎么排查?
- Nginx
502、504分别可能是什么原因? - 连接数打满和线程池打满,现象有什么不同?
十、简历亮点追问¶
Claude Code / Codex / K8s MCP 排障¶
- 你到底怎么接入 K8s?
- Agent 能做什么,不能做什么?
- 有没有权限控制和审计?
- 有没有误操作风险?
DevOps 平台¶
- 平台架构怎么设计?
- Kubernetes 资源管理怎么做?
- 云效应用管理怎么接?
- 数据库备份恢复怎么保证安全?
ACK Edge 迁移¶
- 为什么迁?
- 网络怎么处理?
- 服务怎么灰度?
- 数据怎么校验?
- 出问题怎么回滚?
DMS + 大模型 SQL 风险识别¶
- 大模型如何判断 SQL 风险?
- 误判怎么办?
- 高风险 SQL 怎么阻断?
- 审计日志怎么留?
十一、最应该准备的五个故事¶
- 一个 K8s 网络故障排查故事。
- 一个 CI/CD 发布或回滚故事。
- 一个 AI Agent 提升运维效率的故事。
- 一个成本优化故事。
- 一个安全治理或权限治理故事。
十二、整体表达方向¶
这类岗位不会只看“会不会 Kubernetes”。
更关键的是能不能把下面几件事串成一套生产系统思路:
- DevOps
- Kubernetes
- 监控与告警
- 自动化运维
- AI Gateway
- Agent 运行时
- 成本治理
- 安全治理
面试时要尽量把自己从“AI 工具使用者”表达成“AI 基础设施建设者”。