优路科技 DevOps / AI 基础设施技术面问题清单¶

使用方式¶

这份清单按“如果我是面试官，会怎么追问”的角度整理。

准备时不要只背答案，最好每个模块都准备 1-2 个真实案例，按下面结构表达：

背景是什么
问题有多严重
你怎么定位
你做了什么
结果量化如何
后续怎么防止复发

一、最近项目深挖¶

你现在维护的 ACK 集群规模多大？节点数、Pod 数、核心业务 QPS 大概多少？
ACK 托管版和 ACK Edge 你都用过，它们在网络、节点管理、发布、故障排查上最大的差异是什么？
你简历里写“火山云 VKE 迁移到 ACK Edge”，迁移前后做了哪些准备？回滚方案是什么？
你说 K8s 故障恢复时间降到 10 分钟内，具体是哪些故障？你怎么定位的？
你做的 DevOps 平台包含哪些模块？哪些是你独立设计的？后端技术栈是什么？

二、Kubernetes / CNI / kube-proxy¶

CNI 和 kube-proxy 分别负责什么？
Terway 和 Flannel 的网络模型有什么区别？
你们 ACK 和 ACK Edge 都是 IPVS 模式，IPVS 和 iptables 模式差异是什么？
Service 访问不通，你会怎么排查？从 DNS、Service、EndpointSlice、IPVS、CNI 到 Pod 怎么一步步看？
kube-ipvs0 是什么？为什么 ClusterIP 会绑在这个接口上？
Flannel VXLAN 模式下，MTU 配错会出现什么现象？
Pod 跨节点访问偶发超时，你会看哪些指标和命令？
NetworkPolicy 你用过吗？Calico/Cilium/Terway 对网络策略支持有什么差异？

三、CI/CD 和发布体系¶

你们现在发布链路是 Jenkins、云效还是混合？怎么触发、审批、回滚？
K8s 里滚动发布如何做到无损？
Java 应用优雅停机你们怎么做？preStop、terminationGracePeriodSeconds、readinessProbe 分别起什么作用？
如果一次发布后错误率上升，但 Pod 都是 Running，你怎么定位？
灰度发布你调研过哪些方案？按比例、按 Header、按用户、按地域分别怎么做？
如果让你设计一个 AI 服务发布流水线，你会加哪些质量门禁？

四、监控、日志、告警、SRE¶

你们 Prometheus / Grafana / ARMS 分别监控什么？
一个服务你会设计哪些核心 SLI/SLO？
告警太多怎么办？怎么做告警收敛和分级？
你怎么判断一个故障是应用问题、网络问题、数据库问题还是云资源问题？
日志、metrics、tracing 三者分别解决什么问题？
如果 AI 接口 P99 延迟突然升高，你会怎么查？
怎么做容量评估？CPU、内存、连接数、队列长度、QPS 之间怎么关联？

五、AI Gateway / AI Infra¶

你理解的 AI Gateway 是什么？和普通 API Gateway 有什么区别？
如果公司有多个模型供应商，比如 DeepSeek、OpenAI、Claude、通义千问，你怎么统一接入？
模型调用失败时，fallback 怎么设计？什么时候重试，什么时候降级？
怎么统计每个业务线、每个用户、每个模型的 token 成本？
怎么做模型调用限流？按用户、按应用、按模型、按租户分别怎么限？
Prompt、模型 Key、用户输入、模型输出，哪些需要审计？
AI Agent 运行环境你怎么设计？任务状态、工具调用、超时、重试、日志怎么处理？
长耗时 AI 任务，比如 AI 写歌、图片识别、报告生成，适合同步接口还是异步队列？
如果一个 AI 任务执行 2 分钟，前端怎么感知进度？后端怎么保存状态？
如果模型输出不稳定，你从基础设施角度能做什么？

六、异步任务和队列¶

AI 生成类任务为什么通常要异步化？
Redis Stream、Kafka、RabbitMQ、Celery 你会怎么选？
任务失败怎么重试？重试会不会导致重复执行？
如何保证任务幂等？
队列积压了怎么扩容？怎么判断是 worker 不够、模型慢，还是下游存储慢？
如果任务执行到一半节点挂了，怎么恢复？

七、云资源、成本和稳定性¶

你做过哪些云成本优化？
如何识别闲置资源？
K8s 里 request / limit 怎么设置？设置不合理会有什么问题？
HPA、VPA、Cluster Autoscaler 分别解决什么问题？
如果 AI 推理服务成本很高，你会从哪些角度优化？
GPU 资源如果利用率低，你会怎么分析？

八、安全和治理¶

生产数据库变更你们怎么审批？
DMS + 飞书审批 + SQL 风险识别具体怎么落地？
代码仓库权限你怎么做最小权限？
AccessKey 轮换为什么重要？怎么避免业务无感知失败？
AI 场景下，模型 Key 泄露怎么办？
Prompt 注入、敏感信息泄露、模型输出违规，基础设施层能做哪些防护？

九、Linux / 网络基础¶

TCP 三次握手和四次挥手讲一下。
TIME_WAIT 太多怎么办？
一个接口偶发超时，你会用哪些 Linux 命令排查？
top、iostat、vmstat、ss、tcpdump 分别看什么？
DNS 慢怎么排查？
Nginx 502、504 分别可能是什么原因？
连接数打满和线程池打满，现象有什么不同？

十、简历亮点追问¶

Claude Code / Codex / K8s MCP 排障¶

你到底怎么接入 K8s？
Agent 能做什么，不能做什么？
有没有权限控制和审计？
有没有误操作风险？

DevOps 平台¶

平台架构怎么设计？
Kubernetes 资源管理怎么做？
云效应用管理怎么接？
数据库备份恢复怎么保证安全？

ACK Edge 迁移¶

为什么迁？
网络怎么处理？
服务怎么灰度？
数据怎么校验？
出问题怎么回滚？

DMS + 大模型 SQL 风险识别¶

大模型如何判断 SQL 风险？
误判怎么办？
高风险 SQL 怎么阻断？
审计日志怎么留？

十一、最应该准备的五个故事¶

一个 K8s 网络故障排查故事。
一个 CI/CD 发布或回滚故事。
一个 AI Agent 提升运维效率的故事。
一个成本优化故事。
一个安全治理或权限治理故事。

十二、整体表达方向¶

这类岗位不会只看“会不会 Kubernetes”。

更关键的是能不能把下面几件事串成一套生产系统思路：

DevOps
Kubernetes
监控与告警
自动化运维
AI Gateway
Agent 运行时
成本治理
安全治理

面试时要尽量把自己从“AI 工具使用者”表达成“AI 基础设施建设者”。