小米 – AI运维工程师职位分析和面试指导 – 找大厂工作，用全才测评

职位描述：

1、业务方向：负责AI相关业务的运维工作，主要是算力集群控制面稳定性管理，AI推理业务等
2、架构方向：负责AI平台运维、监控体系的建设及维护，制定相关流程规范
3、工作涵盖容量管理、灾备管理、活动重保、日常Oncall、troubleshooting、业务巡检、故障预案、架构优化、技术运营等，做到7*24快速响应；
4、通过技术手段进行成本控制及优化，通过工具化及流程提升服务管理效率。

职位要求：

1、具备GPU服务器集群管理经验，了解GPU虚拟化技术。有大规模AI推理集群维护经验优先。
2. 熟悉docker、containerd、runc等容器技术和K8S，有大规模分布式集群运维经验者优先。
3、精通Ubuntu、CentOS、欧拉等操作系统，熟悉常用基础设施，对网络、微服务、中间件、负载均衡、存储等有较深入理解；
4. 熟悉DevOps，有服务治理、高可用体系建设经验优先，有高并发服务设计与实现经验；
5、熟练SHELL编程，熟练PYTHON/GO中的任意一门语言，能独立开发模块或平台优先；
6、阳光热情、积极主动、逻辑清晰、团队协作。

招聘部门：

小米

工作地点：

武汉市 ID：A38739

面试建议：

小米的AI运维工程师职位是一个极具挑战性的岗位，它要求候选人不仅要具备传统运维工程师的技术栈，还需要在AI领域有特别的专长。这个岗位最核心的差异点在于对GPU集群管理和AI平台运维的特殊要求，这不同于一般的服务器运维工作。面试官会特别关注候选人在AI算力资源管理方面的实际经验，包括GPU虚拟化、大规模推理集群维护等具体能力。在准备面试时，建议重点准备以下几个方面的内容：首先，要详细梳理自己在GPU集群管理方面的项目经验，特别是规模、技术难点和解决方案；其次，要准备几个典型的故障排查案例，展示你的troubleshooting能力；最后，不要忽视编程能力的展示，准备好用Python或Go实现的自动化工具案例。记住，这个岗位特别强调7*24快速响应能力，所以在面试中要展现出你的应急处理能力和抗压能力。

在线咨询

请输入您的问题：

提示：由 AI 生成回答，可能存在错误，请注意甄别。