职位描述:
1、业务方向:负责AI相关业务的运维工作,主要是算力集群控制面稳定性管理,AI推理业务等
2、架构方向:负责AI平台运维、监控体系的建设及维护,制定相关流程规范
3、工作涵盖容量管理、灾备管理、活动重保、日常Oncall、troubleshooting、业务巡检、故障预案、架构优化、技术运营等,做到7*24快速响应;
4、通过技术手段进行成本控制及优化,通过工具化及流程提升服务管理效率。
职位要求:
1、具备GPU服务器集群管理经验,了解GPU虚拟化技术。有大规模AI推理集群维护经验优先。
2. 熟悉docker、containerd、runc等容器技术和K8S,有大规模分布式集群运维经验者优先。
3、精通Ubuntu、CentOS、欧拉等操作系统,熟悉常用基础设施,对网络、微服务、中间件、负载均衡、存储等有较深入理解;
4. 熟悉DevOps,有服务治理、高可用体系建设经验优先,有高并发服务设计与实现经验;
5、熟练SHELL编程,熟练PYTHON/GO中的任意一门语言,能独立开发模块或平台优先;
6、阳光热情、积极主动、逻辑清晰、团队协作。
招聘部门:
小米
工作地点:
北京市 ID:A184036
面试建议:
小米的AI运维工程师职位是一个极具挑战性的岗位,它要求候选人不仅具备传统运维工程师的技能,还需要对AI算力集群有深入理解。这个岗位最特殊的地方在于需要同时管理大规模GPU集群和具备开发能力,这在普通运维岗位中并不常见。面试官会特别关注你在GPU虚拟化、容器编排和自动化运维方面的实战经验。 在准备面试时,你需要重点准备以下几个方面的内容:首先,详细梳理你过去参与的GPU集群运维项目,特别是遇到过的故障案例和解决方案。其次,准备好展示你的编程能力,特别是用Python或Go实现的运维工具或自动化脚本。最后,不要忽视软技能的准备,这个岗位需要7*24响应能力,面试官会特别考察你的问题解决能力和抗压能力。建议准备几个体现你快速定位和解决复杂问题的实际案例,这会给面试官留下深刻印象。