职位描述:
1、业务方向:负责AI相关业务的运维工作,主要是算力集群控制面稳定性管理,AI推理业务等
2、架构方向:负责AI平台运维、监控体系的建设及维护,制定相关流程规范
3、工作涵盖容量管理、灾备管理、活动重保、日常Oncall、troubleshooting、业务巡检、故障预案、架构优化、技术运营等,做到7*24快速响应;
4、通过技术手段进行成本控制及优化,通过工具化及流程提升服务管理效率。
职位要求:
1、具备GPU服务器集群管理经验,了解GPU虚拟化技术。有大规模AI推理集群维护经验优先。
2. 熟悉docker、containerd、runc等容器技术和K8S,有大规模分布式集群运维经验者优先。
3、精通Ubuntu、CentOS、欧拉等操作系统,熟悉常用基础设施,对网络、微服务、中间件、负载均衡、存储等有较深入理解;
4. 熟悉DevOps,有服务治理、高可用体系建设经验优先,有高并发服务设计与实现经验;
5、熟练SHELL编程,熟练PYTHON/GO中的任意一门语言,能独立开发模块或平台优先;
6、阳光热情、积极主动、逻辑清晰、团队协作。
招聘部门:
小米
工作地点:
武汉市 ID:A38739
面试建议:
小米的AI运维工程师职位是一个极具挑战性的岗位,它要求候选人不仅要具备传统运维工程师的技术栈,还需要在AI领域有特别的专长。这个岗位最核心的差异点在于对GPU集群管理和AI平台运维的特殊要求,这不同于一般的服务器运维工作。面试官会特别关注候选人在AI算力资源管理方面的实际经验,包括GPU虚拟化、大规模推理集群维护等具体能力。 在准备面试时,建议重点准备以下几个方面的内容:首先,要详细梳理自己在GPU集群管理方面的项目经验,特别是规模、技术难点和解决方案;其次,要准备几个典型的故障排查案例,展示你的troubleshooting能力;最后,不要忽视编程能力的展示,准备好用Python或Go实现的自动化工具案例。记住,这个岗位特别强调7*24快速响应能力,所以在面试中要展现出你的应急处理能力和抗压能力。
在线咨询
请输入您的问题:
提示:由 AI 生成回答,可能存在错误,请注意甄别。