职位描述:
– 负责基于 Kubernetes 的云原生 AI 算力管理能力的建设,包括 GPU 的调度、虚拟化、池化、混部等技术;
– 负责提升 Kubernetes GPU 集群的故障容错能力,提升大规模集群的可靠性;
– 负责推动云原生 GPU 相关技术在业务的落地,提升业务的训练、推理等稳定性和效率;
职位要求:
– 熟悉 GPU 相关技术,对 Nvidia GPU 技术有深入了解;
– 有 GPU 池化、虚拟化、调度优化等技术经验者优先;
– 有大规模 GPU 集群建设和调优经验者优先;
– 熟练掌握 Kubernetes/Docker/Linux/Go/Python 等相关技术和语言,编程功底强;
招聘部门:
小米
工作地点:
北京市 ID:A149079
面试建议:
这个职位是典型的云原生与AI基础设施交叉领域岗位,小米显然在构建自己的AI算力管理平台。面试官最看重的不是你掌握多少种技术,而是如何用Kubernetes生态解决GPU资源管理的实际问题。 建议重点准备三个维度的案例:首先是GPU相关技术,要能说清楚Nvidia架构特性与Kubernetes调度器的结合点;其次是规模化的故事,比如处理过哪些GPU集群特有的故障模式;最后是业务价值层面,如何证明你的技术方案真正提升了训练/推理效率。特别提醒,这个岗位对Go语言的要求可能比想象中更高,因为Kubernetes生态的核心组件都是用Go开发的。准备一段你参与的K8s Operator或CRD开发经历会很加分。
在线咨询
请输入您的问题:
提示:由 AI 生成回答,可能存在错误,请注意甄别。