职位描述:
1. 主导AI训练平台任务调度系统与队列管理架构设计,优化大规模分布式训练任务的资源调度策略与执行效率
2. 开发高并发任务调度算法,解决资源抢占、优先级调度、故障恢复等核心问题,保障万卡级集群资源利用率
3. 构建智能队列管理系统,支持弹性配额、动态优先级调整、故障任务自动迁移等高级功能,满足LLM/VLM等大模型训练需求
4. 负责调度系统可观测性建设与性能优化,培养调度领域技术团队
职位要求:
职位要求:
1. 精通Go/Python开发,具有大型分布式系统调度模块的架构设计经验,熟悉任务队列的底层实现原理
2. 深入理解Kubernetes调度机制,有Volcano/Kueue等批量调度框架二次开发经验者优先
3. 熟悉主流调度算法(DRF/Gang Scheduling/Fair Sharing等),有大规模AI训练任务调度优化实战经验
4. 具备高性能计算(HPC)或AI训练平台调度系统开发经验,熟悉MPI/AllReduce等分布式训练通信模式
加分项:
– 主导过单集群万卡级资源调度系统开发
– 实现过LLM训练任务的动态弹性调度方案
– 参与过Training-operator/Kubeflow等开源项目调度模块贡献
– 发表过任务调度/资源管理相关领域论文或专利
招聘部门:
小米
工作地点:
武汉市 ID:A253942
面试建议:
这个职位是小米AI训练平台的高级研发工程师,核心挑战在于解决万卡级集群的资源调度问题。面试官最关注的是你在分布式系统调度方面的实战经验,特别是针对AI训练场景的特殊需求。他们需要的是能设计出高效调度算法,同时能解决资源抢占、优先级调度等复杂问题的专家级人才。 准备面试时,你需要重点展示在Kubernetes调度优化方面的经验,特别是与AI训练相关的案例。准备好详细讲解你参与过的调度系统架构设计,最好能提供性能优化的具体数据。对于算法部分,要能清晰解释不同调度策略的适用场景和取舍。如果是来自开源社区的贡献者,记得突出你在相关项目中的具体工作。技术深度和系统思维是这个岗位的关键考核点,面试中要展现出你解决复杂问题的系统化方法。
在线咨询
请输入您的问题:
提示:由 AI 生成回答,可能存在错误,请注意甄别。