职位描述:
1. 模型训练基础设施开发
– 设计和实现支持大规模分布式训练的计算平台,优化模型训练效率和资源利用率。
– 维护和扩展现有的分布式训练框架,确保平台的高性能和稳定性(如基于 PyTorch、TensorFlow 或 JAX)。
– 集成和优化高性能计算技术(如 CUDA、MPI、NCCL 等)。
2. 模型推理基础设施开发
– 构建高效的推理框架,支持大模型的在线和离线推理需求。
– 优化推理速度、内存占用和能耗,支持多种硬件架构(GPU、NPU等 )。
– 实现PD分离、Context Caching、模型量化、推敲编码等推理优化技术。
3. 性能监控与优化
– 开发工具链和监控系统,跟踪训练与推理过程的性能瓶颈。
– 分析并优化数据加载、通信效率和硬件利用率等关键环节。
4. 跨团队协作
– 与模型研究团队密切合作,理解模型需求,定制训练和推理策略。
– 支持产品团队的模型部署需求,推动大模型在实际场景中的落地应用。
职位要求:
基本要求:
– 计算机科学、软件工程、机器学习或相关领域的本科及以上学历,硕士或博士优先。
– 深入理解深度学习原理和分布式训练框架(如 Horovod、DeepSpeed、Ray 等)。
– 熟练掌握至少一种主流深度学习框架(如 PyTorch、TensorFlow 或 JAX)。
– 熟悉高性能计算技术(CUDA、NCCL、cuDNN 等)及硬件架构(GPU、NPU 等)。
– 具有扎实的编程能力,精通 Python 和至少一种系统级编程语言(如 C++)。
优先条件:
– 有参与或主导过大规模模型(如 Transformer、大语言模型)的训练和部署经验。
– 熟悉模型优化技术(如混合精度训练、剪枝、量化等)。
– 对云计算和容器化技术(如 Kubernetes、Docker、Terraform)有实际经验。
– 对新兴 AI 硬件(如 H卡)有实操经验。
– 具备优秀的系统设计和性能调优能力。
招聘部门:
小米
工作地点:
北京市 ID:A14015
面试建议:
这个职位是小米公司大模型基础设施团队的核心技术岗位,主要挑战在于处理超大规模模型的训练和推理优化。面试官最看重的是候选人在分布式系统和性能优化方面的实战能力,特别是对新兴技术的快速掌握和应用能力。 建议重点准备分布式训练框架的底层实现原理,比如如何设计高效的参数服务器架构。同时要准备1-2个具体的性能优化案例,比如你如何通过改进通信协议将训练速度提升30%。对于推理优化,要熟悉最新的技术如Context Caching和推敲编码的实现细节。面试中可能会让你现场分析一个训练瓶颈并提出优化方案,所以要多练习系统设计题。另外小米特别看重对新硬件的适配能力,如果你有H卡或NPU的实操经验一定要重点突出。