职位简介:
作为腾讯游戏IEG的资深机器学习工程师/专家,你将负责3D/动画等美术资产生成大模型的分布式训练和推理系统的性能优化,包括通过数据并行、模型并行、流水线并行、专家并行等策略的工程实现和性能优化,解决大模型训练中的显存瓶颈、通信延迟和负载均衡等核心计算资源问题,并负责多模态RLHF训练与推理平台的实现。你需要熟悉GPU架构及CUDA编程、算子融合优化,掌握PyTorch FSDP、DeepSpeed、Megatron-LM等分布式训练框架,具备大模型多种并行训练策略实战经验,同时熟悉vLLM、SGLang等大模型推理框架及实际性能调优经验,如KV Cache优化、动态批处理、Attention算子定制等,并了解大模型强化学习的工程技术,如OpenRLHF框架。工作地点为深圳。
简历及面试建议:
在撰写简历时,你需要突出在大规模模型训练与推理优化方面的实际经验,特别是与3D/动画资产生成相关的项目。详细描述你使用过的分布式训练框架(如PyTorch FSDP、DeepSpeed、Megatron-LM)和推理框架(如vLLM、SGLang),并具体说明你在性能调优方面的贡献,例如如何优化KV Cache、动态批处理或定制Attention算子。如果你有参与过多模态RLHF训练与推理平台的项目,务必详细说明你的角色和成果。量化你的成就,比如通过优化将训练时间缩短了多少百分比,或者推理速度提升了多少倍。此外,强调你对GPU架构和CUDA编程的深入理解,以及在实际项目中如何应用这些知识解决显存瓶颈或通信延迟问题。
面试时,面试官会重点关注你在大规模模型训练与推理优化方面的实际经验和解决问题的能力。准备好详细讨论你参与过的项目,特别是那些涉及多种并行训练策略和推理性能调优的案例。面试官可能会问及你如何解决特定的技术挑战,例如显存瓶颈或通信延迟问题,因此你需要能够清晰地解释你的思路和解决方案。此外,可能会涉及技术细节的深入讨论,如CUDA编程、算子融合优化或特定框架的使用经验,因此确保你对这些技术有扎实的理解。在回答问题时,使用STAR方法(情境、任务、行动、结果)来结构化你的回答,以展示你的技术能力和项目成果。同时,准备好讨论你对大模型强化学习工程技术的理解,特别是OpenRLHF框架的应用经验。最后,展示你对行业趋势和技术发展的见解,这将有助于体现你的专业深度和持续学习的能力。
在线咨询
提示:由 AI 生成回答,可能存在错误,请注意甄别。