职位简介:
作为腾讯TEG的高性能网络通信库研发工程师,你将专注于大模型训练/推理场景下的高性能通信技术研发,包括设计和实现高效集合通信算子(如AllReduce、AllGather等),开发通信与计算的overlap策略以提升整体性能,并针对GPU、NPU等硬件平台进行深度性能调优。该职位要求计算机/网络通信相关专业硕士以上学历,3年以上网络通信经验,精通C++/CUDA和Python编程,具备分布式训练/推理实践经验,熟悉数据并行、模型并行等策略及大模型架构(如Transformer、GPT等),同时需要具备良好的问题解决能力和团队协作精神。有GPU架构理解、CUDA优化经验,或熟悉MPI/NCCL通信库、RDMA编程者将优先考虑。工作地点在深圳。
简历及面试建议:
在准备腾讯TEG高性能网络通信库研发工程师的简历时,你需要特别突出分布式训练场景下的通信优化经验。首先确保简历中明确列出你参与过的分布式训练/推理项目,详细描述你在其中负责的通信优化工作,比如是否开发过特定的集合通信算子,或者实现了哪些通信计算并行的创新方案。对于技术栈部分,要将C++/CUDA和Python放在显眼位置,并用具体项目说明你的熟练程度。如果有GPU/NPU性能调优经验,一定要量化你的优化成果,比如’通过优化AllReduce算子使训练速度提升30%’这样的具体数据会非常有说服力。此外,不要忘记强调你对主流大模型架构的理解,特别是Transformer系列模型,这能展示你与AI领域的契合度。最后,将MPI/NCCL、RDMA等加分项单独列出,并注明掌握程度,这些都可能成为你脱颖而出的关键。
面试腾讯这个职位时,你需要做好应对深度技术问题的准备。面试官很可能会围绕通信算子优化展开提问,比如让你详细解释AllReduce的实现原理,或者讨论在不同硬件平台上优化通信性能的考量因素。建议你提前复习CUDA编程模型和GPU架构知识,准备好你在实际项目中遇到的性能瓶颈案例及解决方案。对于通信计算融合这类前沿技术,要能清晰阐述你的设计思路和实现方法。面试中可能会涉及白板编程环节,考察你用C++实现特定通信算法的能力,因此要保持编程思维的活跃度。此外,大模型训练中的通信模式特点也是重点考察内容,你需要展示对数据并行、模型并行等策略的深入理解。记得准备几个能体现你问题解决能力和抗压能力的项目故事,腾讯非常看重工程师在面对复杂技术挑战时的表现。
在线咨询
提示:由 AI 生成回答,可能存在错误,请注意甄别。