职位简介:
作为腾讯TEG的高性能网络通信库研发工程师,核心职责是开发大模型训练/推理场景下的高效集合通信算子(如AllReduce、AllGather等),设计通信与计算的overlap策略以提升整体性能,并针对GPU/NPU等硬件平台进行深度性能调优,同时参与AI通信库的架构设计和技术方案制定。该职位要求计算机/网络通信相关专业硕士学历,3年以上网络通信经验,精通C++/CUDA及Python,具备分布式训练/推理实践经验,理解数据/模型并行策略及大模型架构(如Transformer),并对GPU架构和CUDA编程有深入理解,有MPI/NCCL或RDMA经验者更佳。
简历及面试建议:
撰写简历时,务必突出你在高性能网络通信领域的实际项目经验,特别是与大模型训练/推理相关的通信算子开发案例。用具体数据量化性能提升效果(如’优化AllReduce算子使吞吐量提升40%’)。将CUDA编程和kernel优化经验单独列为技术专长,并注明使用的硬件平台(如A100/H100)。如果参与过开源通信库(如NCCL)贡献或发表过相关论文,需在显眼位置展示。教育背景中强调计算机体系结构、并行计算等课程,项目经历按’技术挑战-你的方案-可验证结果’的结构撰写,避免笼统描述。
面试将重点考察通信优化的技术深度,准备时需:1) 复习集合通信算子的数学原理和主流实现方式,练习在白板上推导AllReduce的算法流程;2) 针对简历中的每个项目,准备3层技术追问(如’如何诊断通信瓶颈’-‘用了哪些 profiling 工具’-‘具体优化指令集的选择依据’);3) 模拟硬件特性问题(如’在NVLink带宽受限时如何设计通信策略’)。技术讨论时要主动展示调试思维,用’假设-验证-结论’的框架回答问题。行为面试环节需准备压力场景案例(如’ deadline紧迫时如何权衡优化效果与交付风险’),体现工程权衡能力。最后可询问面试官腾讯在通信库方面的技术路线图,展现长期投入意愿。
在线咨询
提示:由 AI 生成回答,可能存在错误,请注意甄别。