职位简介:
作为腾讯CSIG云与智慧产业事业群的技术研究-高性能计算方向专家,你将负责解决算力瓶颈、通信延迟及分布式系统扩展性问题,并协同算法、硬件及运维团队构建高效稳定的计算基础设施。具体工作涵盖GPU集群调度策略研究、混合精度计算优化、分布式网络架构设计(如InfiniBand/RoCE/DPU)、大模型训练框架开发(如PyTorch/TensorFlow/DeepSpeed/Megatron-LM)及训练加速技术研究(梯度压缩、显存优化等)。需具备扎实的计算机体系结构基础、并行计算能力及良好的数学功底(线性代数、数值分析),有TensorRT/Triton Inference Server经验、RDMA协议栈深入理解或Transformer架构熟悉者优先。工作地点可选深圳总部、北京或上海。
简历及面试建议:
在撰写简历时,务必突出你在高性能计算领域的专业能力和项目经验。首先,详细描述你参与过的GPU优化项目,尤其是涉及集群调度策略或混合精度计算的部分,量化你的贡献(如提升资源利用率的具体百分比)。其次,强调你在分布式网络架构方面的经验,特别是使用InfiniBand/RoCE/DPU等技术的案例,以及如何优化MPI、NCCL通信库性能。如果有大模型训练框架的开发或优化经验,一定要具体说明你使用的框架(如PyTorch、TensorFlow)和实现的并行策略(如模型并行、流水线并行)。此外,不要忽略加分项,如TensorRT/Triton Inference Server经验或对Transformer架构的深入理解,这些细节能让你的简历脱颖而出。最后,确保简历中的技术术语准确无误,并附上相关论文或开源项目链接以增加可信度。
面试时,面试官会重点考察你的技术深度和解决问题的能力。准备时,建议你回顾计算机体系结构和并行计算的基础知识,尤其是与高性能计算相关的部分(如CUDA编程、RDMA协议栈)。对于项目经验,要能清晰阐述你解决的问题、采用的方法和最终效果,例如如何通过优化NCCL通信库减少网络拥塞,或如何设计混合并行策略提升大模型训练效率。面试官可能会提出实际场景问题,如‘如何解决千亿级参数模型训练中的显存瓶颈’,此时需结合你的经验给出具体方案(如梯度压缩、动态计算图调度)。此外,展示你对行业趋势的了解(如新兴的DPU技术或最新的大模型训练框架)也会加分。保持自信,用数据和实例支撑你的回答,并准备好提问环节的问题(如团队当前的技术挑战或未来的研究方向)。
在线咨询
提示:由 AI 生成回答,可能存在错误,请注意甄别。