腾讯 – 大模型推理优化研发工程师-算子优化 职位分析和面试指导

职位简介:

作为腾讯CSIG的大模型推理优化研发工程师,你将参与基于GPU的高性能计算项目设计与开发,专注于GPU芯片的底层性能优化与调优。你需要针对大模型推理场景优化和扩展vLLM、SGLang等框架的核心模块,提升计算效率与资源利用率,同时深入分析GPU硬件架构特性如Tensor Core、显存带宽和通信机制等,设计并实现高性能算子与算法。此外,你还需要探索前沿技术方向如混合专家模型MOE、动态计算图编译优化和JIT等,推动AI工程化落地的效率提升。职位要求2年以上GPU高性能计算开发经验,精通CUDA/OpenCL等GPU编程语言,熟悉Triton、Cutlass、CK等高性能算子开发工具,并具备vLLM、SGLang等大模型推理框架的实际调优经验。扎实的高性能计算基础,熟悉并行计算、内存优化、通信优化等技术,熟练使用C/C++、Python,具备良好的算法设计与代码实现能力,同时熟悉Attention结构MHA/MQA/GQA/MLA及MOE结构。

>> 在腾讯官网查看完整职位详情。

简历及面试建议:

在撰写简历时,务必突出你在GPU高性能计算和大模型推理优化方面的实际经验。具体来说,详细描述你参与过的GPU优化项目,特别是涉及NVIDIA或AMD芯片的项目,强调你在底层性能调优方面的贡献。列出你熟悉的GPU编程语言如CUDA和OpenCL,并说明你在这些语言上的熟练程度。如果你有使用Triton、Cutlass或CK等高性能算子开发工具的经验,一定要明确提及,并举例说明你如何利用这些工具优化了特定算子的性能。对于大模型推理框架如vLLM和SGLang,描述你在这些框架上的实际调优经验,例如KV Cache优化、动态批处理或Attention算子定制等。此外,展示你对Attention结构和MOE结构的理解,可以通过具体项目或研究成果来证明。最后,确保你的简历中包含了你在C/C++和Python上的编程能力,以及你在算法设计和实现方面的经验。

在面试中,面试官会重点关注你在GPU高性能计算和大模型推理优化方面的实际能力。准备时,回顾你在GPU优化项目中的具体贡献,尤其是那些涉及底层性能调优的部分。准备好解释你如何利用CUDA或OpenCL进行编程,并举例说明你在优化GPU性能时遇到的挑战及解决方案。对于Triton、Cutlass和CK等工具,面试官可能会询问你如何使用这些工具开发高性能算子,因此你需要准备具体的案例来展示你的经验。关于大模型推理框架,面试官可能会深入探讨你在vLLM或SGLang上的调优经验,特别是KV Cache优化和动态批处理等技术。此外,准备好讨论你对Attention结构和MOE结构的理解,以及你如何将这些知识应用到实际项目中。面试中可能会涉及算法设计和实现的讨论,因此确保你对常见的并行计算、内存优化和通信优化技术有深入的理解。最后,保持自信,展示你对前沿技术的兴趣和探索精神,这将有助于你在面试中脱颖而出。

在线咨询

提示:由 AI 生成回答,可能存在错误,请注意甄别。