职位简介:
作为腾讯TEG的大模型推理引擎研发工程师,你将负责研发及优化大模型推理引擎和PD分离推理调度系统,支持主流GPU和异构AI芯片,优化大模型推理性能以打造极致性能成本优势。你需要熟练掌握C/C++、Python编程语言,具备良好的coding和调试能力,并熟悉GPU/AI芯片编程如CUDA、OpenCL、Ascend C等,熟悉cutlass等加速库将是加分项。同时,你需要熟悉主流大模型推理框架如vllm、sglang、tensorrt-llm等,了解各类深度学习网络和算子底层实现细节,有训练和推理模型调试、调优实操经验者优先。此外,熟悉并行策略如模型并行、流水线并行,了解NVLINK、GPU通信者优先,具备GPU、AI芯片体系结构知识及系统性能分析和调优经验者更佳。加分项包括机器学习或体系结构相关顶会论文、参与vllm、sglang等开源项目贡献者,以及熟悉推理服务框架、具备服务部署经验者,尤其是超大模型分布式部署经验者。
简历及面试建议:
在撰写简历时,你需要突出自己在C/C++和Python编程方面的扎实基础,尤其是与GPU/AI芯片编程相关的项目经验。详细描述你使用CUDA、OpenCL或Ascend C进行优化的具体案例,展示你在性能调优方面的能力。如果你有参与主流大模型推理框架如vllm、sglang或tensorrt-llm的开发或优化经验,务必在简历中明确列出,并说明你的具体贡献。此外,强调你在深度学习网络和算子底层实现方面的知识,以及在实际项目中的调试和调优经验。如果你有并行策略(如模型并行、流水线并行)的应用经验,或对NVLINK、GPU通信有深入了解,也要在简历中体现。最后,不要忘记提及你在开源项目中的贡献、顶会论文发表或超大模型分布式部署经验,这些都是能让你的简历脱颖而出的关键点。
在面试过程中,面试官会重点考察你的技术深度和实际项目经验。准备时,确保你对C/C++、Python编程语言有深入理解,并能举例说明你在实际项目中如何应用这些技能解决问题。面试官可能会询问你关于GPU/AI芯片编程的具体问题,如CUDA编程中的优化技巧或使用cutlass等加速库的经验,因此要提前复习这些知识点。此外,准备好讨论你在大模型推理框架方面的经验,包括你如何优化性能或解决特定问题。面试官还可能考察你对深度学习网络和算子底层实现的理解,以及你在调试和调优方面的实际经验。在回答问题时,尽量使用具体的项目案例来支持你的观点,展示你的技术能力和解决问题的能力。最后,如果你有开源项目贡献、顶会论文或超大模型部署经验,准备好详细讨论这些经历,它们将大大增加你的竞争力。
在线咨询
提示:由 AI 生成回答,可能存在错误,请注意甄别。