职位简介:
作为腾讯TEG的混元大模型推理加速工程师,你将负责配合算法工程师推动深度学习相关算法的落地,打造高吞吐、低延时的推理系统,并优化大模型推理性能和框架。你需要熟练掌握C/C++、Python语言,具备计算机体系结构或软件开发背景,熟悉系统性能调优方式,并具备GPU编程能力及熟悉各类GPU加速库。同时,你需要有深度学习推理框架的实际使用经验,熟悉深度学习网络和算子底层实现细节,以及CPU/GPU异构加速瓶颈分析方法。有服务器端AI芯片、GPU加速经验或超大模型分布式部署经验者优先。工作地点为北京或深圳。
简历及面试建议:
在撰写简历时,你需要突出与大模型推理加速相关的技术能力和项目经验。首先,确保简历中详细列出你掌握的编程语言(C/C++、Python)和GPU编程技能(Cuda、OpenCL),并注明你熟悉的GPU加速库(如cublas、cudnn、cutlass等)。其次,重点描述你在深度学习推理框架(如Tensorrt、FasterTransformer、Tensorrt-llm、vllm)中的实际使用经验,包括具体的项目案例和优化成果。此外,如果你有计算机体系结构背景或系统性能调优经验,务必在简历中清晰体现。最后,不要忘记提及你在分布式推理加速或超大模型部署方面的经验,这些将是简历中的亮点。
在面试过程中,面试官会重点考察你的技术深度和实际解决问题的能力。准备时,你可以回顾自己在GPU编程和深度学习推理框架优化中的具体案例,确保能够清晰描述技术细节和优化效果。面试中可能会涉及技术问题的现场解决,因此建议提前复习常见的性能调优方法和GPU加速技术。此外,面试官可能会询问你对分布式推理加速的理解,因此需要准备好相关的技术讨论。在回答问题时,尽量结合具体项目经验,展示你的技术能力和问题解决思路。最后,保持自信和专业的沟通态度,这将有助于你给面试官留下深刻印象。
在线咨询
提示:由 AI 生成回答,可能存在错误,请注意甄别。