腾讯 – 腾讯云-AI 高性能计算工程师 职位分析和面试指导

职位简介:

作为腾讯云AI高性能计算工程师,核心职责是负责GPU等AI加速硬件的性能评估和优化,针对大模型训练推理场景进行全栈性能调优,包括单卡/单机/超节点/大集群等AI基础设施方案设计,并与芯片厂商及业务团队协作交付开箱即用解决方案。需要熟练掌握Linux环境下的Python/C++开发,深入理解GPU/AI芯片体系结构,具备主流训练框架(如Megatron/DeepSpeed)和推理框架(如vLLM/TensorRT)的优化经验,同时要求具备出色的系统设计能力、技术热情和跨团队协作能力,工作地点在深圳。

>> 在腾讯官网查看完整职位详情。

简历及面试建议:

在准备腾讯云AI高性能计算工程师的简历时,建议重点突出三个维度的匹配度。技术栈方面要用专业术语明确列出掌握的芯片架构(比如Nvidia A100/H100的SM单元优化经验)、具体使用过的框架(如DeepSpeed的ZeRO阶段实施案例)和优化指标(比如在某项目中实现吞吐量提升35%)。项目经验部分建议采用STAR法则,特别强调大规模集群的实战经验,例如’主导过200+GPU节点的LLM训练任务通信优化’这类具象化描述。对于芯片厂商合作这类独特要求,可以单独设立’生态合作’板块,列举参与过的联合开发项目或白皮书撰写经历。简历中适当加入性能指标数据会非常加分,但务必确保真实可验证,比如’通过CUDA内核重写将resnet50推理延迟降低22%’这样的表述。

面试准备需要针对腾讯云的业务特点做专项突破。技术深度考察可能会集中在分布式训练框架的瓶颈分析上,建议提前准备Megatron-LM的pipeline并行实现原理、NCCL通信优化等高频问题的技术预案。对于场景题,要预演超大规模集群(比如千卡级别)的性能问题诊断流程,包括如何利用nsight工具链进行热点分析。行为面试环节要重点准备跨团队协作的案例,特别是与芯片厂商对接时解决技术分歧的经验。模拟面试时可以练习在白板上绘制AI芯片的内存层次结构图,这种可视化表达能直观展现专业深度。遇到开放性问题时,建议先结构化拆解(比如区分硬件/软件/算法三个优化维度),再结合腾讯云实际业务场景(如混部场景下的GPU资源共享)给出落地方案。

在线咨询

提示:由 AI 生成回答,可能存在错误,请注意甄别。