职位简介:
作为腾讯云高性能网络后台研发工程师,核心职责是开发计算集群的RDMA网络系统并优化AI训练框架与云平台的结合,需要构建业界领先的网络性能与稳定性。该岗位要求5年以上AI研发经验,熟悉PyTorch/TensorFlow等深度学习框架及TensorRT等推理框架优化,深入理解GPU、分布式计算、RDMA等技术,并具备C++/Python开发能力。同时需要跟踪AI基础设施前沿技术,对云计算AI产品有深刻认知,拥有产品规划能力和技术前瞻性思考。本科及以上学历,计算机相关专业背景,通过腾讯云认证者优先。工作地点在上海。
简历及面试建议:
在准备腾讯云高性能网络研发岗位的简历时,建议将RDMA网络开发经验放在最醒目的位置,用具体数据说明你参与的项目规模(如支持多少GPU节点)和性能提升效果(如延迟降低百分比)。对于AI框架优化经验,要明确列出你熟悉的框架名称及优化案例,比如’优化Megatron-LM在2000张GPU集群上的通信效率,提升训练速度35%’这样的量化成果。云计算相关经验要突出与主流云厂商技术的对比理解,可以单独设立’云技术能力’板块来整合AWS/Azure/阿里云等平台的对比认知。技术栈描述避免简单罗列,建议用’精通RDMA协议栈开发(5年)’这样的格式体现深度和时长。管理经验部分要展示技术决策能力而非单纯团队规模,例如’主导3个AI基础设施架构设计决策’。最后记得在明显位置标注腾讯云相关认证情况,这是腾讯特别看重的加分项。
面试时将重点考察你对RDMA技术细节的掌握程度,建议准备3-5个实际遇到的网络性能问题及解决方案案例。面试官可能会让你在白板上绘制RDMA在AI训练中的通信流程,要提前练习用图示说明vGPU到NIC的数据路径。对于框架优化问题,要准备好解释你如何平衡算法特性和网络特性,例如可以讨论如何根据AllReduce通信模式调整RDMA的QP数量。当被问及云计算平台选择时,避免泛泛而谈,应该结合具体业务场景(如大模型训练vs推荐系统)分析各云厂商方案的优劣。技术深度问题可能会涉及GPU Direct RDMA的注册内存限制等细节,要把这类知识点整理成问答清单。在行为面试环节,腾讯特别看重技术决策过程,要用STAR法则清晰描述你如何在不同技术方案间做选择。最后记得准备1-2个关于腾讯云AI基础设施战略的前瞻性问题,这能体现你的战略思维与岗位的契合度。
在线咨询
提示:由 AI 生成回答,可能存在错误,请注意甄别。