职位简介:
作为腾讯TEG的机器学习平台调度工程师,你将主导万卡级GPU集群的全局资源调度,通过精细化管理和优化策略提升资源利用率,确保离在线任务的高效稳定运行,并深入优化RDMA网络、分布式存储与计算资源的协同调度。基于Kubernetes、Docker等云原生技术构建高可用调度框架,需要精通K8s核心组件开发及大规模集群调优,同时具备OpenMP/MPI/RDMA高性能计算开发经验,熟悉主流AI框架及训练加速技术,能够探索混合云、ARM异构计算等前沿方向。需熟练掌握Go/Python/C++语言及算法基础,具备解决复杂调度问题的能力。工作地点为北京或深圳。
简历及面试建议:
在准备腾讯这个岗位的简历时,你需要突出三个维度的复合能力:大规模集群调度、云原生深度开发以及AI训练优化。不要简单罗列项目经历,而是要用具体数据展示你处理过的集群规模(比如’优化万卡GPU集群资源利用率从X%提升至Y%’),在K8s调度器或插件开发中的代码贡献量,以及通过RDMA网络优化带来的训练加速比。特别注意将技术栈与业务价值挂钩,例如’通过重构K8s调度算法减少任务排队时间30%’比单纯写’熟悉Kubernetes调度’更有说服力。对于应届生或经验较少的候选人,可以重点描述在分布式系统课程设计或开源社区贡献中体现的相关能力,比如参与KubeSphere等云原生项目的经验。
面试时将重点考察你解决复杂调度问题的系统思维,可能会给出诸如’如何设计支持万卡集群的容灾方案’等场景题。回答时要展示分层思考:从硬件层(RDMA网络拓扑)、系统层(K8s调度策略)到业务层(训练任务优先级)的全局视角。准备2-3个深度技术案例,比如’通过修改Kubelet实现显存碎片整理’这样的具体实践。对混合云等前瞻性问题,不必强求有实战经验,但需展示技术洞察力,可以谈谈对Karmada等多云调度框架的理解。特别注意腾讯对工程落地的重视,所有技术讨论都要关联到业务指标提升,例如’我的网络优化方案使ResNet50训练吞吐量提升22%’。最后,面试官可能会考察你对AI框架底层原理的理解,建议提前复习PyTorch DDP等分布式训练机制。
在线咨询
提示:由 AI 生成回答,可能存在错误,请注意甄别。