职位简介:
作为腾讯云容器AI infra高级研发工程师,核心职责是研发deepseek等AI大模型在K8s上的推理部署方案并深度对接客户场景,推动AI Infra能力在TKE产品落地,包括设计AI工作负载、优化计算/网络/存储资源配置以提升训练推理效率,同时负责推理稳定性优化、亲和性调度、框架优化及GPU池化等专项工作。该岗位要求本科以上学历及5年相关经验,需精通Kubernetes生态及源码,具备Operator开发经验者优先,同时需要熟悉AI训练推理全流程及主流推理框架,掌握GPU/CUDA等加速技术,熟练使用Golang并至少掌握C++/Python等其他一门语言。
简历及面试建议:
在准备腾讯云这个岗位的简历时,你需要重点突出两个技术维度的交叉能力。首先是Kubernetes生态的深度实践,不要简单写’熟悉K8s’,而要具体说明你参与过的Operator开发、源码修改或性能优化案例,比如’主导开发了XX业务的定制化Operator,将Pod启动时间缩短40%’。其次是AI推理部署的实战经验,列举你接触过的大模型框架(triton/vllm等)及优化成果,例如’优化vllm推理服务的批处理策略,使QPS提升2.5倍’。特别要注意将技术细节量化,包括性能指标、成本节约或稳定性提升等具体数据。对于GPU相关优化经验要单独列出,比如’NCCL通信优化’或’RDMA网络调优’这类关键词。语言能力方面,Golang必须放在首位,其他语言按熟练度排序并注明应用场景。如果有开源项目贡献或技术博客,务必附上链接,这对证明你的技术深度非常有效。
面试时将面临技术和架构设计的双重考核。技术层面要做好代码白板编程的准备,可能会考察Golang实现K8s Controller的逻辑或CUDA核函数优化。对于AI推理部署的讨论,要提前准备1-2个完整的优化案例,按照’问题定位-方案设计-效果验证’的逻辑组织回答,比如如何解决模型并行时的显存碎片问题。架构设计题可能涉及大规模推理集群的资源调度,建议结合腾讯云TKE的特性来回答,展示你对产品技术栈的了解。当被问到技术选型时,要体现权衡思维,例如对比triton和vllm在不同场景下的优劣。特别注意面试官可能会故意设置技术矛盾点,比如’如何平衡推理延迟和资源利用率’,这时候要展示系统级的思考能力。最后记得准备1-2个关于腾讯云AI基础设施未来发展方向的问题,这能体现你的战略眼光。
在线咨询
提示:由 AI 生成回答,可能存在错误,请注意甄别。
联合国 AI 产品经理培训
UCAM人工智能产品经理证书培训隶属于“联合国可持续发展目标创新及产品管理能力建设项目”,由联合国CIFAL中心和Qgenius合作举办。
如您需要改证书考试大纲和课程学习介绍资料(电子版),请填写下面申请表单。
