职位简介:
作为腾讯云AI大模型SRE工程师,你将负责大模型平台的稳定运行,支持开源Deepseek等模型服务训练与部署的多个环节,并优化部署流程包括持续集成、持续部署和自动化工具。你需要管理集群和服务治理,设计容灾方案保障系统高可用,同时负责资源成本管理与规划,优化计算和存储资源以提升机器学习任务效率。此外,你将分析AI硬件应用中的质量性能表现,提供系统技术支持并推动改进落地,同时关注业界前沿技术动态,探索运维自动化和智能化的方向。该职位要求本科及以上学历,3年以上机器学习平台相关经验,熟练掌握Go/Python/Shell等编程语言,熟悉容器技术和K8s、Docker,深入了解GPU架构与并行计算,具备优秀的逻辑分析能力和团队合作精神。
简历及面试建议:
在撰写简历时,你需要突出与AI大模型平台运维相关的经验,特别是那些能够展示你对GPU架构、分布式训练和推理技术理解的案例。详细描述你在K8s和Docker方面的实际应用经验,包括你如何优化部署流程或提升系统稳定性的具体例子。如果你有参与过大模型项目的构建、部署或维护,务必详细说明你的角色和贡献,包括使用的技术栈和取得的成果。对于编程能力,强调你在Go、Python或Shell中的熟练程度,尤其是那些用于自动化或智能化运维的脚本或工具。此外,展示你在资源成本管理和性能优化方面的经验,这将大大增加你的竞争力。记得量化你的成就,比如通过你的努力减少了多少资源浪费或提升了多少系统稳定性。
面试时,准备好深入讨论你在AI大模型平台运维中的实际经验。面试官可能会重点考察你对GPU架构和分布式训练技术的理解,所以确保你能够清晰地解释CUDA编程、RDMA网络通信和NCCL集合通讯等概念。你可能会被问到具体的场景问题,比如如何处理大模型训练中的性能瓶颈或设计容灾方案,因此提前准备一些实际案例会很有帮助。展示你的问题解决能力,特别是在面对复杂系统时的逻辑分析和抽象能力。沟通和团队合作也是考察重点,准备好分享你如何与开发团队协作解决技术难题的例子。最后,表现出你对前沿技术的关注和学习能力,这会让面试官看到你的成长潜力。
在线咨询
提示:由 AI 生成回答,可能存在错误,请注意甄别。