职位简介:
该职位专注于高性能计算领域,核心职责包括解决算力瓶颈、通信延迟及分布式系统扩展性问题,并协同算法、硬件及运维团队构建高效稳定的计算基础设施。具体涉及GPU集群调度策略研究、分布式网络架构设计及大模型训练框架优化,需具备扎实的计算机体系结构基础和良好的数学基础,同时熟悉并行计算和数据密集型系统设计。加分项包括TensorRT/Triton Inference Server等推理框架经验、RDMA协议栈深入理解及Transformer架构熟悉度。工作地点可选深圳总部、北京或上海。
简历及面试建议:
在撰写简历时,务必突出你在高性能计算领域的实际经验,尤其是与GPU集群调度、分布式网络架构或大模型训练框架相关的项目。详细描述你在这些项目中的具体贡献,比如优化了哪些性能指标、解决了哪些技术难题。如果你有TensorRT/Triton Inference Server的使用经验,或者对RDMA协议栈有深入理解,一定要在简历中明确标注。此外,数学基础和计算机体系结构的知识也是面试官关注的重点,可以通过列举相关课程或项目来展示你的能力。简历中最好包含具体的数据和成果,比如‘通过优化GPU集群调度策略,提升了30%的资源利用率’。
面试时,面试官很可能会深入询问你在高性能计算领域的项目经验,尤其是技术细节和解决方案。准备几个你曾经解决过的复杂问题的案例,并能够清晰地解释你的思考过程和技术选择。对于GPU方向,可能会问到混合精度计算或模型量化的具体实现;网络方向可能会涉及MPI、NCCL的性能优化;大模型框架方向则可能讨论分布式训练策略的设计。此外,面试官可能会考察你的数学基础和算法复杂度优化能力,准备一些相关的理论问题和实际应用案例。保持自信,展示你对技术的热情和解决问题的能力。
在线咨询
提示:由 AI 生成回答,可能存在错误,请注意甄别。