职位描述:
1. 设计、开发并优化面向NPU的高性能算子库,覆盖卷积、矩阵运算、归一化等核心算子;
2.基于类CUDA编程语言或NPU专用指令集,实现算子极致性能优化,降低延迟与功耗;
3.深入理解NPU硬件架构(如计算单元、内存层级、数据流),针对硬件特性进行算子级优化;
4.与芯片团队紧密协作,反馈算子性能瓶颈并提出硬件改进建议;
5.编写高性能计算代码、汇编级优化及Benchmark测试。
职位要求:
1.计算机科学、电子工程、数学等相关专业,本科及以上学历;
2. 熟悉cuda/C++/Python中至少一种编程语言;
3. 具备类CUDA编程经验(CUDA/OpenCL/HIP等)或NPU SDK开发经验;
4. 熟悉并行计算体系结构,有NPU/GPU开发和优化经验优先;
5. 对性能优化有极致追求,能通过Profiling工具(如Nsight、VTune)定位瓶颈
6. 良好的团队沟通能力, 责任心强, 具备一定抗压能力。
招聘部门:
小米
工作地点:
北京市社招全职职位 ID:A202179
面试建议:
这个高性能算子库开发工程师职位对技术深度有很高要求,特别是对NPU架构的理解和算子优化能力。面试官会重点关注你在并行计算和硬件优化方面的实际经验,而不仅仅是理论知识。小米作为一家技术驱动的公司,对性能优化有着极致的追求,这从职位描述中多次强调’极致性能优化’就可以看出。 建议你在准备面试时,重点准备以下几个方面的内容:首先,详细梳理你在NPU/GPU优化方面的项目经验,特别是那些能够体现你解决性能瓶颈能力的案例。其次,复习NPU硬件架构的关键知识点,包括计算单元、内存层级和数据流等。最后,准备一些使用Profiling工具进行性能调优的具体案例,最好能展示你如何通过数据驱动的方式发现问题并解决问题。面试时可能会要求你现场分析一些性能问题,所以保持思维敏捷很重要。