小米 – 多模态视觉感知算法工程师实习生职位分析和面试指导

职位描述：

1、调研多模态大模型等领域的前沿算法，并进行评测，给出研究报告和知识体系建设；
2、辅助完成数据采集/数据（自动）标注/模型训练评测等相关工作和流程搭建；
3、完成多模态大模型相关领域的论文，并在计算机视觉类的会议投递发表。

职位要求：

1、熟练掌握深度学习基础知识，对视觉感知算法/多模态大模型等方向有相关研究背景；
2、较好的python代码能力，能够熟练使用tensorflow/pytorch中的一种或多种深度学习框架；
3、较好的动手能力，能够快速搭建并评测前沿算法模型；
4、有视觉大模型等相关领域经验或者在CV领域全球顶会发表过相关论文者优先；
5、有较好的Python/C++编码能力和良好的编码习惯。

招聘部门：

小米

工作地点：

北京市

面试建议：

多模态视觉感知算法工程师实习生是一个技术含量较高的职位，小米公司显然希望找到具备扎实深度学习基础和多模态大模型研究背景的候选人。这个职位最特别的地方在于不仅要求掌握理论知识，更看重实际动手能力，能够快速实现和评测前沿算法。同时，公司还期望实习生能够参与论文发表，这对学术能力也提出了较高要求。在准备面试时，你需要重点准备以下几个方面：首先，确保你对深度学习基础知识和多模态大模型的最新进展有深入了解，特别是计算机视觉领域的应用。其次，准备好展示你的编程能力，特别是使用Python和深度学习框架的实际经验。建议准备一些你之前实现的算法项目，最好能展示你快速实现和评测模型的能力。此外，如果你有论文发表经历，一定要详细准备这部分内容，面试官很可能会深入询问你的研究方法和创新点。最后，不要忽视编码习惯这类软性要求，小米作为技术驱动型公司，对代码质量有着严格要求。