小米 – 多模态视觉感知算法工程师实习生职位分析和面试指导

职位描述：

1、调研多模态大模型等领域的前沿算法，并进行评测，给出研究报告和知识体系建设；
2、辅助完成数据采集/数据（自动）标注/模型训练评测等相关工作和流程搭建；
3、完成多模态大模型相关领域的论文，并在计算机视觉类的会议投递发表。

职位要求：

1、熟练掌握深度学习基础知识，对视觉感知算法/多模态大模型等方向有相关研究背景；
2、较好的python代码能力，能够熟练使用tensorflow/pytorch中的一种或多种深度学习框架；
3、较好的动手能力，能够快速搭建并评测前沿算法模型；
4、有视觉大模型等相关领域经验或者在CV领域全球顶会发表过相关论文者优先；
5、有较好的Python/C++编码能力和良好的编码习惯。

招聘部门：

小米

工作地点：

北京市

面试建议：

多模态视觉感知算法工程师实习生是一个技术性很强的职位，它要求应聘者不仅要有扎实的深度学习基础，还需要对多模态大模型和视觉感知算法有深入的理解和实践经验。面试官会特别关注你在这些领域的实际项目经验，尤其是能否快速实现和评测前沿算法。此外，如果你在CV顶会发表过相关论文，这将是极大的加分项。为了准备这个面试，建议你重点复习深度学习的基础知识，特别是与视觉感知和多模态大模型相关的部分。准备几个你参与过的相关项目，详细描述你在其中的角色和贡献。如果你有论文发表，确保你能清晰地解释研究内容和创新点。同时，练习用Python实现一些常见的视觉算法，展示你的编码能力。面试中可能会涉及算法实现和优化的讨论，所以准备好解释你的思路和决策过程。