小米 – 自动驾驶多模态大模型算法研发实习生职位分析和面试指导

职位描述：

1. 参与研发前沿大语言模型、多模态大模型、文生3D方向等相关前沿算法，发表国际顶级论文、申请专利
2. 深入调研和关注LLM/VLM/AIGC等方向的前沿技术，重点关注大语言模型和多模态模型Evaluation/SFT/Agent/数据合成技术等相关方向
3. 负责多模态理解&3D生成式等算法，如 LLava、GPT、Otter、StabelDiffusion等系列，包括但不限于图像-文本的多模态对话、多模态标签生成、VQA、多模态任务解析、触发、图像数据编辑及生成等。

职位要求：

1. 2025届硕士及以上学历在读，人工智能、计算机、自动化、数学相关专业优先；
2. 有扩散模型、GAN、ControlNet、LoRA、P-Tuning、NeRF等生成模型使用经验者优先；
3. 熟悉多模态 CLIP 等transformer跨模态表征模型，熟悉 LLaVA、GPT-like、Otter、Sora 等前沿多模态大模型原理和训练，了解 LMM 训练中的数据制作、性能调优及评测等环节者优先；
4. 有一作顶级会议和期刊文章，有开源项目经验，或在多模态、计算机视觉或机器学习领域的比赛中获得过优异成绩者优先；
5. 一周4-5天，且持续6个月以上，有良好的英文读写能力和扎实的数学基础；责任心强，积极主动，有良好的沟通能力和团队合作能力；

招聘部门：

小米

工作地点：

北京市

面试建议：

小米自动驾驶多模态大模型算法研发实习生岗位是一个极具挑战性的前沿技术岗位。这个职位最核心的要求是候选人需要具备扎实的多模态大模型和生成式AI技术基础，特别是对LLaVA、GPT-like等前沿模型有深入理解。不同于一般的算法实习生岗位，这里特别强调对3D生成技术和多模态评估技术的掌握，以及发表顶级论文和专利的能力。在准备面试时，建议重点复习多模态大模型的原理和训练方法，特别是transformer架构在跨模态任务中的应用。准备好展示你在生成模型方面的实践经验，比如使用过Diffusion Model或GAN完成的项目。由于岗位强调学术产出，要详细准备你参与过的研究项目，特别是顶会论文或开源项目经验。面试中可能会考察你对前沿技术的理解深度，建议持续关注LLM/VLM/AIGC领域的最新进展。同时，小米非常看重实习生的持续工作能力，要准备好说明你能够保证6个月以上的全职实习时间。