职位描述:
自动驾驶场景下多模态大模型(VLA:Vision-Language-Action)算法的预研, 包含但不限于:
1. 研究视觉、语言与行为动作之间的联合建模机制,探索多模态预训练与表征学习方法,实现跨模态对齐与融合;
2. 多模态数据集的构建与管理,包括视觉、语言、行为等多模态标签设计与质量控制;
3. 探索模型蒸馏、小样本泛化等技术,推动模型在自动驾驶复杂场景中的部署效率;
4. 跟进并复现前沿研究(如 EMMA、RT-2、OpenVLA等),协助撰写技术报告、论文或专利材料。
5. 深入调研并实践 RLHF / DPO 等对齐技术,提升多模态模型的响应能力与行为决策能力;
6. 撰写高质量的技术文档,参与论文发表或专利申请。
职位要求:
1.计算机、人工智能、电子工程、自动化等相关专业硕士及以上学历在读,毕业时间不早于2025年;
2.具备多模态预训练、表征学习或强化学习相关研究经验者优先,熟悉 LLM/VLM/VLA 系列模型架构;
3.有多模态大模型(如 GPT-4V、LLaVA、InterVL、QwenVL)相关背景者优先;
4.熟悉 RLHF、DPO、模型蒸馏等训练优化技术,理解其在任务对齐与行为建模中的实际应用;
5.熟练掌握 PyTorch,具备独立开发训练深度模型的能力,了解模型调优、训练效率优化等工程实践;
6.有一定的数据构建与处理经验,能够高效组织多模态数据 pipeline;
7.每周可实习4天及以上,持续时间不少于6个月;具备良好的英文读写能力、沟通能力和团队合作精神。
招聘部门:
小米
工作地点:
北京市
面试建议:
自动驾驶多模态大模型算法研发实习生(VLA方向)是一个极具挑战性的职位,它要求应聘者不仅具备扎实的多模态大模型理论基础,还需要有实际的项目经验。这个职位的特殊性在于它专注于自动驾驶这一特定场景,需要将视觉、语言和行为动作进行联合建模,这对模型的跨模态对齐能力和实际部署效率提出了很高要求。面试官会特别关注你在多模态预训练、模型优化以及自动驾驶场景应用方面的经验。 建议你在准备面试时,重点梳理自己在多模态大模型方面的项目经验,特别是那些涉及跨模态融合和模型优化的案例。对于自动驾驶场景,你需要了解其特有的挑战,如实时性要求、复杂环境下的决策等。准备好讨论你如何处理多模态数据、优化模型性能以及在资源受限情况下的部署策略。同时,对前沿技术如RLHF/DPO的理解也很重要,面试官可能会考察你如何将这些技术应用到实际场景中。最后,别忘了准备一些关于论文阅读和技术文档撰写的例子,因为这些也是日常工作的重要组成部分。