职位描述:
1.参与视觉大语言模型(VLM)算法的研究和落地,提升手机汽车等设备的多模态交互体验。
2.参与UIAgent、屏幕理解场景下的数据合成与质量提升,探索数据配比的前沿技术。
职位要求:
1.人工智能、模式识别、机器学习等相关专业,硕士及以上学历,博士优先;
2.扎实的编程基础,熟练掌握Python等主流语言,熟练应用pytorch、huggingface等;
3.理解主流VLM范式,如Qwen2.5-VL等;
4.有大模型训练经验,或大模型数据筛选和优化相关经验优先;
5.在学术会议上发表论文者优先,在机器学习、人工智能领域内获得过优异成绩者优先;
6.责任心强,积极主动,有良好的沟通和合作能力;
7.实习时间5个月及以上。
招聘部门:
小米
工作地点:
北京市
面试建议:
小米的多模态大模型算法实习生职位是一个极具挑战性的机会,特别关注视觉大语言模型(VLM)算法和多模态交互技术的实际应用。这个职位不仅要求扎实的算法基础,还特别看重在大模型训练和数据优化方面的实践经验。面试官很可能会深入考察你对VLM范式的理解程度,以及你处理实际问题的能力。 为了准备这个面试,建议你重点复习Qwen2.5-VL等主流VLM模型的技术细节,准备好展示你在大模型训练或数据优化方面的项目经验。同时,如果你有发表过相关论文或在机器学习竞赛中取得过好成绩,一定要重点准备这部分内容的介绍。面试中可能会涉及编程能力的考察,建议提前练习Python和PyTorch的编程题目。此外,由于这个职位强调多模态交互在手机汽车等设备上的应用,建议你思考一下这些场景下的技术挑战和可能的解决方案。