职位描述:
负责VLA(视觉-语言-行动)多模态大模型在自动驾驶和机器人场景中的前沿算法研究,涵盖场景理解、语义引导决策、时空建模等核心能力;
主导VLA模型预研,构建可泛化、高可解释性的多模态基座大模型,为未来6~12个月技术演进提供基础支撑;
与高校及实习生协作,探索VLA的长期发展方向,包括表征学习,具身智能、慢系统蒸馏快系统等核心议题;
撰写高水平论文、技术文档,推动VLA方向在CVPR、NeurIPS、ICLR、CoRL等会议中的学术影响力。
职位要求:
教育背景:计算机科学、人工智能、机器人学、自动驾驶或相关领域的博士学位,或具备等效的研究经验;
多模态研究经验:深入了解视觉-语言-行动(VLA)大模型的构建与优化方法,特别是在自动驾驶、机器人等领域的应用;
理论与实践能力:扎实的机器学习、深度学习理论基础,具有视觉理解、自然语言处理与行为决策的交叉领域研究背景;
编程能力:熟练掌握Python及主流深度学习框架(如PyTorch、TensorFlow等),有高效模型训练与大规模数据处理经验;
学术能力:具有在国际顶级会议(NeurIPS、ICLR、CVPR、ICCV等)上发表过论文的经验,或参与过具有影响力的学术竞赛(如COCO、Kitti、nuScenes等);
跨学科能力:具备跨学科协作能力,能够有效将计算机视觉、自然语言处理与机器人学的知识融合,推动自动驾驶机器人领域的创新;
加分项:
在大规模预训练模型(如LLM、VLM、VLA等)微调、蒸馏等方面有深入研究;
具有实际项目经验,尤其是涉及具身多模态大模型 (如RT2、OpenVLA、Octo等) 开发经验者优先;
具有机器人或自动驾驶平台(如MuJoCo、CARLA、Waymo、nuScenes等)上的实验经验。
招聘部门:
小米
工作地点:
北京市 ID:A210746
面试建议:
这个职位是小米公司在自动驾驶与机器人领域的前沿研究岗位,专注于VLA多模态大模型的算法研究。关键点在于候选人需要具备深厚的多模态研究背景,尤其是视觉、语言和行动决策的交叉领域能力。特殊之处在于它不仅要求扎实的理论基础,还需要有实际的项目经验和学术影响力,尤其是在国际顶级会议上的发表记录。 针对这个职位的面试准备,建议候选人重点准备自己在VLA模型方面的研究经验,尤其是具体的项目案例和学术成果。面试官很可能会深入询问你在多模态模型构建、优化以及在实际场景(如自动驾驶或机器人)中的应用细节。同时,准备好讨论你如何解决跨学科研究中的挑战,以及你在学术社区中的贡献。对于加分项,如果你有相关经验,务必详细准备,因为这些可能是区分你与其他候选人的关键因素。
在线咨询
请输入您的问题:
提示:由 AI 生成回答,可能存在错误,请注意甄别。