职位描述:
1. 研究视觉多模态大模型前沿技术,包含但不限于视觉编码器、语言大模型等技术,探索在新一代智能语音助手中的应用。
2. 负责GUI Agent模型的后训练技术改进,包括有监督微调、强化微调和离在线强化学习,提升模型的任务完成率。
3. 负责研发GUI Agent前沿技术研究及在车载/手机/音箱/电视小爱同学落地。
职位要求:
1、本科及以上学历,视觉、自然语言处理、机器学习相关专业。
2、丰富的深度学习、强化学习或大模型算法项目经历,对相关算法有深入理解。
3、对大模型技术有深刻了解,具备较强的探索、实践动手能力,有语音或者视觉多模态背景为加分项。
4、熟练使用一种或几种深度学习框架(如pytorch、tensorflow、paddlepaddle等)
5、具有良好的分析问题和解决问题的能力,有顶级会议或者刊物发表论文者优先。
招聘部门:
小米
工作地点:
北京市 ID:A183721
面试建议:
小米的多模态Agent算法工程师职位是一个极具挑战性的前沿技术岗位。这个职位最显著的特点是要求候选人不仅要掌握视觉多模态大模型和GUI Agent的核心技术,还要具备将这些技术落地应用到多种终端设备的能力。面试官会特别关注候选人在多模态技术领域的深度理解和实践经验,以及解决实际问题的能力。 为了准备这个面试,建议候选人重点复习视觉编码器和语言大模型的基础知识,同时准备1-2个自己参与的GUI Agent相关项目案例。在面试中,要能够清晰地阐述技术方案的选择理由和实施细节。由于职位强调落地应用,建议提前思考如何将技术应用到具体场景中,比如车载或智能音箱环境。如果有相关论文发表,一定要准备好应对技术细节的深入讨论。同时,要展示出对小米产品生态的理解,特别是小爱同学在不同终端上的应用特点。
在线咨询
请输入您的问题:
提示:由 AI 生成回答,可能存在错误,请注意甄别。