职位描述:
1、主导数据产品规划,构建支持大模型训练的高质量数据体系,包括数据采集、清洗、标注、特征工程等全链路方案设计,确保数据与业务目标对齐。
2、深入理解大模型(如NLP/CV多模态)技术原理,设计数据驱动的模型优化策略,提升训练效率及效果。
3、协同算法团队,制定数据标注标准、评估指标及迭代策略,解决数据偏差、长尾分布等问题,设计数据增强、合成及自动化标注方案,优化大规模预训练与微调数据的供给效率。
4、联动业务、算法、工程团队,推动数据闭环落地,支撑推荐、搜索、AIGC等场景的模型迭代,提炼数据产品通用化能力。
职位要求:
1、硕士及以上学历,计算机、统计学、人工智能相关专业,3年以上数据产品经验,大厂数据挖掘/数据科学背景(如BAT/TMD等)优先。
2、精通Hadoop/Spark/Flink等大数据技术栈,熟悉CNN/Transformer等模型的数据需求,主导过亿级规模数据项目。
3、具备LLM(如GPT、LLaMA)或CV多模态模型数据支持经验,熟悉RLHF、DPO等对齐方法的数据设计。
4、掌握数据蒸馏、去噪、评估等关键环节,能通过数据策略显著提升模型表现。
5、熟练运用SQL/Python进行数据分析,可独立完成数据探查、AB实验及效果归因。
招聘部门:
百度 MEG
工作地点:
北京市
面试建议:
百度MEG的数据产品经理岗位聚焦于大模型时代的数据体系建设,这是当前AI领域最前沿的战场。面试官会重点考察三个维度:一是对大模型技术原理的理解深度,特别是NLP/CV多模态数据的特性认知;二是数据工程全链路的实战能力,从亿级数据治理到RLHF对齐设计都需要具体案例佐证;三是跨团队协同的落地能力,因为数据产品最终要服务于搜索推荐、AIGC等具体业务场景。 建议候选人准备三个层次的应对策略:技术层面要熟记Transformer等模型的数据需求特点,准备数据偏差解决、自动化标注等方案的细节;项目层面需突出主导过的亿级数据项目,量化说明数据策略对模型效果的提升;业务层面则要展现对推荐/搜索等场景的理解,最好能结合百度现有业务提出数据闭环的优化设想。特别注意要携带能体现数据产品思维的作品集,比如标注标准文档、数据评估报告等实物证据。
在线咨询
请输入您的问题:
提示:由 AI 生成回答,可能存在错误,请注意甄别。