职位描述:
负责图像、视频、文本等多模态数据的采集、清洗、标注及处理流程搭建,设计高效数据 pipeline,保障数据质量与可用性。
构建分布式数据存储与检索系统,支撑千万级样本的存储、查询及算法训练需求,优化数据读写性能。
与算法团队协作,针对 CV / 多模态任务设计数据增强策略、负样本挖掘方案,开发数据可视化工具辅助模型调优。
结合零售、物流等场景需求,定制化处理商品图像、物流面单等数据,推动数据资产在业务场景中的落地应用。
跟踪联邦学习、数据生成等新技术,探索其在数据隐私与模型训练中的创新应用。
职位要求:
精通 Python/Java,熟练使用 Spark/Flink 等分布式框架,具备 PB 级多模态数据处理经验。
熟悉 SQL 及大数据存储技术(Hive/HBase),掌握图像基础处理(OpenCV 等工具)与目标检测算法的数据输入逻辑。
具备数据 pipeline 全生命周期管理能力,能设计高扩展、高容错的数据处理流程。
加分项:
有大模型训练数据准备、AIGC 项目数据建设经验,或了解联邦学习 / 差分隐私技术。
参与过 CV 竞赛(如 Kaggle)或发表过相关论文,具备数据可视化工具开发经验(如 Tableau/Python 可视化库)。
符合京东价值观:客户为先、创新、拼搏、担当、感恩、诚信。
招聘部门:
京东
工作地点:
北京
注意:为了确保您掌握真实的招聘信息,上述信息均为原始内容。我们的“面试建议”和“模拟面试”均基于原始招聘信息设计和提供。
面试建议:
京东这个数据开发岗的独特之处在于它要求候选人同时具备工程实现能力和前沿技术视野。不同于普通的数据开发岗位,这里特别强调多模态数据处理能力,从商品图像到物流面单,数据形态复杂多样。面试官会重点关注你在处理不同类型数据时的技术选型能力,特别是在保证数据质量的前提下如何设计高扩展性的pipeline。另一个关键点是这个岗位需要直接支撑算法团队,这意味着你需要展示出对CV/多模态算法数据需求的理解深度,而不仅仅是数据处理能力。
在准备面试时,建议重点准备三个维度的案例:首先是数据处理规模,准备你处理过的最大数据量案例,详细说明遇到的性能瓶颈和解决方案;其次是多模态处理经验,特别是图像和文本的联合处理案例;最后是创新技术应用,比如联邦学习在实际项目中的落地情况。面试中可能会遇到系统设计题,要特别注意展示你对京东零售和物流场景的理解,把技术方案和业务价值紧密结合起来。简历中建议用具体数字量化你的项目影响,比如’优化数据pipeline使算法训练效率提升40%’这样的表述会很有说服力。
在线咨询
提示:由 AI 生成回答,可能存在错误,请注意甄别。