职位描述:
◾ 参与收集、处理、清洗各种渠道的原始文本数据,包括但不限于网页数据、电子书数据等
◾ 与大模型算法团队、数据采集团队、分布式训练工程团队密切合作,建立数据系统迭代流程
◾ 建立针对大模型的数据质量评估方法,持续提高数据质量和多样性,安全性,有用性
职位要求:
我们希望你是:
◾ 有搜索、推荐、广告等业务数据的处理经验
◾ 有⼤规模中文网页数据收集和清洗经验者优先
◾ 有文本数据集搭建和数据质量管理经验者优先
◾ 工作地:北京,全职
我们的优势:
◾ 顶尖 GPU 集群算力支持,快速迭代实验建立数据 scaling-law
◾ 深度参与到千亿至万亿大型语言模型训练的数据系统迭代流程
招聘部门:
DeepSeek AGI
工作地点:
北京
面试建议:
DeepSeek的AGI团队正在寻找一名数据研发工程师,这个职位的关键点在于处理大规模文本数据并确保其质量,以支持千亿至万亿参数的大型语言模型训练。面试官会特别关注你在中文网页数据处理、文本数据集搭建以及数据质量管理方面的实际经验。此外,你还需要展示与跨职能团队协作的能力,因为数据系统迭代流程需要与算法、采集和工程团队紧密合作。 为了准备这次面试,建议你重点准备以下几个方面的内容:首先,详细梳理你过去处理大规模文本数据的项目经验,尤其是涉及中文网页数据清洗的部分。准备具体的案例来说明你如何解决数据质量问题或优化数据处理流程。其次,了解大模型训练中的数据需求,包括数据多样性、安全性和有用性的评估方法。最后,准备好讨论你与跨职能团队合作的经验,展示你的沟通和协作能力。面试中可能会涉及技术细节的深入讨论,所以确保你对数据处理的技术栈和相关工具非常熟悉。