职位简介:
作为混元大模型数据挖掘算法工程师,你将负责基于大模型训练需求进行互联网数据抓取和清洗,提升语料纯度,并建设对标业内前沿的大模型训练数据集和数据清洗能力。该职位需要计算机相关专业背景,熟悉python/c++编程语言,具备数据工程或相关领域工作经验及机器学习算法基础,了解NLP类似bert等模型,同时需熟练掌握Hadoop、Spark等大数据技术栈及数据库使用经验,熟悉网页结构或有网页低质问题挖掘经验者优先。
简历及面试建议:
在准备这份简历时,你需要特别突出与大模型数据处理相关的经验。首先,在专业技能部分明确列出你掌握的编程语言(Python/C++)和大数据技术栈(Hadoop/Spark/SQL),这些是基础要求。然后,着重描述你参与过的数据清洗或数据工程项目,特别是如果涉及NLP或大模型训练数据处理的经历。对于应届生或经验较少者,可以强调相关课程项目或实习中处理数据的经验。如果你有网页结构分析或低质内容识别的经验,一定要单独列出,这是很大的加分项。记得量化你的成果,比如’提升了XX%的数据质量’或’处理了XXTB规模的数据’。最后,确保你的简历反映出对NLP模型(特别是BERT)的理解,即使只是理论层面的认识。
面试时,面试官会重点考察你的数据处理能力和对大模型训练的理解。准备好详细描述你处理过的最复杂的数据项目,包括遇到的挑战和解决方案。技术问题可能会围绕数据清洗算法、网页结构解析和大数据处理展开,建议复习相关算法和工具的使用。对于NLP相关问题,至少要能解释BERT等模型的基本原理。面试中可能会要求你现场设计一个数据清洗方案,思考时要考虑数据质量、多样性和处理效率的平衡。此外,腾讯注重技术创新,可以准备1-2个你如何改进现有数据处理流程的想法。最后,着装可以商务休闲,但更重要的是表现出你对大模型和数据处理的热情和专业态度。
在线咨询
提示:由 AI 生成回答,可能存在错误,请注意甄别。