职位描述:
1. 结合大模型应用需求,设计和优化高效、智能化的爬虫系统,进行多源数据采集。
2. 逆向分析目标网站及接口,绕过反爬机制,如验证码、动态加载、JS加密、IP封锁等,确保数据采集稳定性。
3. 针对大模型数据预处理要求,优化爬虫数据格式和质量,提升爬取的数据对训练和推理的适用性。
4. 结合大模型场景,自动化处理反爬机制变化,并提供灵活的技术解决方案。
5. 与大模型研发团队紧密合作,确保爬虫采集的数据能够有效支持模型训练与应用。
6. 跟进最新的反爬技术与反制策略,持续优化爬虫架构和性能。
职位要求:
1. 本科及以上学历,计算机科学、人工智能、网络安全等相关专业。
2. 3年以上爬虫开发及逆向工程经验,有大模型或AI相关领域的爬虫应用经验者优先。
3. 熟悉并能绕过常见的反爬技术(如动态网页加载、验证码、JS加密等)。
4. 精通Python或其他编程语言,熟悉爬虫框架(如Scrapy、Selenium、Playwright等)。
5. 熟悉大模型训练和数据处理流程,能够根据模型需求调整数据抓取策略。
6. 熟悉常见网络协议(HTTP/HTTPS)和接口抓取,能够对复杂数据进行高效提取和清洗。
7. 具备良好的分析能力和解决问题的能力,能够应对复杂的反爬挑战。
加分项:
1. 有大规模数据抓取与处理经验,尤其是针对大模型训练数据的采集和优化。
2. 熟悉数据加密与解密技术,能够破解复杂的加密算法。
3. 具备AI或大模型领域的技术背景,能够理解和支持模型数据需求。
我们提供:
1. 具有竞争力的薪资待遇与丰富的福利。
2. 与顶尖AI团队合作的机会,参与大模型应用开发与优化。
3. 灵活的工作环境与技术创新的空间。
4. 完善的职业发展和培训机会,助力技能提升和成长。
招聘部门:
小米
工作地点:
北京市 ID:A133586
面试建议:
这个职位是小米公司的大模型爬虫逆向工程师,核心在于结合大模型的需求来设计和优化爬虫系统。不同于普通的爬虫工程师,这个职位要求你不仅要精通爬虫技术和逆向工程,还要理解大模型的数据需求,能够根据模型训练和推理的要求来优化数据采集和处理流程。面试官会特别关注你在绕过复杂反爬机制方面的经验,以及你如何确保数据的质量和适用性。 建议你在面试前重点准备以下几个方面的内容:首先,回顾你过去在爬虫逆向工程方面的项目经验,尤其是那些涉及复杂反爬机制的项目,准备好具体的案例和数据来展示你的能力。其次,了解大模型训练的基本流程和数据需求,思考如何将这些需求融入到爬虫系统的设计中。最后,准备一些技术问题的解决方案,比如如何处理动态加载的网页、破解JS加密等,展示你的技术深度和解决问题的能力。面试时,尽量用具体的项目经验来回答面试官的问题,这样能更好地展示你的实际能力。
在线咨询
请输入您的问题:
提示:由 AI 生成回答,可能存在错误,请注意甄别。