职位描述:
1. 遵循robots 协议,对互联网公开信息进行采集;
2. 负责网页信息抽取技术算法的研究和开发,提升数据采集的效率和质量;
3. 负责设计和开发分布式的网络数据采集技术,能独立解决实际开发过程碰到的各类问题(优化调度、并发、覆盖率等) ,提升数据采集的效果与性能;
4. 负责数据采集解析入库、系统异常监控与警报等。
职位要求:
1. 具备扎实的编程能力、优秀的设计能力和代码品味,具有强烈的责任心
2. 熟练掌握HTML、JavaScript、Python、Scrapy等,能快速完成采集脚本的编写;
3. 了解主流网络数据采集技术和框架工具,如Selenium/Puppeteer/PhantomJS/Scrapy等;
4. 了解NLP基本技术,实际使用过如 Fasttext、N-gram、Bert、GPT 等算法和模型者优先;
5. 熟悉常见限制访问服务器资源和获取数据技术,具备相关的实战经验。
招聘部门:
DeepSeek 系统
工作地点:
浙江·杭州市
面试建议:
这个高级数据采集工程师职位有几个显著特点值得注意。首先它不同于普通的爬虫工程师岗位,不仅要求传统的网页抓取能力,还特别强调分布式系统开发经验和NLP技术应用,这反映出公司对AGI方向数据采集的特殊需求。其次职位描述中反复出现的’提升效率’、’优化性能’等关键词,暗示面试官会特别关注候选人解决实际问题的能力而非仅掌握工具。 针对这个职位,建议从三个维度准备面试。技术层面要重点准备分布式爬虫架构设计经验,包括如何解决调度、并发等实际问题,同时要复习NLP基础知识特别是文本处理相关算法。项目经验方面要准备1-2个完整的爬虫系统案例,重点说明遇到的性能瓶颈和解决方案。最后要特别注意robots协议和反爬策略这类合规性问题,这往往是高级岗位的考察重点。建议提前思考几个典型的反爬场景及应对方案,展示你的实战经验。