职位描述:
岗位职责:
1、参与爬虫系统的架构设计与开发;
2、具有实际爬虫开发、内容提取工作经验2年以上;
3、负责设计和开发分布式网络爬虫系统,进行多平台信息的抓取和分析;
4、设计爬虫策略和防屏蔽规则,提升网页抓取的效率和质量;
5、能独立解决实际开发过程碰到的各类问题;
职位要求:
1、熟悉linux平台开发,3年以上Java、python或C/C++开发经验;
2、精通信息抓取和整合技术,从结构化的和非结构化的数据中获取信息;
3、熟悉Mysql,redis,mongdb三者至少之一,有过数据库调优和海量数据存储经验优先;
4、具有搜索相关技术研发经验者优先;
5、具有数据挖掘、自然语言处理、信息检索、机器学习背景者优先;
6、有nutch,heritrix抓取经验或者分布式抓取经验者优先;
7、熟悉搜索引擎和个性化推荐相关技术,精通主流分词算法、分类、提取摘要、大规模网页聚类、索引、检索等相关开发经验者优先。