职位描述:
岗位职责
1、 维护与扩展已有的爬虫系统;
2、 负责网络爬虫的核心技术研究和开发,参与各种核心搜索策略、算法、数据聚类、重组的设计与开发;
3、 设计策略和算法,提升网页抓取的效率和质量;
4、 分析爬虫系统的技术缺陷,对策略架构做出合理地调整和改进。
5、 按照数据与业务部门的要求,爬取指定网站数据,并进行本地化存储与初步的清洗。
任职要求:
1、本科以上学历,两年以上爬虫系统开发经验,熟练掌握JAVA编程,熟悉python者优先;
2、熟悉模板和自动页面信息抽取,有网页 类型分析者优先;
3、熟悉多线程、高并发;http协议,tcp协议
4、熟悉JS,ajax,网页消重,能够总结分析不同网站,网页的结构特点及规律
5、有分布式爬虫架构,数据挖掘经验者优先;
6、有垂直领域爬虫开发经验者优先。
7、熟悉一种关系型数据库mysql、oracle。
8、熟悉正则表达式、css selector、 xpath。
9、熟悉linux系统
10、熟悉一些基本的网页抽取工具:jsoup
11、熟悉redis、mongodb等
12、熟悉动态代理、反爬策略