职位描述:
岗位职责:
1)负责开发分布式网络爬虫系统,进行多平台信息的抓取和分析。
2)负责网页信息抽取、数据清洗等研发和优化工作。
3)负责公司数据仓库平台的ETL分析、设计、开发工作。
任职资格:
1)2年以上爬虫开发经验。
2)熟悉Linux平台开发,精通Python编程。
3)精通网页抓取原理及技术,精通正则表达式,从结构化的和非结构化的数据中获取信息。
4)熟悉MySQL、Redis、MongoDB等数据库。
5)大学本科及以上学历。
加分项:
1)有数据库调优和海量数据存储经验优先。
2)有Solr、ElasticSearch开发经验者优先。
3)具有数据挖掘、自然语言处理、信息检索、机器学习背景者优先。