职位描述:
岗位职责:
1、负责爬虫系统的架构设计和核心功能开发。
2、负责特殊网页采集任务的分析及采集方案设计,解析各类验证码,满足产品中数据抓取的要求。
3、负责设计和开发网络爬虫应用,对指定的网站进行爬取、存储和分析
4、设计实现相应策略和算法,实时监控爬虫的进度和警报反馈,并对爬虫系统的抓取调度、质量、性能进行优化。
任职要求:
1、计算机相关专业本科及以上学历
2、具备web挖掘等搜索引擎相关知识,有从事网络爬虫、网页去重、网页信息抽取的经验。
3、精通网络编程,熟悉HTTP传输协议、网络通信、各类抓取场景的实现,熟悉开源爬虫框架并有应用经验等,对分布式和多线程技术有一定了解。
4、具有数据挖掘、信息检索、机器学习背景的优先;
5、以解决技术难题为乐,对程序完美有偏执追求;具有团队精神、认同公司理念,有想法,敢于挑战自我。