职位描述:
职位描述:
1.负责网页信息抽取、数据清洗等研发和优化工作。
2.参与设计和开发分布式网络爬虫系统,进行多平台信息的抓取和分析。
3.网络爬虫核心算法的研究和策略优化,持续提升网络信息抓取的效率和质量。
4.参与舆情系统的数据爬取及分析。
5.运用所学知识解决各种疑难杂症。
需要你:
1、具有专业的出身和非学派的自由思想。
2、具备有文本分析、自然语言处理、搜索引擎、数据挖掘相关算法与技术。
3、了解HTTP协议和各种Web前端技术。
4、熟悉SolHbase/Hivetorm等相关技术。
5、对数据敏感、有创新精神、主动思考和获取新知识。
6、有分布式垂直领域爬虫开发经验优先。