- 职位描述
- 1、负责爬虫平台的架构改进以及各主要模块的开发与优化,如调度,链接分析,页面分析,结构化信息提取等
2、对相关技术进行探索与应用:如js渲染抓取,反爬攻破,暗网资源的抓取等
3、爬虫系统技术架构设计、重构、优化,不断增强爬虫系统的性能和功能
4、负责网页信息采集、数据清洗等研发和优化工作
精通网页抓取原理及技术
5、练使用正则表达式、css path、xpath等
6、日常工作为爬取网站、公众号、国外站点信息数据
- 岗位要求
- 1、本科以上,计算机或相关专业毕业,扎实的数据结构,算法和编码能力
2、1年以上爬虫开发经验,熟悉Java/Python编程,分布式系统,和大数据处理(如hadoop技术栈)
3、精通网页抓取原理及技术,熟练使用正则表达式、css path、xpath等
4、有搜索引擎和爬虫如nutch, webmagic, scrapy等或者NLP相关经验优先
5、有封装方法库、函数经验者优先
6、自我驱动,责任心强,执行力强,学习适应能力强,能挑战自我不断追求卓
- 工作地址
- 上班地址:硚口区古田五路孵化园区4栋119
您可能兴趣的职位
更多职位空空如也!

湖北海创知芸科技有限公司
湖北海创知芸科技有限公司隶属北京中宏立达信创科技有限公司下属子公司,入驻硚口区高新产业园区,是一家以信息化与知识工程、信息安全与保密、信息技术应用创新产业为战略主业的企业,业务涉及军队网信业务及党政信创应用生态产业,拥有国家高新技术认证,双软认证、中小型技术企业等认证。公司与某大学设立有技术研发基地,面向党政机关提供信息服务、知识服务、数据可视化、作业工具、全网搜索的一体化综合服务平台及产品。
公司现有员工70余人,其中科研技术人员占90%,已经基本形成高级、中级、初级的人才梯队,研发人员专业技术能力全面。
- 通信/电信/网络设备
- 50-100人
- 民营企业
- 湖北省-武汉市-硚口区
看过的职位
