肿瘤康复网,内容丰富有趣,生活中的好帮手!
肿瘤康复网 > 多线程爬取中国土地市场网土地交易数据 最新/08/21

多线程爬取中国土地市场网土地交易数据 最新/08/21

时间:2018-11-02 05:02:49

相关推荐

多线程爬取中国土地市场网土地交易数据

可自动通过验证码(识别准确率不太高,所以设置了6次的重试机制,如果没事识别出来可自动重新识别,一般2-3次。),爬取网页过程中断可自动重试并继续爬取(因为增加了爬取中断处理,导致代码很长)

6月份弄好的,.08.21测试了,依然行得通

欢迎讨论

实现方法

尝试很多方法之后最终使用了如下方案:

爬取数据:selenium+Chrome(此方法速度不快,也吃cpu,但是对于此网站来说稳定)

存储数据:Mysql (对于数据量动辄几十万的项目来说,强烈推荐)

管理数据:navicat (管理Mysql,只需用到简单的sql语句就能方便的管理数据库)

如下图所示:

其他:生产者-消费者模式的多线程,稍微提高了点爬取速度

备注

倒数第二行代码后可以添加其他想要爬取的城市,第一个城市爬取完成之后会自动爬取接下来的城市每单个城市一次最多爬取6000条数据,如果超过6000条,可以分时间段爬取本方法速度不会太快,请求速度太快会被网页后台禁止访问。如果想增加速度可以用代理ip,最好是购买稳定的独享ip,有钱电脑多或者电脑好的话多买几个,10个代理的话速度提高10倍,有钱真好!。

爬取过程

来吧,展示!

如果觉得《多线程爬取中国土地市场网土地交易数据 最新/08/21》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。