您的位置:首页 > 新闻资讯 >文章内容
反爬策略之IP限制,可设置代理IP应对
来源: 作者:admin 时间:2019-08-12 14:54:31

    反爬策略之IP限制,可设置代理IP应对。爬虫工作的过程,就是与反爬虫作斗争的过程,可以这样说,没有遇到反爬的工程师,不是好的爬虫工程师。有很多问题我们经常遇到,今天就来简单说几个常见的反爬策略。


    一、爬取某网站时,提示“由于访问频繁,需要通过验证码才能访问页面”


    解决方法:网站通过用户的Cookie信息对用户进行识别与分析,所以要防止目标网站识别我们的会话信息。


    在Scrapy中,我们可以在爬虫项目的setting.py文件中进行设置,将setting.py中的下面两行代码里的“COOKIES_ENABLED = False” 的注释去掉即可。


    二、爬取过快也会遭到封杀,设置下载延时


    部分网站通过分析我们的爬取频率对爬虫进行禁止或限制,所以我们需要控制爬取时间间隔。在Scrapy中同样是在setting.py文件中进行设置。我们可以设置随机间隔时间,这样就毫无规律,不容易被发现。


    三、设置用户代理池


    对于IP限制,怎么弄?反爬策略之IP限制,可设置代理IP应对。不管爬虫策略和反反爬虫策略做的多么的好,还是必须要用到代理IP,没有代理IP,只能玩玩泥巴,寸步难行。如何搭建代理池呢?方法有很多,最直接最省力的方法就是购买代理IP,比如智连HTTP平台提供的动态高质量代理,是个不错的选择。


相关文章内容简介
在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部