爬虫ip代理采集被封了怎么办?

jj 2022-03-21

爬虫被封了怎么办?在用代理ip软件爬取信息的过程中,如果爬取频率过高或者使用多线程,很容易被禁止访问。网站的反爬虫机制一般是基于IP和用户的用户代理来识别爬虫。因此,爬虫中的开发者通常需要采取两种措施来解决这个问题:
 

1.减缓抓取速度,减轻目标网站压力。不过这样会减少单位时间类的抓取量。
 
2.第二种方法是突破反爬虫机制,通过设置代理IP等手段继续高频爬行。但这需要大量稳定的代理IP软件。
 
IP代理软件可以免费搜索,但是不一定稳定,还有收费的,比如精灵IP代理
 
下面介绍两种方式:基于ADSL拨号的常见解决方案。通常在抢的过程中禁止访问时,可以再次拨打ADSL获取新的IP,这样就可以继续抢了。但在多网站多线程抓取的情况下,如果禁止了某个网站的抓取,也会影响到其他网站的抓取,整体上也会降低抓取速度。一种可能的解决方案也是基于ADSL拨号。不同的是需要两台能够ADSL拨号的服务器,这两台服务器在抢的过程中作为代理使用。假设有两台服务器A和B可以拨打ADSL。爬虫运行在C服务器上,使用A作为代理访问外部网络。如果爬行过程中禁止访问,立即将代理切换到B,然后重拨A,如果再次禁止访问,切换到A作为代理,B再次拨号,以此类推。综上所述,最简单的方法就是购买现成的代理IP软件产品。

扫一扫,咨询微信客服