爬虫采集被封怎么办?

jj 2022-04-19

网络爬虫使用代理ip软件爬取信息的过程中,如果爬取频率过高或者使用多线程,很容易被禁止访问。通常,网站的反爬虫机制根据IP和用户代理来识别爬虫,所以爬虫开发者通常需要采取两种措施来解决这个问题:
 


1.减缓抓取速度,减轻目标网站压力。但这样会减少单位时间的类抓取量。
 
2.第二种方法是通过设置代理IP等手段,突破反爬虫机制,继续高频爬行。但这需要大量稳定的代理IP软件。
 
IP代理软件可以免费搜索,但是可能不稳定。也有收费的,比如闪电IP。
 
下面介绍两种方式:基于ADSL拨号的常见解决方案。通常在抓取过程中禁止访问时,可以再次拨打ADSL获取新的IP,这样就可以继续抓取了。但这样一来,在多站点多线程抓取的时候,如果禁止了某个网站的抓取,同时也影响了其他网站的抓取,那么整体的抓取速度也会降低。一种可能的解决方案也是基于ADSL拨号。不同的是需要两台能够ADSL拨号的服务器,这两台服务器在捕获过程中作为代理使用。假设有两台服务器A和B可以拨打ADSL。爬虫运行在C服务器上,使用A作为代理访问外部网络。如果在爬行过程中禁止访问,它会立即将代理切换到B,然后再次拨打A。如果再次禁止访问,切换到A作为代理,B再次拨号,以此类推。

综上所述,最简单的方法就是购买现成的代理IP软件产品。

扫一扫,咨询微信客服