谈谈使用爬虫时限制ip的六种方法

jj 2023-06-01

在抓取的时候，不可避免的会遇到网页的反抓取封锁，于是就有了抓取攻击和防御，两种力量在攻击和防御之间不断较量。让下面我们来谈谈使用爬虫时限制ip的六种方法！

1.IP必须是必需的。如果可能，建议使用代理IP。

2.在具有外部IP的计算机上部署crawler代理服务器。

3.您的程序使用循环训练而不是代理服务器来访问您想要收集的网站。

好处:

1.程序逻辑变化不大，只需要代理函数。

2.根据其他网站不同的屏蔽规则，你只需要多加几个代理就可以了。

3.即使某个特定IP被屏蔽，也可以直接注销代理服务器到OK，程序逻辑不需要改变。

1.ADSL脚本，监控是否被屏蔽，然后不断切换ip。

2.设置查询频率限制

正统的方式是调用这个网站提供的服务接口。

1.用户代理伪装和轮换

2.使用代理ip和环路

3.Cookies处理，部分网站对用户登录政策宽松。

尽可能模拟用户行为:

1.用户代理经常变化。

2.将访问间隔设置得更长，并将访问时间设置为一个随机数；

3.访问页面的顺序也可以是随机的。

网站屏蔽的依据一般是特定IP单位时间的访问量。我会把收集的任务按照目标站点的IP分组，控制每个IP单位时间发送的任务数量，避免阻塞。当然这个前提是你收集了很多网站。如果只收藏一个网站，就只能通过多个外部IP来实现。

爬虫的压力控制；考虑使用代理来访问目标站点。

1.减少抓取的频率，设置更长的时间，访问时间使用随机数。

2.用户代理的频繁切换(模拟浏览器访问)

3.多页数据，随机访问然后抓取数据。

4.更改用户IP

精灵IP代理为您提供安全、稳定、高效、便捷的爬虫代理地址服务，在提供高低代理IP资源的同时，还可以设置不同类型的IP代理，设置去重标准。