爬虫IP被封的解决方案

jj 2021-11-24

由于公司项目需要,需要收集各种地图数据,以及一些大型网站数据。那么,爬虫IP被封了怎么办?下面教你如何解决爬虫被封IP的解决方案
 


一定要有更多的IP,比如ADSL。有条件的话,其实可以跟机房申请外部IP。
 
使用外部IP在机器上部署代理IP服务器
 
你的程序,用轮换训练代替代理服务器来访问你想要收集的网站。
 
好处:
 
程序逻辑变化小,只需要代理功能。
 
根据其他网站不同的拦截规则,你只需要添加更多的代理即可。
 
即使特定的IP被屏蔽,也可以直接注销代理服务器到OK,程序逻辑不需要改动。
 
有少数防范措施较弱的网站,可以伪装IP,修改X-forward-for。。。)可以被旁路。大多数网站,如果你想频繁抓取,通常需要更多的IP。我最喜欢的解决方案是将国外的VPS与多个IP进行匹配,通过默认网关交换实现IP交换,比HTTP代理效率高很多,估计在大多数情况下也比ADSL交换效率高。
 
ADSL+脚本,监控是否阻塞,然后不断切换ip。
 
设置查询频率限制
 
正统的方式是调用这个网站提供的服务接口。
 
有8年以上爬虫经验的人告诉你,国内ADSL为王,申请线路多,分布在很多不同的电信办公室,可以跨省市更好。自己写断开重拨组件,自己写动态IP跟踪服务,重置远程硬件(主要针对ADSL猫,防止它们停机),分发其他任务,恢复数据,都不是什么大问题。我的已经稳定运行好几年了,妥妥的!
 
网站封杀的依据一般是特定IP单位时间的访问量。我将收集到的任务按照目标站点的IP进行分组,并控制每个IP单位时间发送的任务数,避免阻塞。当然,这个前提是你收集了很多网站。如果只收藏一个网站,只能通过多个外部IPS来实现。

扫一扫,咨询微信客服