运行爬虫的高级策略是使用IP代理

最近一位用户报告说,当使用我们的代理ip服务时,数据突然不返回,是IP模拟器代理有什么问题吗?运行爬虫的高级策略是使用IP代理。

我问他具体的错误信息是什么,他说数据无法返回。在我询问他访问的具体网站后,使用浏览器设置代理IP访问测试是很正常的。我告诉他后,他说,可是我的程序不返回数据。我告诉他,浏览器设置代理访问网站是正常的,也就是说IP没有问题,程序代码不能返回数据。可能是目标网站的反爬虫策略升级了,需要对爬虫策略进行调整,比如并发度、访问频率、安德玛等。他说:"政策只能是代理IP."如果代理IP失败,谈论其他策略是无用的。

这句话对不对。是真的吗。我告诉他策略不仅仅是代理IP,还有其他因素,比如访问量,访问频率,Under Armour,cookies等。(不限于此)。而不是使用代理IP,你可以高枕无忧,忽略目标网站的反抓取策略,随意抓取,为所欲为。实际编号代理IP只是一个辅助工具,它的主要功能是让爬虫能够连续稳定地工作。单个代理IP也必须遵守反爬虫策略,并且不能频繁访问网站。如果反爬虫策略被触发,它将受到限制,并且不会返回任何数据或错误数据。

有人会说,这样的代理IP有什么用。诚然,单个代理IP不是很有用,但大量的代理IP是非常有用的。例如,目标网站限制一个IP在24小时内访问网站1000次以上,最快访问频率为10秒。然后,代理IP的使用也必须遵守目标网站设置的规则。如果访问频率超过1000次或少于10秒,代理IP也将受到限制。

我该怎么办。正确的做法是使用代理IP访问目标网站999次(理想情况下,次数越少越好),然后切换到下一个代理IP,这样可以避免IP限制。或者同时使用多个代理IP,这样一般来说,访问频率可以在10秒内达到,不受IP限制,在遵循目标网站规则的同时,也不会影响爬虫的效率。

当然,如果代理IP不好,谈什么其他策略也没用。这句话的后半句是正确的。如果一个工人想把他的工作做好,他必须首先磨尖他的工具。如果工具不好,就不可能是好的。所以当出现问题时,必须先确定是代理IP问题还是策略问题,然后再解决问题。如果浏览器无法通过代理设置正常访问网站,可能是代理IP有问题,需要联系服务提供商寻求帮助。如果浏览器可以通过设置代理正常访问网站,则代理IP不受限制,很可能是政策问题,政策需要调整。