很多人认为爬虫必须使用代理IP

没有代理IP,网络爬虫会受到限制吗?很多人认为爬虫必须使用代理IP,没有代理IP是很困难的。也有人说代理IP没有必要,那么他们为什么会这样想呢

有朋友说,他用的摩托车收集器是用来收集一些物品,然后按照自己的要求进行加工的。他从不使用代理IP,每天收集大约1万篇文章。他觉得不用代理就能抓取IP照片。

一个朋友说,他自己写了一个爬虫程序。该公司的任务是每天抓取成千上万的网页。有时候,当有很多任务的时候,一天可以花费数百万。在抓取ip时,它被阻塞。没有代理IP是不可能的。他认为,没有代理IP爬虫,这是不可能的。显然,他们说的很有道理,他们都用亲身经历来证明自己的观点。实上,爬虫本质上只是一个访问网页的用户。只是一个不遵守规则的特殊用户。服务器一般不欢迎这类总是被发现并通过各种手段被禁止的特殊用户。最常用的方法是确定你的访问频率,因为普通人访问网页的速度不会很快。如果发现某个IP访问速度过快,它将被禁止。

当工作量不是很大的时候,也就是像第一个朋友一样,可以慢慢爬,但频率不是很快。这对目标服务器来说似乎是可以承受的,并且不会影响正常的操作,所以它不会阻止IP,这样就可以在没有代理IP的情况下完成日常工作负载。当任务量比较大的时候,比如第二个朋友,一天有几十万几百万的数据量,就无法慢慢完成任务。如果你加速爬升,目标服务器会因压力过大而被IP阻塞,你将无法完成任务。能怎么办,必须使用代理IP来解决它。

例如,如果一个IP在短时间内被访问100次,目标服务器会认为访问速度太快,导致IP被阻塞。但是,如果10个代理IP在短时间内被访问10次,也不会被认为速度太快而被封锁。在工作量巨大的时候,使用代理IP往往可以事半功倍,这也是为什么有人认为没有代理IP就没有网络爬虫的原因。