网络爬虫没有动态ip真的不行吗?

网络爬虫没有代理IP真的不可能吗? 有朋友问:爬虫一定要使用代理IP吗? 很多人认为爬虫必须使用代理IP,没有代理IP就很难做到。 其他人说不需要代理IP。 那么他们这样认为的原因是什么呢?  
 
 
朋友说他用机车收集器收集了一些文章,然后筛选出符合他要求的进行处理。 他从未使用过代理IP。 每天收集约10,000件。 他认为没有可以正确抓取的代理IP。  
 
朋友说自己写了爬虫程序。 该公司的任务是每天抓取数十万页。 有时,当任务很多时,一天要花费数百万。 爬了又爬,IP被封了。 没有代理IP一点都不好,他认为没有代理IP爬虫很难做到。  
 
显然,他们说的很有道理,而且他们用亲身经历证明了自己的观点。 实际上,爬虫本质上就是访问网页的用户。 只是一个不那么听话的特殊用户而已。 服务器一般不欢迎这样的特殊用户,总是用各种手段去发现和禁止。 最常见的就是判断你的访问频率,因为普通人访问网页的频率不会很快,如果你发现某个IP访问太快,这个IP就会被屏蔽。  
 
任务量不是很大的时候,像第一个朋友,可以慢慢爬,但是频率不是很快。 从目标服务器来看,在不影响正常运行的情况下是可以容忍的。 可以屏蔽IP,所以他可以在没有代理IP的情况下完成日常任务。  
 
当任务量比较大的时候,比如第二个朋友,一天有几十亿的数据,慢慢爬就完成不了任务。 如果你加快爬升,目标服务器将承受太大的压力。  IP将被封锁,任务也将无法完成。 那怎么办呢,只能用代理IP来解决问题了。  
 
比如一个IP在短时间内被访问100次,目标服务器就会认为访问速度过快,导致IP被阻塞。 如果10个代理IP在短时间内访问10次,不会被认为是过早屏蔽。 当工作量巨大时,使用代理IP往往可以事半功倍,这也是为什么人们认为没有代理IP就没有网络爬虫的原因。