网络爬虫没有动态ip能顺利进行吗?

网络爬虫没有代理IP能流畅运行吗?很多人认为爬虫必须使用代理IP,没有代理IP会移动困难,也有人认为代理IP没有必要。那么他们这么想的原因是什么呢?
 
 
有朋友说他用一个机车收集器收集了一些文章,然后筛选出符合自己要求的进行加工。他从来不用代理IP,一天收一万篇左右。他认为没有代理IP。
 
有朋友说自己写爬虫程序,公司的任务是一天爬几十万个页面。有时候任务多的时候,一天就要几百万。抓取IP时会被屏蔽。没有代理IP,根本不行。他认为,如果没有代理IP爬虫,这将是不可能的。
 
显然他们说的很有道理,都用自己的经历证明了自己的观点。其实爬虫本质上是一个访问网页的用户,只是一个没有那么自律的特殊用户,而服务器一般不欢迎这样的特殊用户,所以总是用各种手段去发现和禁止。最常见的就是判断你的访问频率,因为普通人访问网页的频率并不是很快。如果发现某个IP访问速度过快,就会封禁。
 
任务量不是很大的时候,也就是像第一个朋友那样,可以慢慢爬,频率不是很快。在目标服务器看来,是可以忍受的,而且不影响正常运行,这样IP就不会被屏蔽,所以他不用代理IP就可以完成每天的任务量。
 
当任务量比较大的时候,比如第二个朋友,一天几十万上百万的数据,爬得慢的话就完不成任务了。如果他爬得快,目标服务器压力太大,IP被封,任务也无法完成。我能怎么做呢?只靠代理IP解决。
 
比如一个IP短时间内被访问100次,就会被目标服务器认为速度太快,导致IP被屏蔽。但如果10个代理IP短时间内被访问10次,就不会被认为太快而屏蔽。当任务量巨大时,使用代理IP往往能事半功倍,这也是为什么有人认为没有代理IP就没有网络爬虫。