没有代理IP能正常运行上网吗?

网络爬虫没有代理IP能正常运行上网吗?爬虫一定要用代理IP吗?很多人认为爬虫必须使用代理IP,没有代理IP就很难移动,也有人认为代理IP没有必要。那么他们这么想的原因是什么呢?
 
 
有个朋友说他用机车收藏家收集了一些文章,然后筛选出符合自己要求的文章进行加工。他从来不用代理IP,一天收一万篇左右。他认为没有代理IP。
 
一个朋友说他写了一个爬虫程序,公司的任务是一天爬几十万个页面。有时候任务多的时候,一天就要几百万。抢IP的时候会被屏蔽。没有代理IP,是不可能的。他认为,没有代理IP爬虫很难移动。
 
显然他们说的都很有道理,都用自己的经历证明了自己的观点。其实爬虫本质上就是访问网页的用户,只是一个没有那么自律的特殊用户,而服务器一般不欢迎这种特殊用户,所以总是会用各种手段去寻找和封杀他们。最常见的就是判断你的访问频率,因为普通人访问网页的频率并不是很快。如果发现一个IP访问速度太快,就会禁止它。
 
工作量不是很大的时候,也就是像第一个朋友那样,可以慢慢爬,频率不是很快。在目标服务器看来,是可以忍受的,不影响正常运行,这样IP就不会被屏蔽,所以他可以不用代理IP完成日常任务。
 
当任务量比较大的时候,比如第二个朋友,一天几十万几百万的数据,如果爬得慢,就无法完成任务。如果他爬得快,目标服务器压力太大,IP被封,任务无法完成。我能怎么做呢?仅通过代理IP。
 
比如一个IP短时间内被访问100次,就会被目标服务器认为太快,导致IP被屏蔽。但如果10个代理IP在短时间内被访问10次,就不算太快被屏蔽了。任务巨大的时候,使用代理IP往往能事半功倍,这也是为什么有人认为没有代理IP就没有网络爬虫。