采集数据必须要有爬虫动态ip!

采集数据必须有爬虫IP代理!由于之前公司项目的需要,我们收集了地图数据和一些大型网站数据。
 
 
经验如下:
 
1.必须要代理IP,非常正确,ADSL。有条件的话,其实可以跟机房申请外部IP。
 
2.在具有外部IP的机器上部署代理服务器。
 
3.你的程序,用轮训代替代理服务器访问你要收藏的网站。
 
好处:
 
1.程序逻辑变化小,只需要代理函数。
 
2.根据对方网站不同的屏蔽规则,你只需要多加几个代理就可以了。
 
3.如果特定IP被屏蔽,使用代理服务器注销是可以的,不需要改变程序逻辑。
 
一开始想通过proxy买一些代理IP,比如免费的Elf http proxy,它提供了很多国内的代理IP服务器地址,可以从这里抢http代理。后来用了ADSL。缺点是断网再拨。在断开过程中,爬虫空载运行。如果对实时数据有特殊要求,需要做好方案规划。
 
ADSL的另一个缺点是服务器厂商好像都是小作坊,不稳定。找一个长期稳定的伴侣也很重要。平均每2秒访问一次,也就是被屏蔽的代理服务器的IP地址。所以要减缓爬行速度,但受限于总量和时间。这里有个问题:如果我平均访问2秒多一点,我就永远不会被屏蔽了吗?你知道对方网站所有的屏蔽策略吗?
 
根据现有条件,假设阻塞条件一定,每秒30分钟10000页的平均量是5.56次。如果没有排班,用户可以设置至少6行来完成抓拍(更正一下,应该是至少12行,比较着急,算错了。
 
最终的解决方案是拉几条电信ADSL线代理IP。光纤和电话线都可以。拨号可以用CMD。用了1000多年,10M光纤,4M电话线。自己买几台机器放着就行了。