海外服务器上Web信息采集的选择
- 来源:云岑网络
- 阅读:4133次
- 2016/09/27
[摘要] Web信息采集(Web Crawling),主要是指通过Web页面之间的链接关系,从Web上自动的获取页面信息,并且随着链接不断向整个Web扩展的过程。实现这一过程主要是由Web信息采集器Web Crawler来完成的。Web Crawler也常称作Web Spider. Web Robot或Web Worm。粗略的说,它主要是指这样
Web信息采集(Web Crawling),主要是指通过Web页面之间的链接关系,从Web上自动的获取页面信息,并且随着链接不断向整个Web扩展的过程。实现这一过程主要是由Web信息采集器Web Crawler来完成的。Web Crawler也常称作Web Spider. Web Robot或Web Worm。粗略的说,它主要是指这样一个程序,从一个初始的URL集出发,将这些URL全部放入到一个有序的待采集队列里。而采集器从这个队列里按顺序取出URL,通过Web上的协议,获取URL所指向的页面,然后从这些己获取的页面中提取出新的URL,并将他们继续放入到待采集队列里,然后重复上面的过程,直到采集器根据自己的策略停止采集。对于有些采集器,到此就算完结了,而对于另一些采集器,它还要将采集到的页面数据和相关数据存储、索引并在此基础上对内容进行分析。
一般分为七个部分:URL处理器、Meta信息获取器、协议处理器、重复内容检测器、URL提取器、语义信息解析器和数据库,它们协调起来才能从Web上获取信息。
通常数据采集应用选择国外的多数是美国服务器,世界各地的信息源泉,有效快速的全球节点保持着数据采集的稳定性,还有就是采集过程会有大流量的损耗,这对不限流量的大带宽美国服务器来说是独特的优势。
赞1
踩1