爬虫 - Mitchell Chu's Blog

爬虫

There are 1 entries for the tag 爬虫

使用Scrapy构建自己的定制网络爬虫

MitchellChu 2016-03-12 其他技术编程语言

爬虫（Web Spider or Web Crawler），顾名思义：一个在网站之间互相游走的虫子，专好觅食各类页面数据。随着Spider技术门槛降低，爬虫也开始泛滥起来，很多时候爬虫变成了扒虫。然，技术本无善恶，全在用者之念。此处不做过多计较，我们当下要讨论也仅仅是定制一款自己的网络爬虫，仅此。
爬虫就Mitchell个人经验来说分为两大类：
•通用型网络爬虫：该类爬虫并无明确采集目标，每个能够爬及的页面都是其采集对象，除非满足系统指定条件，否则此类爬虫基本全年无休的辛勤劳作。最常见的就是搜索引擎的爬虫，如：Google，Baidu，Yahoo，Bing等;
•专用型网络爬虫：这种爬虫仅针对自身偏好的网站或者主题作为采集目标，采集到的内容或涉及到的URL为此爬虫不感兴趣的，将被爬虫直接忽略，此类爬虫根据需要采集的目标多寡采集时间有所不同。如：各类垂直搜索站，金融爬虫，站点采集等;

Mitchell Chu's Blog

让自己有迹可寻...
Nothing is impossible for a willing heart.

爬虫

使用Scrapy构建自己的定制网络爬虫

关于博主

标签云

文章分类

数据归档

日志分类

最近评论

最新博客

Mitchell Chu's Blog

让自己有迹可寻...Nothing is impossible for a willing heart.

爬虫

使用Scrapy构建自己的定制网络爬虫

关于博主

标签云

文章分类

数据归档

日志分类

最近评论

最新博客

让自己有迹可寻...
Nothing is impossible for a willing heart.