首页 > 开发 > Python > 正文

爬虫程序到底是做什么的

2017-09-06 19:31:52  来源:网友分享

爬虫程序到底是干吗用的?

解决方案

一个页面中有许许多多的链接指向别的页面。可以把页面抽象成节点,链接抽象成指向别的节点的边,构成一个图。爬虫所做的就是从一个或多个节点出发,抓取页面内容分析出指向别的节点的边,从而进行遍历。
抓取到的页面的内容可以派许多用处,比如搜索引擎将爬虫爬取到的页面进行过滤之后,对网页的内容做分词处理,再做倒排索引。亦或是你对某个网站很感兴趣,从网站的主页开始一层层往下爬取,将抓取到的页面中感兴趣的内容进行收集等。
当然作为一个有道德的爬虫还需要遵守robots协议,因为有的页面是不希望被爬取的。
以上是我个人的理解。希望对你有帮助