爬虫根据使用场景分为通用爬虫聚焦爬虫两种形式。

通用爬虫的主要目的是将互联网上的网页下载到本地,然后放到本地服务器中形成备份,再对这些网页做相关处理,最后提供一个用户检索接口。

通用爬虫的抓取流程

1.首先选取一部分已有的URL,把这些URL放到待爬取队列;

2.从待爬取队列里取出URL,解析DNS得到主机IP,然后去这个IP对应的服务器里下载HTML页面,保存到搜索引擎的本地服务器,最后把这个爬过的URL放入已爬取队列;

3.分析这些网页内容,找出网页里其他的URL连接,继续执行第二步,直到爬取条件结束。

通用爬虫的缺点

1.只能提供和文本相关的内容(如HTML、Word、PDF)等,不能提供多媒体文件(如音乐、图片、视频)和二进制文件(如程序、脚本)等。

2.提供的结果千篇一律,不能针对不同背景领域的人提供不同的搜索结果。

3.不能理解人类语义上的检索。

为了解决这个问题,聚焦爬虫出现了:

聚焦爬虫是”面向特定主题需求”的一种网络爬虫程序,聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。

举小栗子

采用python爬取qq代码如

1 import urllib

2

3 response = urllib.urlopen(“http://www.qq.com/”)

4

5 html = response.read()

6

7 print(html)

爬取结果部分截图

其中urllib是python内建的网络请求库。

下期聊聊urllib,敬请期待。

文章来源于互联网:初识爬虫

发表评论