本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

以下文章来源于腾讯云 作者:昱良

轻量级爬虫

“获取数据——解析数据——存储数据”是爬虫的三部曲,大部分爬虫都是按这样的流程来进行,这其实也是模拟了我们使用浏览器获取网页信息的过程。

1、获取数据

爬虫第一步操作就是模拟浏览器向服务器发送请求,基于python,你不需要了解从数据的实现,HTTP、TCP、IP的网络传输结构,一直到服务器响应和应达的原理,因为python提供了功能齐全的类库来帮我们完成这些请求。

Python自带的标准库urllib2使用的较多,它是python内置的HTTP请求库,如果你只进行基本的爬虫网页抓取,那么urllib2足够用。

Requests的slogen是“Requests is the only Non-GMO HTTP library for Python, safe for humanconsumption”,相对urllib2,requests使用起来确实简洁很多,并且自带json解析器。

如果你需要爬取异步加载的动态网站,可以学习浏览器抓包分析真实请求或者学习Selenium来实现自动化。

对于爬虫来说,在能够爬取到数据地前提下当然是越快越好,显然传统地同步代码不能满足我们对速度地需求。

(ps:据国外数据统计:正常情况下我们请求同一个页面 100次的话,最少也得花费 30秒,但使用异步请求同一个页面 100次的话,只需要要 3秒左右。)

aiohttp是你值得拥有的一个库,aiohttp的异步操作借助于async/await关键字的写法变得更加简洁,架构更加清晰。使用异步请求库进行数据抓取时,会大大提高效率。

你可以根据自己的需求选择合适的请求库,但建议先从python自带的urllib开始,当然,你可以在学习时尝试所有的方式,以便更了解这些库的使用。

推荐请求库资源:

  • urllib2文档 https://dwz.cn/8hEGdsqD
  • requests文档 http://t.cn/8Fq1aXr
  • selenium文档 https://dwz.cn/DlL9j9hf
  • aiohttp文档 https://dwz.cn/hvndbuB4
    在这里插入图片描述

2、解析数据

爬虫爬取的是爬取页面指定的部分数据值,而不是整个页面的数据,这时往往需要先进行数据的解析再进行存储。

从web上采集回来的数据的数据类型有很多种,主要有HTML、 javascript、JSON、XML等格式。

解析库的使用等价于在HTML中查找需要的信息时时使用正则,能够更加快捷地定位到具体的元素获取相应的信息。

Css选择器是一种快速定位元素的方法。

Pyqurrey使用lxml解析器进行快速在xml和html文档上操作,它提供了和jQuery类似的语法来解析HTML文档,支持CSS选择器,使用非常方便。

Beautiful Soup是借助网页的结构和属性等特性来解析网页的工具,能自动转换编码。支持Python标准库中的HTML解析器,还支持一些第三方的解析器。

Xpath最初是用来搜寻XML文档的,但是它同样适用于 HTML 文档的搜索。它提供了超过 100 个内建的函数。

这些函数用于字符串值、数值、日期和时间比较、节点和 QName 处理、序列处理、逻辑值等等,并且XQuery和XPointer都构建于XPath基础上。

Re正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。

个人认为前端基础比较扎实的,用pyquery是最方便的,beautifulsoup也不错,re速度比较快,但是写正则比较麻烦。

当然了,既然用python,肯定还是自己用着方便最好。

推荐解析器资源:

  • pyquery https://dwz.cn/1EwUKsEG
  • Beautifulsoup http://t.im/ddfv
  • xpath教程 http://t.im/ddg2
  • re文档 http://t.im/ddg6
    在这里插入图片描述

3、数据存储

当爬回来的数据量较小时,你可以使用文档的形式来储存,支持TXT、json、csv等格式。

但当数据量变大,文档的储存方式就行不通了,所以掌握一种数据库是必须的。

Mysql 作为关系型数据库的代表,拥有较为成熟的体系,成熟度很高,可以很好地去存储一些数据,但在在海量数据处理的时候效率会显著变慢,已然满足不了某些大数据的处理要求。

MongoDB已经流行了很长一段时间,相对于MySQL ,MongoDB可以方便你去存储一些非结构化的数据,比如各种评论的文本,图片的链接等等。

你也可以利用PyMongo,更方便地在Python中操作MongoDB。

因为这里要用到的数据库知识其实非常简单,主要是数据如何入库、如何进行提取,在需要的时候再学习就行。

Redis是一个不折不扣的内存数据库,Redis 支持的数据结构丰富,包括hash、set、list等。

数据全部存在内存,访问速度快,可以存储大量的数据,一般应用于分布式爬虫的数据存储当中。

推荐数据库资源:

  • mysql文档 https://dev.mysql.com/doc/
  • mongoDB文档 https://docs.mongodb.com/
  • redis文档 https://redis.io/documentation/
    在这里插入图片描述

文章来源于互联网:python爬虫,学习路径拆解及资源推荐(第二篇:轻量级爬虫)

发表评论