之前我有和大家介绍过scrapy的安装方法,今天我们从建立项目到scrapy 爬虫,爬取极品笑话大全,从头到尾的来一遍。

一,Scrapy框架的安装:

1.首先是简单的pip安装,pip install scrapy 即可安装,

2.如果是在windous 下下定记得安装 pypiwin32,要不打开会报错,

3.安装pypiwin32,pip install pypiwin32,

二 ,创建项目和爬虫:

1,创建项目:scrapy startproject jipinspider ,

回车之后得到scrapy 项目 文件目录

  生成了jipin_spider 文件夹,还有scrapy.cfg日志目录,这样一个scrapy 项目建立完成,是不是很简单,也很嗨皮。

2,创建scrapy 爬虫,上面项目jipin_spider 创建成功了之后, 我们就要在项目文件里创建一个极品笑话大全的爬虫,所以cd 到jipin_spider 目录下,

用命令scrapy genspider [爬虫名字]  [爬取的域名] :比如我们今天要爬取的

scrapy genspider jp_spider[域名],注意爬虫名字不能和项目名字一致。

显示这样的就是成功创建了scrapy 爬虫,打开文件夹

1,我们主要关注的是spiders文件夹,存储爬虫代码文件夹,

2,itms.py文件,项目目标配置文件,

3,middlewares.py 中间健编写,就是一些反扒措施,比如浏览器模拟,ip代理反扒这些,都在中间件里编写,

4,pipelines.py,这个是项目的管道文件,我们在实操中在作解释,

5,settings.py,项目的设置

      这样我们的一个极品笑话大全的scrapy 爬虫项目创建到爬虫创建就这们完成了,

其实这个也不是那么的难,我们从简单开始,接下来就是对里面的文件进行一些配置,

这个们用两个课程来完成它,因为接下来的内容篇幅比较大。由于我的文笔不是那么好,有喜欢python爬虫数据分析的 朋友门关注我们一起学习成长。

文章来源于互联网:​一文搞懂爬虫框架scrapy,从此入坑到入土在到化蝶成仙

发表评论