在linux 默认的 python2.7 版本下安装 scrapy

pip install scrapy

报错: You are using pip version 9.0.1, however version 18.0 is available.

处理方法:pip install –upgrade pip

报错 致命错误:Python.h:没有那个文件或目录

处理方法: yum install python-devel

创建爬虫项目(有警告错误先不管)

输入 :scrapy startproject tutorial

使用调试工具 scrapy shell

报错 :0: UserWarning: You do not have a working installation of the service_identity module:

处理:pip install -I -U service_identity

当 pip install -I -U service_identity时又报错如下

  Could not find a version that satisfies the requirement service_identity (from versions: )

No matching distribution found for service_identity

处理:卸载再重装pyOpenSSL

pip uninstall pyOpenSSL

pip install pyOpenSSL

成功后,再返回去运行  pip install -I -U service_identity ,成功后 scrapy shell运行成功

根目录下运行爬虫

scrapy crawl MySpider

导出json格式数据

scrapy crawl dmoz -o items.json -t json

安装redis拓展

pip install redis

scrapy shell调试

先进入要访问的地址

scrapy shell “https://www.imooc.com”

查看头部数据

response.headers

for循环输出header头信息

for i in response.headers:

这里输入tab或空格键 print(i)

两次回车执行 或 ctrl+enter 执行

使用用xpath 获取图片地址

response.xpath(‘//div[@class=”logo”]/a/img/@src’)

文章来源于互联网:linux下安装scrapy并建立爬虫

发表评论