最近工作之余学习Python网络爬虫,整理点笔记。window环境下做开发会有一些坑,顺便记录下。

1、安装scrap库,管理员打开命令提示符输入pip install scrapy,在这个过程中,可能会有报错,提示缺少MS Visual C++ Build Tools,按照提示给出的网址下载安装,重新pip install scrapy即可。也可以在直接Anaconda Prompt输入conda install scrapy安装而不需安装MS Visual C++ Build Tools,由于本人对Anaconda不熟悉,怕留下坑,所以采用第一种方法安装。

2、创建Scrapy项目,如命令提示符进入D:/pycodes/,输入命令scrapy startproject pydemo。

3、spiders/目录,用户自定义的spider代码增加在此目录下,此外,该目录下有以下文件无需修改:

pycache/ ——缓存目录,无需修改

init.py ——初始文件,无需修改

4、在工程下生成一个Scrapy爬虫

1)在spider/下增加代码文件demo.py

2)命令提示符在D:/pycodes/pydemo/下输入命令scrapy genspider demo python123.io

5、编写爬虫代码,运行爬虫,获取网页,命令提示符在D:/pycodes/pydemo/下输入命令scrapy crawl demo。在这个过程中,可能会有报错提示:No module named ‘win32api’,安装pywin32库后,重新执行命令可能会有报错:ImportError: DLL load failed: 找不到指定的模块。将pywin32包的安装目录D:Program FilesPython36Libsite-packagespywin32_system32目录下的两个dll文件复制到C:WindowsSystem32即可

基于scrapy完善的第三方库https://pypi.python.org/ 查找scrapy-开头的第三方库。

文章来源于互联网:scrapy爬虫框架

发表评论