Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.

这是一个利器,让我们能够从复杂的HTML代码里面,提取出我们我们想要的目标数据。

  • 本章我们会以 爬取豆瓣电影成都即将上映的影片信息 作为案例讲解 BeautifulSoup 的用法。
    我们需要爬取的内容有:
    所有影片的 名字、详情链接、上映时间、影片类型、地区、关注者数量
    网页截图如下:
豆瓣即将上映影片列表

开始本章前,请确认你已经安装Python以及jupyter、requests、lxml和bs4这4个Python包。如果你没有,那请移步前面的章节进行安装操作:

  • 爬虫入门教程⑤— 安装Python
  • 爬虫入门教程⑥— 安装爬虫常用工具包。

 

  1. 打开jupyter开始写代码
    命令行输入jupyter notebook并回车。如果你设置了默认浏览器,那么会自动打开浏览器进去到你打开cmd的文件夹。然后点击右边的New,Python3,我们就新建了一个Python3的项目了。
    如果你正好看了上一章节,那么也可以使用上次的代码文件,直接打开就好了。
文件编辑首页
  1. requests请求到网页源代码
    运用上一节学到的知识,我们先进行爬取第一步,获取到网页源代码。
    豆瓣电影即将上映的影片的网页的地址是:https://movie.douban.com/cinema/later/chengdu/
    那么我们开始编写代码来获取到这个网页的源代码:
import requests
# 旧版教程
# url = "https://movie.douban.com/cinema/later/chengdu/"
# response = requests.get(url)

# 2019-12-23更新,解决不能获取到响应的问题
url = "https://movie.douban.com/cinema/later/chengdu/"  # URL不变
# 新增伪装成浏览器的header
fake_headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.79 Safari/537.36'
}
response = requests.get(url, headers=fake_headers)  # 请求参数里面把假的请求header加上
print(response.content.decode('utf-8'))
运行效果

我们可以成功看到网页的源代码了,证明网页下载没问题,而且在网页代码之中,可以找到我们需要的电影信息(在输出界面一直往下翻,快到底了就能看到啦~)

  1. 保存网页到本地,方便快速加载
    网页我们拿到了,下面就要进行每一步的调试了
    为了我们能够快速调试自己的代码、给豆瓣服务器减少一点压力,也为了避免因为自己调试过快,被豆瓣封掉,所以我们最好把网页保存到本地。这样我们就能用最短的时间加载到网页,而不用每次调试都去豆瓣请求一下。
import requests
# 旧版教程
# url = "https://movie.douban.com/cinema/later/chengdu/"
# response = requests.get(url)

# 2019-12-23更新,解决不能获取到响应的问题
url = "https://movie.douban.com/cinema/later/chengdu/"  # URL不变
# 新增伪装成浏览器的header
fake_headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.79 Safari/537.36'
}
response = requests.get(url, headers=fake_headers)  # 请求参数里面把假的请求header加上
# 保存网页到本地
file_obj = open('douban.html', 'w')  # 以写模式打开名叫 douban.html的文件
# 如果打开网页显示的是乱码那么就用下一行代码
# file_obj = open('douban.html', 'w', encoding="utf-8")  # 以写模式打开名叫 douban.html的文件,指定编码为utf-8
file_obj.write(response.content.decode('utf-8'))  # 把响应的html内容
file_obj.close()  # 关闭文件,结束写入

恩,Python保存文件,就这么简单。。。
这个时候,你打开jupyter最开始弹出来的页面,可以找到一个douban.html的文件了,点击打开,内容和我们目标网页一模一样,但是浏览器顶端的网址变了。

  1. 读取文件并用BeautifulSoup加载
    我们现在暂时不使用上面的 区块(cell) 了,就让它保留这样子以便后用;我们在下面的新cell,开始键入代码读取文件并加载到BeautifulSoup里面:
from bs4 import BeautifulSoup  # 从bs4引入BeautifulSoup
# 读取文件内容到html变量里面
file_obj = open('douban.html', 'r')  # 以读方式打开文件名为douban.html的文件
html = file_obj.read()  # 把文件的内容全部读取出来并赋值给html变量
file_obj.close()  # 关闭文件对象

soup = BeautifulSoup(html, 'lxml')  # 初始化BeautifulSoup
print(soup)  # 输出BeautifulSoup转换后的内容
运行结果
  • 这里要说明一下,初始化BeautifuSoup的参数。
    第一个参数 html是网页的源代码,可以是个Unicode字符串,也可以是一个二进制字符串(如果第一个参数是字符串并且网页自带了charset信息,BS会默认采用网页的默认编码解码,否则默认以你当前文件执行的编码(通常是utf-8)进行解析。如果是二进制字符串,如果自己手动指定了编码,就以指定编码解析,否则默认utf-8解析)。
    第二个参数 lxml是BeautifulSoup采用的网页解析器,我们安装lxml用处就在这体现出来了。如果不指定,那么默认会采用Python内置的html.parser进行解析。
    还有更多的可用参数在之后进行讲解。

而输出的内容和我们之前的输出似乎是完全一样的,因为我们还没对soup进行操作。

  1. BeautifulSoup的基本使用语法规则

    • .find() 使用示例
      soup.find('a')。那么会返回在soup包含的源代码中,遇到的第一个…标签内容对象。
      soup.find('a', id='next')。那么会返回在soup包含的源代码中,遇到的第一个有属性为id,值为next的对象,比如…。(不只可以用id,大部分其他的属性都可以直接使用,比如src、name。 值得注意的是,class这个属性因为是Python关键字,不能直接使用,所以在BS里面,使用class_=’…’进行代替 )
      find返回的结果,依然可以继续使用find()或者find_all()方法。如果找不到指定的内容,find会返回None

    • .find_all()使用示例
      soup.find_all('a')。那么会返回在soup包含的源代码中,遇到的所有…标签内容的可迭代对象(我们可以把它看成一个 list 或者数组)
      soup.find_all('a', class_='next')。那么会返回在soup包含的源代码中,遇到的所有属性为class,值为next的的 可迭代对象,比如…。(语法和find也一样,class也不能直接写)
      find_all返回的“list”中的单个对象 依然可以继续使用find()或者find_all()方法。如果找不到指定的内容,find_all会返回一个空的“list”。

    • 获取元素的某个属性
      soup['src],这样我们就能取出soup对象的src属性了。如果该属性不存在,那么程序会报错。

    • 获取元素中的所有文本
      soup.text,假设soup对象为

      你好复联

      ,那么这个操作返回字符串是你好复联

  2. 分析网页,制订提取内容策略
    这一步非常重要,直接影响了我们能不能提取到我们想要的内容。
    我们返回浏览器打开的豆瓣网页。找到网页中的第一个电影的名字,鼠标指向该名字,点击右键,选择 检查/审查元素,然后便会打开一个新的小窗口在页面上,并且将网页代码中电影的名字显示在了里面,并且你鼠标指向的元素会显示出它的大小,内容会被选中。

    审查元素

    我们同时滑动鼠标的位置,应该会发现
    当鼠标划到图片中的

      ...

    标签的时候,复仇者联盟影片的详细信息被选中了。
    当鼠标划到下一个

    ...

    的时候,下一个影片战犬瑞克斯的所有信息被选中了。
    当鼠标划到图片上方的

    的时候,整个我们需要采集的影片信息都被选中了。

    • 这几个动作告诉了我们的信息有:
      1. 我们需要的内容全都在

        里面。

      2. 每个影片的信息,都在一个
        ...

        或者

        ...

        里面。画面左边的影片没有odd属性,右边的有odd属性(这好像对于我们采集信息没啥用)

    那么我们的策略,就是先找到囊括了所有的影片的div,然后再从这个div里面找到所有的影片的div,最后再从每个影片的div里面解析出来我们需要的名字、链接等等信息。代码就可以稍微往下写一点了。也就开始要运用前面提到的BS的一些基本用法了:

    from bs4 import BeautifulSoup  # 从bs4引入BeautifulSoup
    # 读取文件内容到html变量里面
    file_obj = open('douban.html', 'r')  # 以读方式打开文件名为douban.html的文件
    html = file_obj.read()  # 把文件的内容全部读取出来并赋值给html变量
    file_obj.close()  # 关闭文件对象
    
    soup = BeautifulSoup(html, 'lxml')  # 初始化BeautifulSoup
    # print(soup)  # 输出BeautifulSoup转换后的内容
    all_movies = soup.find('div', id="showing-soon")  # 先找到最大的div
    # print(all_movies)  # 输出最大的div的内容
    for each_movie in all_movies.find_all('div', class_="item"):  # 从最大的div里面找到影片的div
        print(each_movie)  # 输出每个影片div的内容
    
    运行结果
    1. 提取信息
      那么这一步我们需要做的,就是从这个包含了电影所有信息的div里面,提取出我们需要的信息了。先截个图,找到我们的目标们。

      单个div视图

      现在,代码中each_movie这个变量的内容就是截图中的内容。
      目标们的位置:

    电影属性 文档中的位置
    名字 在第 2 个标签里面
    链接 在第 1 个和第 2 个标签的 href 属性里面
    上映日期 在第 1 个

  3. 标签里面
  4. 类型 在第 2 个

  5. 标签里面
  6. 地区 在第 3 个

  7. 标签里面
  8. 关注者数量 在第 4 个

  9. 标签里面
  10. 那么我们就可以开始制定策略了。
    名字:先获取所有的标签,取第二个text
    链接:利用上一步获取到的所有标签,取第一个或者第二个href属性。
    上映日期等等我们就先取到所有的

  11. 标签,依次取出里面的text的值就是我们所需要的目标了。
    那就开始写代码了!

    from bs4 import BeautifulSoup  # 从bs4引入BeautifulSoup
    # 读取文件内容到html变量里面
    file_obj = open('douban.html', 'r')  # 以读方式打开文件名为douban.html的文件
    html = file_obj.read()  # 把文件的内容全部读取出来并赋值给html变量
    file_obj.close()  # 关闭文件对象
    
    soup = BeautifulSoup(html, 'lxml')  # 初始化BeautifulSoup
    # print(soup)  # 输出BeautifulSoup转换后的内容
    all_movies = soup.find('div', id="showing-soon")  # 先找到最大的div
    # print(all_movies)  # 输出最大的div的内容
    for each_movie in all_movies.find_all('div', class_="item"):  # 从最大的div里面找到影片的div
        # print(each_movie)  # 输出每个影片div的内容
        all_a_tag = each_movie.find_all('a')  # 找到所有的a标签
        all_li_tag = each_movie.find_all('li')  # 找到所有的li标签
        movie_name = all_a_tag[1].text  # 从第二个a标签的文字内容提取影片名字
        moive_href = all_a_tag[1]['href']  # 从第二个a标签的文字内容提取影片链接
        movie_date = all_li_tag[0].text  # 从第1个li标签的文字内容提取影片上映时间
        movie_type = all_li_tag[1].text
        movie_area = all_li_tag[2].text
        movie_lovers = all_li_tag[3].text
        print('名字:{},链接:{},日期:{},类型:{},地区:{}, 关注者:{}'.format(
            movie_name, moive_href, movie_date, movie_type, movie_area, movie_lovers))
    

    运行效果:

    输出效果
    1. 合并 请求网页 与 解析网页 的代码
      合并代码我们就可以去掉保存文件和读取文件的部分啦~,这就是最终版本的代码了。
    import requests
    from bs4 import BeautifulSoup  # 从bs4引入BeautifulSoup
    
    #请求网页
    # 2019-12-23更新,解决不能获取到响应的问题
    url = "https://movie.douban.com/cinema/later/chengdu/"  # URL不变
    # 新增伪装成浏览器的header
    fake_headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; '
    'WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.79 Safari/537.36'
    }
    response = requests.get(url, headers=fake_headers)  # 请求参数里面把假的请求header加上
    
    # 解析网页
    # 初始化BeautifulSoup方法一:利用网页字符串自带的编码信息解析网页
    soup = BeautifulSoup(response.content.decode('utf-8'), 'lxml')
    # 初始化BeautifulSoup方法二:手动指定解析编码解析网页
    # soup = BeautifulSoup(response.content, 'lxml', from_encoding='utf-8')
    
    # print(soup)  # 输出BeautifulSoup转换后的内容
    all_movies = soup.find('div', id="showing-soon")  # 先找到最大的div
    # print(all_movies)  # 输出最大的div的内容
    for each_movie in all_movies.find_all('div', class_="item"):  # 从最大的div里面找到影片的div
        # print(each_movie)  # 输出每个影片div的内容
        all_a_tag = each_movie.find_all('a')
        all_li_tag = each_movie.find_all('li')
        movie_name = all_a_tag[1].text
        moive_href = all_a_tag[1]['href']
        movie_date = all_li_tag[0].text
        movie_type = all_li_tag[1].text
        movie_area = all_li_tag[2].text
        movie_lovers = all_li_tag[3].text
        print('名字:{},链接:{},日期:{},类型:{},地区:{}, 关注者:{}'.format(
            movie_name, moive_href, movie_date, movie_type, movie_area, movie_lovers))
    
    
    

    顺便布置个作业: 试着自己把影片海报的链接给爬下来并输出
     

    1. 总结
      本章,我们利用了上一章所学的用 jupyter 编写代码、requests 请求网页的技能。
      新学习了如何从目标网页提取我们需要的信息。需要掌握的是BeautifulSoup的简单使用。
      学会把请求和解析分开来完成,这样代码会更加具有结构性,一个一个模块完成了,最后拼接起来,就是摩天大厦了!
      教程可能会比较长,其实就一个30行的代码,为了讲的详细,所以可能有很多废话。能够认真看到这里的,那肯定是非常有恒心有耐心的人。
      另外,写代码不要老是复制哦,一定要试着自己写,写代码的过程非常重要。

     

    • 附上BeautifulSoup 的文档:
      • 中文文档:Beautiful Soup 4.2.0 文档
      • 英文文档:Beautiful Soup Documentation

    本节到此结束,下一节是关于保存爬取的数据的教程。感谢观看。

     


     
    传送门:

    下一章:

    • 爬虫入门教程⑨— 用html和csv文件保存爬取到的数据

    所有的章节:

    • 爬虫入门教程①— 爬虫简介
    • 爬虫入门教程②— 必备知识基础(一)反爬虫简介
    • 爬虫入门教程③— 必备知识基础(二)HTTP请求简介
    • 爬虫入门教程④— 必备知识基础(三)网页的构成
    • 爬虫入门教程⑤— 安装Python
    • 爬虫入门教程⑥— 安装爬虫常用工具包
    • 爬虫入门教程⑦— jupyter与requests的初步使用
    • [爬虫入门教程⑧— BeautifulSoup解析豆瓣即将上映的电影信息]
    • 爬虫入门教程⑨— 用html和csv文件保存爬取到的数据
    • 爬虫入门教程⑩— 用漂亮的图表展示爬取到的数据

    推荐阅读更多精彩内容

    • MyBatis 的 4 个妙用,别再踩坑了!
      Mybatis 是 Java 中一个非常好用的数据库框架,这儿记录一下在使用过程中遇到的坑。 官方中文文档地址: ...
      Java李太白阅读 619评论 0赞 7
    • 中科院的Python漫画书,整整471集,建议白嫖领取
      最近很多小伙伴私信我说:市面流传的什么Python资料,Java电子书太难懂,枯燥乏味,很容易就学不下去了 那么今...
      木木学编程阅读 475评论 2赞 2
    • [Python与数据分析]-19用Python Pandas合并多个excel(.xlsx)文件
      有时候需要将多个表头一致的文件合并成一个(注意要表头一致,不一致的话,合并之后内容会错开),手动打开所有表一个一个...
      蒸饺与白茶阅读 577评论 0赞 8
    • pyecharts全家桶,一招学会python可视化
      pyecharts一直被誉为python可视化的神器,因为它只需较少的代码既可以绘制非常漂亮的图形 今天主要分享一...
      小笨鸟_1d2f阅读 503评论 0赞 3
    • Python爬虫新手入门教学(十):爬取彼岸4K超清壁纸
      前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。 Pyt...
      松鼠爱吃饼干阅读 90评论 0赞 2

文章来源于互联网:爬虫入门教程⑧— BeautifulSoup解析豆瓣即将上映的电影信息

发表评论