一、什么是爬虫,爬虫能做什么

爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据。

爬虫可以抓取的某个网站或者某个应用的内容,提取有用的价值。也可以模拟用户在浏览器或者App应用上的操作,实现自动化的程序。以下行为都可以用爬虫实现:

  • 咨询报告(咨询服务行业)

  • 抢票神器

  • 投票神器

  • 预测(股市预测、票房预测)

  • 国民情感分析

  • 社交关系网络

  • 政府部门舆情监控

二、爬虫基本原理

爬虫是 模拟用户在浏览器或者App应用上的操作,把操作的过程、实现自动化的程序。

当我们在浏览器中输入一个url后回车,后台会发生什么?比如说你输入https://www.baidu.com,简单来说这段过程发生了以下四个步骤:

  • 查找域名对应的IP地址,浏览器首先访问的是DNS(Domain Name System,域名系统),dns的主要工作就是把域名转换成相应的IP地址
  • 向IP对应的服务器发送请求。

  • 服务器响应请求,发回网页内容。

  • 浏览器显示网页内容。

网络爬虫要做的,简单来说,就是实现浏览器的功能。通过指定url,直接返回给用户所需要的数据, 而不需要一步步人工去操纵浏览器获取。可看流程图

流程图

结尾

网络爬虫入门(一)之初识爬虫就介绍到这里,下一篇文章将会介绍爬虫的基本流程

从事任何职业都是一个工具,不是一首歌、不是一个节目,而是态度。
可加公众号【数据蛙DataFrog】,我们一起学习交流

文章来源于互联网:网络爬虫入门(一)之初识爬虫

发表评论