简书是一个很好的写作平台,当我们写了一段时间之后,偶尔会想知道自己在一段时间里究竟写了几篇文章,每篇文章的阅读数量、评论数量、喜欢数量、赞赏数量,这些指标分别是多少,通常我们可以在简书【我的主页】里看到自己所有的关键信息、全部文章标题和以上各个指标的数量显示。

简书-我的主页.png

文章数量少的,可以把标题和各项指标逐个手动记录下来,再进行比较。根据比较,看出自己哪些文章受欢迎,哪些文章还可以再提高。文章数量多的,用手动的方法难度就比较大。很多人的文章已经有几百篇,字数几十万,各项指标也很多,手动记录数据费时费力也容易出错。这时,我们就可以使用【八爪鱼采集器】来完成这项统计工作,快速并且不费力。

八爪鱼采集器是一款免费网络爬虫软件。可以在很短的时间内,轻松从各种不同的网站或者网页获取大量的规范化数据,帮助任何需要从网页获取信息的客户实现数据自动化采集,编辑,规范化,摆脱对人工搜索及收集数据的依赖,从而降低获取信息的成本,提高效率。(来自百度百科)

使用八爪鱼采集器统计个人简书文章的标题、阅读数量、喜欢数量、评论数量。

一、八爪鱼官网注册和积分的作用

登录官网注册。注册后,官网赠送积分。每天在官网签到,可以免费领取30积分。积分的用途是:采集数据导出到Excel表时,需要支付积分才能完成。免费版八爪鱼每10条数据支付1积分。

八爪鱼官网注册.png

二、免费下周八爪鱼客户端

在官网下载免费的客户端,将客户端安装在电脑上(建议安装在C盘以外的其他盘)。在电脑上打开客户端才可以进行数据采集。

八爪鱼采集器客户端.png

三、用八爪鱼采集简书文章的各项指标

1、打开八爪鱼客户端
输入账号密码,打开客户端.png
2、打开客户端后,看到两种采集方式,选择【自定义采集】,点击【立即使用】。
两种采集方式.png
3、建立采集任务。

将需要采集的网站录入,即将简书【我的主页】网址链接粘贴在红框中。采集任务建立,点击左下角【保存网址】。

建立采集任务,粘贴简书网址,保存网址.png
4、进入采集页面,呈现出与链接相同的的简书网站内容,及【我的主页】全部内容。

网站中(红框内)呈现出来的文字,数字,链接,都可以采集。我们只采集文章标题,阅读数量,评论数量,喜欢数量,这四个指标。

采集任务中显示简书【我的主页】所有内容.png
5、选择标题字段,准备采集。
(1)鼠标左键点击文章标题【简书写作第七周总结】,右侧弹出橙色对话框,点击【选中全部】。

可以看到第二篇文章【实习生怎么带才好用?(二)】也被虚框选中。简书【我的主页】整个页面的所有文章标题都被选中。

采集标题.png
(2)点击选中全部,弹出橙色对话框,点击【采集以下链接文本】。

因为我们要采集标题文字,所以选采集文本。如果想采集每个标题的链接网址,也可以选择采集链接地址。

采集标题文本.png
(3)点击【采集以下链接文本】,橙色对话框显示出本页面的所有标题文字。

然后回到左侧文章标题下方,选中阅读数量(眼睛代表阅读,数字2是本篇文章的阅读量)。

采集阅读数量.png
(4)点击橙色对话框中的【选中全部】,则本页面下每篇文章的阅读数量都被选中。同样,因为我们要的是数字,所以只采集阅读量的文本。
采集阅读量文本.png

橙色对话框中呈现出每篇文章阅读量的数字。

阅读量文本呈现.png
(5)以此类推,依次采集评论数量和喜欢数量。

当所有要采集的字段全部收集齐,被收集的部分都呈现粉红色。

image.png
(6)完成所有字段的收集之后,点击右侧橙色对话框中的【保存并开始采集】。出现采集对话框,点击【启动本地采集】。
启动本地采集.png
(7)启动本地采集后,只需等采集任务自行完成,无需再做其他操作。

用时6秒,采集9条。平均每分钟81条。采集速度与网站打开速度,网速,都有关系。仅供参考。

采集完成.png
(8)导出数据,支付积分。

点击【导出数据】,系统要求支付积分,每10条数据支付1积分,同时会显示账户还剩余多少积分(网站签到可免费领积分)。

导出数据.png
支付积分.png
(9)选择导出方式,选择存放地址。

支付积分后,系统弹出导出方式,根据个人情况选择适合自己的。我们选择Excel表格为导出方式,选择自己适用的文件夹,进行保存。

选择导出方式.png
(10)在Excel表格中进行微调,修改字段名称和格式。
Excel表导出完成,核对信息.png
数据采集完成.png

经过以上步骤,我们把简书每篇文章的标题,阅读数量,评论数量,喜欢数量,四个指标都采集到Excel表格里了。这样做自我检查和比较,是不是更加方便快速?如果你有什么问题,欢迎留言。

细心的观众有没有注意到一个问题?如果有发现,也欢迎留言。

文章来源于互联网,如有雷同请联系站长删除:如何快速统计简书数据——八爪鱼采集器(一)

发表评论