简数采集平台内置强大的内容高级处理配置,在详情页提取器的字段数据处理 “高级配置” 选项中,详细介绍发下:

一、高级配置界面

双击采集的字段或者字段右边的绿色设置按钮进入数据处理》转到 “高级配置” 栏目;

二、各功能概述

  1. 提取值类型:

    i. 文本:单纯文本,无任何格式;

    ii. 获取html(带格式的文本和图片等):获取定位元素内的子孙元素内容,包括html标签

    iii. OuterHtml:比 “获取html” 多了本节点;

    iv. OwnText:仅本节点文本,不含子孙节点的文本;

    v. 节点属性:可获取元素中定义的属性值;

    vi. 随机值:请到 “随机&固定值” 选项卡中设置该功能;

  1. 勾选框功能:

    i. 采集结果不得为空:勾选上,若采集内容为空,该数据不会入库;

    ii. 只获取网址:一般用于获取a标签的链接地址,即href属性值;

    iii. 选择多值:标签一般为多值或需要选择多个内容,常用于tag字段;

    iv. 只采集图片链接:只获取图片的链接;

  1. 图片链接属性

获取html时,默认优先从img标签的data-src、src等属性中获取图片链接,所以一般留空即可;

若采集的网站把图片链接存放在自定义属性中,则需在该处填写相应的属性。

  1. 多值分隔字符

当使用 “选择多值” 功能时,默认在多个值间用逗号作为分隔符,如需修改,在此填写即可;

文章来源于互联网,如有雷同请联系站长删除:采集数据处理–高级配置教程

发表评论