在简数采集平台中,列表提取器主要用于提取多个详情页链接,配置主要有3个步骤:

1、点击“重置当前字段”按钮,重新开始配置;

2、用鼠标点击要采集的标题,只需点击两个不同标题,系统便会自动选中其它相似的标题;

3、检查页面左下角“数据预览” 下方是否列出了文章链接地址,如果有,则配置正确,如果没有,需要再点选,直到出现链接。

网址采集配置结果示例:

详细使用步骤:

  1. 清除旧配置

  智能向导创建任务过程中或者任务创建完成后,如果网址采集规则不正确,那么可以打开“列表提取器”进行修改。

  在列表提取器右上方点击 【重置当前字段配置】按钮,点击 【OK】,清除已有的配置:

  1. 在页面上点选要采集的链接

  用鼠标点击要采集的链接(标题),只需点击两个不同链接,系统便会自动选中其它相似的链接。

点选两个后,检查页面左下角“数据预览” 下方是否列出了文章链接地址(相对的或绝对链接都行),如果有,则配置正确,如果没有,需要再点选,直到出现链接。(若无链接出现,请查看列表页配置常见问题及解决)

高级配置说明:列表提取器只能配置一个url字段,并默认勾选上 ‘只获取网址’ 和 ‘自动选中类似元素’ 功能。(一般无需修改,使用系统默认配置即可)

列表页配置常见问题及解决

I、点选不出来链接,怎么办?

  解决方法主要分四种情况:

重新选择,移动变化点选的区域,缩小或者放大。或者注意变通,选择其它位置达到相同的目的。如列表中有“阅读全文”链接;

手动修改“当前字段xpath”:列表详情链接xpath一般最后都是/a,或者a/kds 。如果看到不是这样的,可以把最后其它的删除。(/kds这个删除或保留都不影响);

如果需要的区域内容为空,那么可以试试勾选“使用JS动态数据”来动态加载页面;

列表提取器获取特殊链接网址(如在onclick属性),点击查看详细教程;

II、列表提取器的入口?

  列表提取器的入口主要有两个:

任务列表的快速入口;

任务基本信息页面的入口;

文章来源于互联网,如有雷同请联系站长删除:网页文章列表网址采集快速方法

发表评论