网页文章列表网址采集快速方法
在简数采集平台中,列表提取器主要用于提取多个详情页链接,配置主要有3个步骤:
1、点击“重置当前字段”按钮,重新开始配置;
2、用鼠标点击要采集的标题,只需点击两个不同标题,系统便会自动选中其它相似的标题;
3、检查页面左下角“数据预览” 下方是否列出了文章链接地址,如果有,则配置正确,如果没有,需要再点选,直到出现链接。
网址采集配置结果示例:

详细使用步骤:
- 清除旧配置
智能向导创建任务过程中或者任务创建完成后,如果网址采集规则不正确,那么可以打开“列表提取器”进行修改。
在列表提取器右上方点击 【重置当前字段配置】按钮,点击 【OK】,清除已有的配置:

- 在页面上点选要采集的链接
用鼠标点击要采集的链接(标题),只需点击两个不同链接,系统便会自动选中其它相似的链接。
点选两个后,检查页面左下角“数据预览” 下方是否列出了文章链接地址(相对的或绝对链接都行),如果有,则配置正确,如果没有,需要再点选,直到出现链接。(若无链接出现,请查看列表页配置常见问题及解决)

高级配置说明:列表提取器只能配置一个url字段,并默认勾选上 ‘只获取网址’ 和 ‘自动选中类似元素’ 功能。(一般无需修改,使用系统默认配置即可)
列表页配置常见问题及解决
I、点选不出来链接,怎么办?
解决方法主要分四种情况:
重新选择,移动变化点选的区域,缩小或者放大。或者注意变通,选择其它位置达到相同的目的。如列表中有“阅读全文”链接;
手动修改“当前字段xpath”:列表详情链接xpath一般最后都是/a,或者a/kds 。如果看到不是这样的,可以把最后其它的删除。(/kds这个删除或保留都不影响);
如果需要的区域内容为空,那么可以试试勾选“使用JS动态数据”来动态加载页面;
列表提取器获取特殊链接网址(如在onclick属性),点击查看详细教程;
II、列表提取器的入口?
列表提取器的入口主要有两个:
任务列表的快速入口;
任务基本信息页面的入口;
文章来源于互联网,如有雷同请联系站长删除:网页文章列表网址采集快速方法