采集器設置

點擊任務底部進度條的“采集器設置”進入規則編輯界面

  • 輸入采集規則名稱和目標網站編碼(可自動檢測)

  • 頁面渲染可自動加載出ajax內容,適用于js腳本較多的頁面

  • 自動補全網址可以將網頁中的相對地址(不包含域名的網址)轉為絕對網址(包含域名)

  • 網址不排重,默認會將采集過的內容頁排重處理,不排重適用于更新頻繁的動態頁面

  • 修改請求頭信息以適應需要登錄的、手機瀏覽的等界面

起始頁網址

添加需要采集的目標列表頁

點擊“+”號可批量添加網址,勾選“設置為內容頁網址”可直接采集輸入的網址,否則作為列表頁需要進行分析提取出內容頁網址

內容頁網址

編寫提取內容頁網址的規則,默認提取所有網址,如需精準可設置“提取網址規則”

多級網址獲?。哼m用于小說、影視等連載形式的內容

只要內容頁網址不是直接從起始頁抓取的,都可以通過多級來獲取

關聯頁網址獲?。哼m用于數據分散在多個頁面中

如需要抓取的字段不在內容頁,而在其他頁面中,則可以使用該功能將其他頁面也作為內容源

獲取內容

“添加默認”可以自動設置幾個常見的字段,能滿足大部分文章類型的站點采集

如果目標數據格式比較復雜,可點擊“+”自行編寫字段規則,支持正則表達式、xpath、json等多種匹配方式

數據處理”可將采集到的字段值進行過濾或替換內容,每個字段都可單獨處理或使用通用處理

如需抓取分頁,點擊開啟“內容分頁”并編寫規則,程序會自動抓取每個分頁中的字段內容

測試規則

采集器配置完成后需點擊保存按鈕,刷新后可在“內容頁網址”選項卡和“獲取內容”選項卡中看到測試按鈕

測試列表頁中抓取網址

測試頁面中抓取數據

測試抓取分頁

最近2019年免费中文字幕电影,最近更新2018中文国语字幕,最近中文字幕2018高清一页,一二三四免费观看视频中文版在线宜宾蜀戎网络公司