點擊任務底部進度條的“采集器設置”進入規則編輯界面
輸入采集規則名稱和目標網站編碼(可自動檢測)
頁面渲染可自動加載出ajax內容,適用于js腳本較多的頁面
自動補全網址可以將網頁中的相對地址(不包含域名的網址)轉為絕對網址(包含域名)
網址不排重,默認會將采集過的內容頁排重處理,不排重適用于更新頻繁的動態頁面
修改請求頭信息以適應需要登錄的、手機瀏覽的等界面
添加需要采集的目標列表頁
點擊“+”號可批量添加網址,勾選“設置為內容頁網址”可直接采集輸入的網址,否則作為列表頁需要進行分析提取出內容頁網址
編寫提取內容頁網址的規則,默認提取所有網址,如需精準可設置“提取網址規則”
多級網址獲?。哼m用于小說、影視等連載形式的內容
只要內容頁網址不是直接從起始頁抓取的,都可以通過多級來獲取
關聯頁網址獲?。哼m用于數據分散在多個頁面中
如需要抓取的字段不在內容頁,而在其他頁面中,則可以使用該功能將其他頁面也作為內容源
“添加默認”可以自動設置幾個常見的字段,能滿足大部分文章類型的站點采集
如果目標數據格式比較復雜,可點擊“+”自行編寫字段規則,支持正則表達式、xpath、json等多種匹配方式
“數據處理”可將采集到的字段值進行過濾或替換內容,每個字段都可單獨處理或使用通用處理
如需抓取分頁,點擊開啟“內容分頁”并編寫規則,程序會自動抓取每個分頁中的字段內容
采集器配置完成后需點擊保存按鈕,刷新后可在“內容頁網址”選項卡和“獲取內容”選項卡中看到測試按鈕
測試列表頁中抓取網址
測試頁面中抓取數據
測試抓取分頁