分類信息在網絡中的使用率僅次于文章,通常為列表格式數據,所以采集分類信息的流程很簡單,可以直接將列表頁當做內容頁來采集,如果需要從列表頁中分析出內容頁,那么采集流程就類似于文章采集,本教程重點講解采集列表形式的數據
前面說了可以直接將列表頁當做內容頁來采集,那么起始頁設置成什么呢?一般可以設為分類鏈接列表或者關鍵詞搜索鏈接列表(該教程繞過這步)
以http://shili.skycaiji.com/info.html為例,基本上所有數據都在該列表中,所以無需進入內容頁采集,直接將起始頁設置為內容頁網址

保存后點擊測試抓取內容頁網址,然后點“分析”進入分析網頁界面
列表數據都有一定的格式規律,我們先匹配出每一條數據的包裹層,點擊圖片元素,然后使用底部控制臺中的父元素來調出包裹層

得出第一條數據包裹層xpath://*[@id="list"]/li[1]
同類型包裹層xpath://*[@id="list"]/li
在“獲取內容”中添加字段,獲取方式選“xpath匹配”,規則輸入同類型的xpath,勾選“允許匹配多個元素”并選中“循環入庫”

保存測試下看

成功抓取到包裹層列表,接下來從每個包裹層中匹配出字段數據
以第一條數據為例,第一條包裹層html源碼:
先添加一個圖片字段,獲取方式選“字段提取內容”,選中“包裹層”字段,提取內容選“xpath匹配”
由于是從包裹層中提取圖片,所以圖片xpath只需要相對于包裹層就可以了(不用根據整個頁面寫xpath)
填寫圖片xpath://img[@class='img'],屬性選“src”

保存測試看看

成功從每個包裹層中匹配出了相應的圖片鏈接
接下來再添加幾個字段,操作類似于圖片:
標題xpath://div[@class='title']
地址xpath://div[@class='address']
戶型xpath://div[@class='huxing']
標簽xpath://div[@class='tags']
均價xpath://div[@class='price']
注意以上字段xpath匹配的屬性選擇“text”可直接過濾掉html代碼

測試結果:

采集列表數據的教程就是這些了,流程很簡單,就是編寫字段xpath比較繁瑣,還有一種不使用包裹層而是直接將每個字段都設置為循環入庫(xpath匹配使用同類型元素的xpath)
兩種方式都已上傳云平臺
包裹層:http://www.skycaiji.com/Collect/rule/detail/id/100156
同類型:http://www.skycaiji.com/Collect/rule/detail/id/100111
如有細節方面問題請在本帖內回復!
- 1藍天采集器藍天采集器安裝時候出現的問題
- 2藍天采集器采集保存API問題
- 3藍天采集器數據庫插入數據時候的問題
- 4藍天采集器為什么無法安裝
- 5藍天采集器怎么把采集得到的圖片下載在本地?
- 6163k地方門戶系統升級時遇到的一些報錯解決辦法
- 7藍天采集器文章分頁采集示例教程
- 8【阿里云備案】關于網站主頁下方標明備案編號的通知
- 9pbootcms火車頭采集器免登錄發布使用教程
- 10藍天采集器JSON采集時,列表頁即是內容頁,采集卡死重采會重復采集
- 11藍天采集器z-blog發布問題
- 12藍天采集器采集到的磁力鏈接前面有固定網址怎么去除?!
- 13藍天采集器寫規則點測試就連接重置
- 14PbootCMS性能優化研究之網頁響應速度
- 15百度實名認證接口(人臉身份核驗API) 申請開通教程
- 16PbootCMS藍天采集器采集使用教程二采集規則發布設置
- 17藍天采集器關于判斷
- 18藍天采集器藍天采集可以支持阿里云OSS嗎或者是七牛也行那樣就完美了
- 19藍天采集器求教高手,安裝完成后,進后臺出錯!
- 20藍天采集器jsnop如何采集?
-
藍天采集器藍天采集好像不支持偽原創哦
藍天采集好像不支持偽原創哦例如以前可以讓采集的數據自動添加文字 加到文章的前面或者后面現在好像不可以哦 是的,還沒有偽原創功能,添加文字可以用字段》字段組合來實現
-
藍天采集器discuz插件顯示亂碼
直接在官網下載 或者使用一鍵安裝包 http://bbs.skycaiji.com/forum.ph ... &extra=page%3D1
-
藍天采集器Zblog怎么自動發布?
采集內容已經寫好,但是怎么發布到我的Zblog里面?要把采集程序和Zblog放到同一個網站里嗎? 嗯,需要放在一個服務器里,然后發布選cms,檢測不到就手動綁定cms路徑
-
藍天采集器發布設置,點擊保存后,沒有···
發布設置,點擊保存后,沒有任何變化 ,類似刷新一下后,還是沒有變化 之后又試了下, 用nginx的 可以正常保存 Apache的不可以 apache-2.4 mysql-generic-5.5 php-7.1 LA···
-
狂野小說cms白色優美-手機模版(w···
最近寫了很多狂雨小說的采集規則,發現這個程序吧只有pc端沒有手機端的模板,這一點非常的不友好,手機端其實是有的,但是需要花費200元單獨進行購買。本來剛開始做也沒有多少的預算,對于一般的站長來說也是很困難,為此,蜀戎網絡花了一些時間整理了2···