藍天采集器分類信息采集,列表數據循環入庫示例教程

2020-09-16 994 19 編輯:蜀戎seo 來源:本站

分類信息在網絡中的使用率僅次于文章,通常為列表格式數據,所以采集分類信息的流程很簡單,可以直接將列表頁當做內容頁來采集,如果需要從列表頁中分析出內容頁,那么采集流程就類似于文章采集,本教程重點講解采集列表形式的數據

前面說了可以直接將列表頁當做內容頁來采集,那么起始頁設置成什么呢?一般可以設為分類鏈接列表或者關鍵詞搜索鏈接列表(該教程繞過這步)

http://shili.skycaiji.com/info.html為例,基本上所有數據都在該列表中,所以無需進入內容頁采集,直接將起始頁設置為內容頁網址



保存后點擊測試抓取內容頁網址,然后點“分析”進入分析網頁界面
列表數據都有一定的格式規律,我們先匹配出每一條數據的包裹層,點擊圖片元素,然后使用底部控制臺中的父元素來調出包裹層



得出第一條數據包裹層xpath://*[@id="list"]/li[1]
同類型包裹層xpath://*[@id="list"]/li

在“獲取內容”中添加字段,獲取方式選“xpath匹配”,規則輸入同類型的xpath,勾選“允許匹配多個元素”并選中“循環入庫”



保存測試下看



成功抓取到包裹層列表,接下來從每個包裹層中匹配出字段數據

以第一條數據為例,第一條包裹層html源碼:



先添加一個圖片字段,獲取方式選“字段提取內容”,選中“包裹層”字段,提取內容選“xpath匹配”
由于是從包裹層中提取圖片,所以圖片xpath只需要相對于包裹層就可以了(不用根據整個頁面寫xpath)
填寫圖片xpath://img[@class='img'],屬性選“src”



保存測試看看



成功從每個包裹層中匹配出了相應的圖片鏈接
接下來再添加幾個字段,操作類似于圖片:

  • 標題xpath://div[@class='title']

  • 地址xpath://div[@class='address']

  • 戶型xpath://div[@class='huxing']

  • 標簽xpath://div[@class='tags']

  • 均價xpath://div[@class='price']


注意以上字段xpath匹配的屬性選擇“text”可直接過濾掉html代碼



測試結果:



采集列表數據的教程就是這些了,流程很簡單,就是編寫字段xpath比較繁瑣,還有一種不使用包裹層而是直接將每個字段都設置為循環入庫(xpath匹配使用同類型元素的xpath)

兩種方式都已上傳云平臺
包裹層:http://www.skycaiji.com/Collect/rule/detail/id/100156
同類型:http://www.skycaiji.com/Collect/rule/detail/id/100111

如有細節方面問題請在本帖內回復!


相關知識點:
本站文章均為蜀戎網絡摘自權威資料,書籍,或網絡原創文章,如有版權糾紛或者違規問題,請即刻聯系我們刪除,未經允許禁止復制轉載!感謝...

在線
客服

在線客服服務時間:9:00-21:00

客服
熱線

13227777380
7*24小時客服服務熱線

客服
微信

掃一掃微信咨詢
頂部
最近2019年免费中文字幕电影,最近更新2018中文国语字幕,最近中文字幕2018高清一页,一二三四免费观看视频中文版在线