藍天采集器采集小說示例教程

2020-09-16 778 19 編輯:蜀戎seo 來源:本站

小說采集流程:小說列表頁→單本小說章節列表頁→小說章節頁
小說比文章多了一級網址,可以將單本小說章節列表頁視為文章列表頁,小說章節頁視為文章內容頁,多出來的是小說列表頁即小說名稱列表
那么小說列表頁就是起始頁,當然你也可以將單本小說章節列表作為起始頁(類似于文章采集),本教程重點講解多本小說采集

http://shili.skycaiji.com/novel.html為例,將其設置為起始頁網址
分析出單本小說章節列表網址規則為:

  1. novel/index/show/id/d+.html

復制代碼

注意不能直接將規則填入到“內容頁網址獲取”中,因為“內容頁網址獲取”表示的是最后一級頁面即小說的章節內容頁
此處匹配出的網址是章節列表頁,應該添加為“多級網址”再匹配出內容頁網址





保存后測試抓取內容頁網址



如圖所示從起始頁中抓取到了2本小說,每本小說抓取到了32條網址(此時抓取到的是全部鏈接,包含樣式和js文件鏈接,需要過濾出章節網址)
進入http://shili.skycaiji.com/novel/index/show/id/1.html分析出章節網址規則:

  1. novel/chapter/show/id/d+.html

復制代碼


這時就可以將規則填入“內容頁網址獲取》結果網址過濾》必須包含”中,保存后再測試:



成功抓取到所有章節鏈接

接下來就是抓取章節的標題、正文了,點擊上圖的分析,即可直接在頁面中點擊元素獲取xpath值
獲取到的標題xpath://*[@id="title"]/h1
正文xpath://*[@id="content"]
分別添加字段:標題、正文,獲取方式選擇“xpath匹配”,將獲取到的xpath值填入即可





保存后測試抓取數據:



如果章節有分頁,可以參考文章分頁教程


相關知識點:
本站文章均為蜀戎網絡摘自權威資料,書籍,或網絡原創文章,如有版權糾紛或者違規問題,請即刻聯系我們刪除,未經允許禁止復制轉載!感謝...

在線
客服

在線客服服務時間:9:00-21:00

客服
熱線

13227777380
7*24小時客服服務熱線

客服
微信

掃一掃微信咨詢
頂部
最近2019年免费中文字幕电影,最近更新2018中文国语字幕,最近中文字幕2018高清一页,一二三四免费观看视频中文版在线宜宾蜀戎网络公司