小說采集流程:小說列表頁→單本小說章節列表頁→小說章節頁
小說比文章多了一級網址,可以將單本小說章節列表頁視為文章列表頁,小說章節頁視為文章內容頁,多出來的是小說列表頁即小說名稱列表
那么小說列表頁就是起始頁,當然你也可以將單本小說章節列表作為起始頁(類似于文章采集),本教程重點講解多本小說采集
以http://shili.skycaiji.com/novel.html為例,將其設置為起始頁網址
分析出單本小說章節列表網址規則為:
注意不能直接將規則填入到“內容頁網址獲取”中,因為“內容頁網址獲取”表示的是最后一級頁面即小說的章節內容頁
此處匹配出的網址是章節列表頁,應該添加為“多級網址”再匹配出內容頁網址


保存后測試抓取內容頁網址

如圖所示從起始頁中抓取到了2本小說,每本小說抓取到了32條網址(此時抓取到的是全部鏈接,包含樣式和js文件鏈接,需要過濾出章節網址)
進入http://shili.skycaiji.com/novel/index/show/id/1.html分析出章節網址規則:
這時就可以將規則填入“內容頁網址獲取》結果網址過濾》必須包含”中,保存后再測試:

成功抓取到所有章節鏈接
接下來就是抓取章節的標題、正文了,點擊上圖的分析,即可直接在頁面中點擊元素獲取xpath值
獲取到的標題xpath://*[@id="title"]/h1
正文xpath://*[@id="content"]
分別添加字段:標題、正文,獲取方式選擇“xpath匹配”,將獲取到的xpath值填入即可


保存后測試抓取數據:

如果章節有分頁,可以參考文章分頁教程
- 1藍天采集器采集今日頭條ajx的內容最新教程
- 2藍天采集器Z-BlogPHP 1.5.1 Zero發布插件有誰成功的
- 3pbootcms系統網站必須要做的seo要點
- 4藍天采集器反應三個問題
- 5藍天采集器本地安裝操作教程-蜀戎cms網錄制
- 6易優cms(eyoucms)藍天采集器發布插件
- 7狂雨小說CMS后臺采集規則教程附帶操作演示案例
- 8藍天采集器又有新的問題!版主來哈。關于采集的
- 9阿里云SSL證書在寶塔控制面板配置教程
- 10Typecho1.1輕博客在線安裝操作教程
- 11藍天采集器關于DZ帖子發布的修改參考,技術有限僅供參考。
- 12企業網站關鍵詞搜索引擎優化seo操作教程
- 13藍天采集器這種頁面不能采集嗎
- 14藍天采集器偽靜態后臺有問題
- 15藍天采集器Zblog怎么自動發布?
- 16藍天采集器內容頁網址保存后自動被替換,然后導致無法采集
- 17藍天采集器圖片本地化的一個bug
- 18linux系統centos7安裝chrome的操作教程
- 19藍天采集器這采集軟件可以采集1688商品所有數據嗎
- 20163K網站系統騰訊云驗證碼配置說明
-
藍天采集器奇葩了模擬匹配可以獲取內容···
這是因為啥
-
藍天采集器訪問采集頁時可用post提···
訪問采集頁時可用post提交表單嗎?急需,想采集的頁面網址不變,每個選項卡點擊后是以post形式提交獲取的josn轉碼顯示,求大佬支持下 暫時不行,下個版本支持
-
linux系統centos7安裝ch···
linux系統不像我們windows系統那樣桌面化手動點擊操作,蜀戎網絡給大家講一下centos7系列如何安裝chrome瀏覽器。據說默認是自帶了火狐瀏覽器的,但是作為一個程序員來說火狐還是沒有chrome瀏覽器那么強大。第一步通過ssl遠···
-
藍天采集器采集中斷、自動采集無效、圖···
因為web服務器有運行時間限制,所以只要采集執行時間太長都會導致程序中斷,需要修改web服務器的超時時間 IIS服務器: 桌面>計算機>右鍵>管理>服務和應用程序>IIS>根目錄>FastCGI 設···
-
藍天采集器WORDPRESS采集數據···
點擊采集后就卡在這里了 其他保存到本地正常 用的是官方的wordpress插件 采集器和wp不在同一數據庫 采集器在wp的子目錄中 點擊測試發布看看有效不 開啟 采集設置》實時發布數據