此文只是作為分析測試,如有侵犯權限聯系我們刪除。
源站:www.unionrepair.com 由于源站服務器在國外所以打開速度比較慢,源站是一個shop商城,我們今天就測試采集產品價格,標題以及內容。
第一步:添加任務(名稱隨意)采集網址規則
起始網址:意思是從那里開始采集(也就是打開的意思);
多級網址獲?。哼@里就是我們采集產品的網址鏈接;
以上是提取頁面鏈接地址規則:
以上是選定區域網址:
開始:<
div
class
=
"ty-tabs cm-j-tabs cm-j-tabs-disable-convertation clearfix"
>
結束:
<
div
class
=
"ty-mainbox-container clearfix about-company-desc"
>
網址提取方式:
<
div
class
=
"ty-grid-list__image"
> <
a
href
=
"https://參數"
>
網址的鏈接提取規則我們就配置好了,由于網站是外國的所以我們別忘記把網站的cookie填寫上。
第二步:采集內容規則
標題:
<
meta
property
=
"og:title"
content
=
" "
/>
價格:<
input
type
=
"hidden"
name
=
"pda_send_dataprice"
value
=
" "
/>
內容:<code class="xml plain" style="font-size: 13px; white-space: pre; padding: 0px !important; font-fam
相關知識點: 火車頭采集規則- 1藍天采集器圖片本地化的功能,目前貌似沒用?
- 2藍天采集器希望支持杰奇cms
- 3寶塔控制面板php.ini文件在那個文件目錄里面
- 5藍天采集器需要多表發布,ID關聯,能獲取上一個表的自增ID的功能
- 6藍天采集器發布問題
- 7藍天采集器請問一下,正則問題
- 8藍天采集器圖片本地化的一個bug
- 9網站SEO優化100條解答經驗分享56-75
- 10藍天采集器請問有時候自動采集會停止時我配置參數不對嗎
- 11藍天采集器入數據庫日期如何操作?
- 12藍天采集器wordpress發布插件BUG
- 13藍天采集器發布文章時候提示 未獲取到“作者賬號”:
- 14藍天采集器v1.2碼云clone下來的,安裝完成后菜單是英文
- 15騰訊云winds服務器掛載數據盤在系統桌面教程
- 16json采集功能點說明
- 17藍天采集器無法獲取post方式獲得的列表頁面
- 18藍天采集器請問怎么采集新浪的這段網址
- 19藍天采集器藍天采集可以支持阿里云OSS嗎或者是七牛也行那樣就完美了
- 20藍天采集器發布改為文件儲存,但是為什么寫入不了
-
藍天采集器采集小說示例教程
小說采集流程:小說列表頁→單本小說章節列表頁→小說章節頁小說比文章多了一級網址,可以將單本小說章節列表頁視為文章列表頁,小說章節頁視為文章內容頁,多出來的是小說列表頁即小說名稱列表那么小說列表頁就是起始頁,當然你也可以將單本小說章節列表作為···
-
PbootCMS發布的內容帶反斜杠不···
拿pbootcms來做博客的可能會碰到個問題,那就是發布些教程的時候需要添加路徑描述時,例如需要顯示ppscommon oute.php的時候,這里的路徑里有反斜杠,然后發布后就會發現變成了以下(左側為錯誤,右側為正常):這是為什么呢,經···
-
藍天采集器如何關聯多頁采集規則教程
我們在使用藍天采集器采集內容的時候會遇到一些加載在別的頁面上的信息;但是呢有一些內容呢又需要在內容里面關聯獲取到這個時候呢我們就需要加上關聯頁。何為關聯頁呢:比如從內容頁面獲取到ID;但是沒有相關的url鏈接,這個時候呢我們就需要把采集到的···
-
藍天采集器奇葩了模擬匹配可以獲取內容···
這是因為啥
-
搜索引擎SEO優化需要了解它的運算邏···
很多站長都會以為把文章提交后,蜘蛛進來抓取,就會收錄。于是每天大量更新文章, 等待收錄,久而久之,網站就會出現很多垃圾文章。文章的收錄都有固定的流程,并不像一 些站長認為的那樣輕而易舉。 蜘蛛抓取的流程主要分為四個步驟:抓 、過濾···