字段

規則匹配

添加、編輯字段時使用規則匹配可精準獲取目標頁面的數據

“規則”支持:(*)(通配符)、正則表達式,使用[內容](通用匹配)或捕獲組(正則捕獲組)將匹配的數據保存為標簽,在“拼接內容”中引用[內容N]標簽組成結果

[內容]和捕獲組的區別:[內容]會自動轉換成固定格式捕獲組:(?<content>.*?)
而捕獲組:(?<content>[\s\S]*?),可以編寫任意正則表達式
[內容]適用于精準度不高的通用匹配,捕獲組適用于精準匹配

默認為單個匹配,多個匹配可勾選“允許匹配多個元素”

示例

網易新聞為例,頁面中有許多元素,而我們只需要標題和正文

鼠標右鍵,查看頁面源代碼,使用鍵盤 CTRL+F 搜索標題,找到標題的位置

即標題的規則為:<h1>[內容]</h1>

同理,找出正文所在位置

正文處于標記的紅框html代碼之間

即正文的規則為:<div class="post_text" id="endText" style="border-top:1px solid #ddd;">[內容]<div class="ep-source cDGray">

思路很簡單,需要注意的是確保匹配的唯一性,可以優先選擇有id屬性的標簽!

XPATH匹配

添加、編輯字段時使用XPath匹配可方便快捷獲取目標頁面的數據

“規則”處填寫xpath代碼,默認匹配一個節點

幾個常用的節點屬性:

  • innerHtml:節點內的HTML代碼
  • outerHtml:包括節點本身的HTML代碼
  • text:節點包含的文本內容
  • value:節點的值

一般情況下使用innerHtml

示例

網易新聞為例,頁面中有許多元素,而我們只需要標題和正文

鼠標懸停在標題上,右鍵點擊審查元素(無此功能可使用谷歌瀏覽器)

控制臺中會自動跳到相應的html代碼,右鍵代碼?Copy?Copy XPath 即可

標題的XPath規則為://*[@id="epContentLeft"]/h1

同理,鼠標懸停在正文中,右鍵點擊審查元素

在控制臺底部選擇節點,當正文被陰影覆蓋時表示為正文節點,右鍵節點代碼?Copy?Copy XPath

正文的XPath規則為://*[@id="endText"]

xpath簡單易上手且準確度高,推薦使用!

JSON提取

如果目標不是html格式而是json數組,規則處直接輸入鍵名,子元素用:[a][b][c]或a.b.c

自動獲取

可智能識別標題、正文、keywords、description、頁面網址,注意:正文不能保證100%識別,如需精準請使用規則和xpath

數據生成

可選擇固定文字、隨機數字、時間、隨機抽取

時間可設置格式、隨機范圍,勾選“轉換成時間戳”獲取數字形式的時間

字段提取內容

從某個字段的內容中提取圖片、電話、郵箱或者使用規則提取

字段組合

將多個字段組合拼接成新的內容

最近2019年免费中文字幕电影,最近更新2018中文国语字幕,最近中文字幕2018高清一页,一二三四免费观看视频中文版在线宜宾蜀戎网络公司