添加、編輯字段時使用規則匹配可精準獲取目標頁面的數據
“規則”支持:(*)(通配符)、正則表達式,使用[內容](通用匹配)或捕獲組(正則捕獲組)將匹配的數據保存為標簽,在“拼接內容”中引用[內容N]標簽組成結果
[內容]和捕獲組的區別:[內容]會自動轉換成固定格式捕獲組:(?<content>.*?)
而捕獲組:(?<content>[\s\S]*?),可以編寫任意正則表達式
[內容]適用于精準度不高的通用匹配,捕獲組適用于精準匹配
默認為單個匹配,多個匹配可勾選“允許匹配多個元素”
示例
以網易新聞為例,頁面中有許多元素,而我們只需要標題和正文
鼠標右鍵,查看頁面源代碼,使用鍵盤 CTRL+F 搜索標題,找到標題的位置
即標題的規則為:<h1>[內容]</h1>
同理,找出正文所在位置
正文處于標記的紅框html代碼之間
即正文的規則為:<div class="post_text" id="endText" style="border-top:1px solid #ddd;">[內容]<div class="ep-source cDGray">
思路很簡單,需要注意的是確保匹配的唯一性,可以優先選擇有id屬性的標簽!
添加、編輯字段時使用XPath匹配可方便快捷獲取目標頁面的數據
“規則”處填寫xpath代碼,默認匹配一個節點
幾個常用的節點屬性:
一般情況下使用innerHtml
示例
以網易新聞為例,頁面中有許多元素,而我們只需要標題和正文
鼠標懸停在標題上,右鍵點擊審查元素(無此功能可使用谷歌瀏覽器)
控制臺中會自動跳到相應的html代碼,右鍵代碼?Copy?Copy XPath 即可
標題的XPath規則為://*[@id="epContentLeft"]/h1
同理,鼠標懸停在正文中,右鍵點擊審查元素
在控制臺底部選擇節點,當正文被陰影覆蓋時表示為正文節點,右鍵節點代碼?Copy?Copy XPath
正文的XPath規則為://*[@id="endText"]
xpath簡單易上手且準確度高,推薦使用!
如果目標不是html格式而是json數組,規則處直接輸入鍵名,子元素用:[a][b][c]或a.b.c
可智能識別標題、正文、keywords、description、頁面網址,注意:正文不能保證100%識別,如需精準請使用規則和xpath
可選擇固定文字、隨機數字、時間、隨機抽取
時間可設置格式、隨機范圍,勾選“轉換成時間戳”獲取數字形式的時間
從某個字段的內容中提取圖片、電話、郵箱或者使用規則提取
將多個字段組合拼接成新的內容