之前設置了補全網址,然后改了不補全網址了,但是還是自動補全了,用內容替換頁去不掉網址,有人知道怎么回事嗎?
嗯,這是個bug
暫時解決》內容替換:
- <a href="([^"]+)"
- <a href="填寫域名$1"
我也遇到了,弄得我死去活來,各種檢查也沒搞定。原來真是bug啊
admin 發表于 2018-8-31 21:33
嗯,這是個bug
暫時解決》內容替換:
我為了這個弄了兩個小時,死去活來啊,不懂正則表達式,所以內容替換弄不好。
我采集到的是a標簽內容磁力鏈接,補全網址之后就不能用了,應該怎么替換呢? 鏈接不在a標簽中就不會自動補齊
你直接提取鏈接即可,比如規則寫
- <a href="[內容1]">
admin 發表于 2018-9-9 21:38
鏈接不在a標簽中就不會自動補齊
你直接提取鏈接即可,比如規則寫
謝謝建議,只是因為鏈接有很多,而且分段標題,單獨采集很難后期組合。
所以我整段采集然后整體做處理比較現實。
最后唯一的問題就是磁力鏈接在 a標簽內被強制補齊。
我現在是采集后,在數據庫中批量替換關鍵詞來處理的。如果后續能修復網址補全這個問題就太好了。
admin 發表于 2018-9-9 21:38
鏈接不在a標簽中就不會自動補齊
你直接提取鏈接即可,比如規則寫
這個我知道,因為數據特點,這樣會造成后面數據處理的麻煩,所以只能整體采集。
不過,數據庫替換也還好,采集完成后一鍵批量處理。 暫時解決不了,后期修復 我的好像沒遇到過這樣的問題呢、取消了就取消了
qijianchuan 發表于 2018-9-21 23:32
我的好像沒遇到過這樣的問題呢、取消了就取消了
已經修復了 相關知識點: 鏈接 內容 發表于
本站文章均為蜀戎網絡摘自權威資料,書籍,或網絡原創文章,如有版權糾紛或者違規問題,請即刻聯系我們刪除,未經允許禁止復制轉載!感謝...
SEO課堂
公司動態
藍天采集器
- 1藍天采集器奇葩了模擬匹配可以獲取內容 正事采集獲取不到
- 2藍天采集器采集器取消了自動補全網址,還是會自動補全
- 3藍天采集器采集網址總是提示“頁面為空”是怎么回事?
- 4pbootcms在打開首頁的時候No input file specified.解決辦法
- 5百度實名認證接口(人臉身份核驗API) 申請開通教程
- 6PbootCMS建站系統模板新手必讀|安裝操作教程
- 7pbootcms類型站點怎么查看圖片、網頁元素的路徑和大小和顏色
- 8藍天采集器采集兩個就停下不動了
- 9SEO學習向導流程適合SEO零基礎入門站長
- 10藍天采集器拼接網址問題--卡殼了
- 11Xpath不固定元素列表規則寫法
- 12藍天采集器有沒有附件同步到OSS服務器這么一說?
- 13火車頭使用5118偽原創出現采集內容處理插件運行出錯:【errcode】:20031 【errmsg】【errcode】:200313 【errmsg】動態加載dll失敗
- 14藍天采集器測試的時候沒有問題。真正采集出現這種問題
- 15藍天采集器是否可以利用火車頭的免登錄發布程序發布數據呢?
- 16藍天采集器系統安裝問題
- 17藍天采集器發布時綁定cms插件的時候提示搜索不到程序解決辦法
- 18藍天采集器采集小說示例教程
- 19影視站建設教程-零基礎搭建影視站
- 20藍天采集器規則請教
更多人喜歡
-
藍天采集器本地安裝操作教程-蜀戎cm···
b站直達:https://www.bilibili.com/video/av754472399課件下載地址:百度云鏈接: https://pan.baidu.com/s/1MUHS-nevYR1_KijCyqoc_A 提取碼: bzie藍奏···
-
藍天采集器請問怎么采集新浪的這段網址
有bug后期會修復
-
PbootCMS出現登錄失敗,表單提···
1、如果出現 登入失敗,表單提交校驗失敗 ,請檢查您的服務器環境,然后刷新頁面重試或者是刪除 runtime 文件夾,然后刷新頁面重試2、如果 多次密碼錯誤導致登錄界面鎖定,可以刪除網站的 runtime 文件夾,然后刷新頁面重試3、如果登···
-
藍天采集器建議官方參照簡數補充一些功···
試了下簡數 不覺得哪里好啊。
-
藍天采集器自動采集不定時停止運行
自動采集不定時的停止運行怎么辦,有的時候是采集完就停止了,有的時候每天停2次 操作系統 Linux 3.10.0-514.26.2.el7.x86_64 運行環境 Apache 數據庫 mysql 5.5.57-log P···