藍天采集器使用常見問題及解決辦法

2020-09-16 2789 19 編輯:蜀戎seo 來源:蜀戎網

采集中斷、自動采集無效、圖片下載不了

詳見:http://www.heberge-images.com/fy/657.html


cli命令模式

php可執行文件:默認自動識別,識別不了,在linux系統中關閉目錄跨站保護,手動輸入:可輸入環境變量名“php”(需要系統中已配置)或輸入可執行文件路徑,注意不是php目錄,一般windows中文件為“php目錄/php.exe”,linux中文件為“php目錄/bin/php”

詳見:http://www.heberge-images.com/fy/248.html


觸發不了采集:

1、確定php配置是否正確

2、開啟proc_open函數(詳見:http://www.heberge-images.com/fy/103.html)

3、給web服務器配置執行命令的權限


頁面渲染設置(詳見:http://www.heberge-images.com/fy/93.html)

谷歌瀏覽器安裝:windows百度下載安裝即可,linux請看http://www.heberge-images.com/fy/93.html

配置谷歌路徑:可輸入環境變量名“chrome”(需要系統中已配置),或者輸入可執行文件路徑:一般windows中文件為“瀏覽器目錄/chrome.exe”,linux中文件為“瀏覽器目錄/bin/google-chrome”,注意:瀏覽器版本不同可能會導致可執行文件名不同!


采集規則設置

手機移動端頁面:開啟請求頭信息,設置UserAgent瀏覽器標識

需要登錄的頁面:開啟請求頭信息,設置Cookie緩存數據,如何獲取cookie:https://jingyan.baidu.com/search ... D%91%E7%AB%99cookie


采集到的網址沒有域名:開啟自動補全網址


規則中的特殊字符識別不了:使用正則規則的時候特殊字符必須使用“”轉義才能使用,和正則沖突的字符有:^$.*+|?[]{}()


頁面渲染:使用渲染和不使用時的html源碼是不一樣的,規則可能不通用!


瀏覽器中獲取到的xpath在采集器中沒有用:可能該xpath的對象是渲染出來的元素,采集器默認只能抓取原始html源碼的內容,渲染出來的元素需要開啟“頁面渲染”功能,或者分析相應的js鏈接來抓取,使用“測試》分析網頁”可以看到采集器實際抓取到的頁面


字段怎么插入內容:添加一個新字段,獲取方式選擇“字段組合”


發布設置

本地cms程序檢測不出來:

1、采集器和cms程序是在同一個網站目錄中,可能是不支持您的cms程序,需要在路徑結尾中加上“@cms名稱”即可識別出插件

2、采集器和cms程序不在同一網站但在同一服務器中,可能是服務器開啟了目錄跨站保護,關閉即可


工具

錯誤日志文件太多占用空間:可以在“站點設置”中關閉,后臺首頁使用“清除緩存”可以清空日志


插件/應用開發

應用程序無法訪問:應用需要配置偽靜態才能使用,配置文件在藍天采集器根目錄:nginx.conf(nginx),.htaccess(apache),web.config(iis)

函數插件創建后不顯示:需要在“云端》已下載》函數插件”中點擊開啟


云平臺下載的文件去哪了

在“云端》已下載”中可找到云平臺中下載的規則、插件等

采集規則在 “編輯任務 > 導入規則 > 已下載規則” 中使用

發布插件在 “任務 > 發布設置 > 本地CMS程序” 中使用

函數插件在 “任務 > 采集器設置 > 數據處理” 中使用


第三方如何使用

開發者安裝了“第三方平臺”應用,點擊“云端》已下載》應用程序》第三方平臺”的管理連接,界面中的“應用首頁”鏈接即為您需要提供給用戶的平臺網址!

用戶在“云端》第三方”中添加開發者提供的平臺網址即可在對方平臺中下載規則、插件等。

更多使用教程請看這里:http://www.heberge-images.com/skycaiji

相關知識點: 藍天采集器 藍天采集器采集教程
本站文章均為蜀戎網絡摘自權威資料,書籍,或網絡原創文章,如有版權糾紛或者違規問題,請即刻聯系我們刪除,未經允許禁止復制轉載!感謝...
更多人喜歡

在線
客服

在線客服服務時間:9:00-21:00

客服
熱線

13227777380
7*24小時客服服務熱線

客服
微信

掃一掃微信咨詢
頂部
最近2019年免费中文字幕电影,最近更新2018中文国语字幕,最近中文字幕2018高清一页,一二三四免费观看视频中文版在线宜宾蜀戎网络公司