采集中斷、自動采集無效、圖片下載不了
詳見:http://www.heberge-images.com/fy/657.html
cli命令模式
php可執行文件:默認自動識別,識別不了,在linux系統中關閉目錄跨站保護,手動輸入:可輸入環境變量名“php”(需要系統中已配置)或輸入可執行文件路徑,注意不是php目錄,一般windows中文件為“php目錄/php.exe”,linux中文件為“php目錄/bin/php”
詳見:http://www.heberge-images.com/fy/248.html
觸發不了采集:
1、確定php配置是否正確
2、開啟proc_open函數(詳見:http://www.heberge-images.com/fy/103.html)
3、給web服務器配置執行命令的權限
頁面渲染設置(詳見:http://www.heberge-images.com/fy/93.html)
谷歌瀏覽器安裝:windows百度下載安裝即可,linux請看http://www.heberge-images.com/fy/93.html
配置谷歌路徑:可輸入環境變量名“chrome”(需要系統中已配置),或者輸入可執行文件路徑:一般windows中文件為“瀏覽器目錄/chrome.exe”,linux中文件為“瀏覽器目錄/bin/google-chrome”,注意:瀏覽器版本不同可能會導致可執行文件名不同!
采集規則設置
手機移動端頁面:開啟請求頭信息,設置UserAgent瀏覽器標識
需要登錄的頁面:開啟請求頭信息,設置Cookie緩存數據,如何獲取cookie:https://jingyan.baidu.com/search ... D%91%E7%AB%99cookie
采集到的網址沒有域名:開啟自動補全網址
規則中的特殊字符識別不了:使用正則規則的時候特殊字符必須使用“”轉義才能使用,和正則沖突的字符有:^$.*+|?[]{}()
頁面渲染:使用渲染和不使用時的html源碼是不一樣的,規則可能不通用!
瀏覽器中獲取到的xpath在采集器中沒有用:可能該xpath的對象是渲染出來的元素,采集器默認只能抓取原始html源碼的內容,渲染出來的元素需要開啟“頁面渲染”功能,或者分析相應的js鏈接來抓取,使用“測試》分析網頁”可以看到采集器實際抓取到的頁面
字段怎么插入內容:添加一個新字段,獲取方式選擇“字段組合”
發布設置
本地cms程序檢測不出來:
1、采集器和cms程序是在同一個網站目錄中,可能是不支持您的cms程序,需要在路徑結尾中加上“@cms名稱”即可識別出插件
2、采集器和cms程序不在同一網站但在同一服務器中,可能是服務器開啟了目錄跨站保護,關閉即可
工具
錯誤日志文件太多占用空間:可以在“站點設置”中關閉,后臺首頁使用“清除緩存”可以清空日志
插件/應用開發
應用程序無法訪問:應用需要配置偽靜態才能使用,配置文件在藍天采集器根目錄:nginx.conf(nginx),.htaccess(apache),web.config(iis)
函數插件創建后不顯示:需要在“云端》已下載》函數插件”中點擊開啟
云平臺下載的文件去哪了
在“云端》已下載”中可找到云平臺中下載的規則、插件等
采集規則在 “編輯任務 > 導入規則 > 已下載規則” 中使用
發布插件在 “任務 > 發布設置 > 本地CMS程序” 中使用
函數插件在 “任務 > 采集器設置 > 數據處理” 中使用
第三方如何使用
開發者安裝了“第三方平臺”應用,點擊“云端》已下載》應用程序》第三方平臺”的管理連接,界面中的“應用首頁”鏈接即為您需要提供給用戶的平臺網址!
用戶在“云端》第三方”中添加開發者提供的平臺網址即可在對方平臺中下載規則、插件等。
更多使用教程請看這里:http://www.heberge-images.com/skycaiji
相關知識點: 藍天采集器 藍天采集器采集教程- 1藍天采集器資訊列表頁鏈接采集規則教程分享
- 2影視聽書系統蘋果cmsv10安裝操作教程
- 3藍天采集器發布到本地數據庫失敗
- 4藍天采集器付費求購:需要圖片類素材采集
- 5pbootcms常見標簽調用學習
- 6藍天采集器這種情況怎么解決呀
- 7藍天采集器發布時綁定cms插件的時候提示搜索不到程序解決辦法
- 8藍天采集器在測試爬取字段的時候,一直在轉圈
- 9藍天采集器關于設置和觸發自動采集時系統會卡死狀態!
- 10PbootCMS英文站搜索結果頁面包屑和標題翻譯
- 11網站SEO優化100條經驗解答分享76-100
- 12藍天采集器如何將日期轉換為int類型導入到數據庫中?
- 13藍天采集器dedecms標簽怎么寫?
- 14企業網站關鍵詞搜索引擎優化seo操作教程
- 15阿里云ESC服務器linux系統CentOS7.6安裝SSL工具FinalShell教程
- 16藍天采集器系統安裝問題
- 17藍天采集器點擊安裝跳到/.php?m=install&c=index&a=index
- 18藍天采集器咨詢開發Unicode編碼解碼
- 19藍天采集器WordPress采集發布是直接是html文本,求解決!
- 20SEO月推廣運維服務參考
-
藍天采集器網址列表頁含有轉義符 正反···
json數據可以用json規則獲取,菜單》工具》json解析 可以列出數據節點 菜單》工具》json解析 是個json代碼解析工具 方便查看json的數據結構 你的位置是對的,寫規則就可以了 可以參考這個規則 http://www.s···
-
藍天采集器請問一下字段里面的某部分可···
組合數據,只想劃線的地方設置為變量,每次提交的鏈接都要改變,其它的不需要改變,請問是否可以設置,應該怎么樣設置。 下劃線的文字 是 從網頁中匹配出來的嗎? 把下劃線文字 用一個字段匹配出來 再添加個字段 用字段組合
-
藍天采集器為什么我的采集間隔失效了
在我本機上采集間隔測試有效,部署到虛擬主機采集間隔就完全失效了。不管設置再大再小都是失效。這是為什么???設置什么都一樣啊。 有bug下個版本修復
-
藍天采集器采集小說示例教程
小說采集流程:小說列表頁→單本小說章節列表頁→小說章節頁小說比文章多了一級網址,可以將單本小說章節列表頁視為文章列表頁,小說章節頁視為文章內容頁,多出來的是小說列表頁即小說名稱列表那么小說列表頁就是起始頁,當然你也可以將單本小說章節列表作為···
-
藍天采集器安裝出問題 顯示版本問題
請技術連我QQ1064269168 在線等 截個圖看看, php必須大于5.3