因為web服務器有運行時間限制,所以只要采集執行時間太長都會導致程序中斷,需要修改web服務器的超時時間
IIS服務器:
桌面>計算機>右鍵>管理>服務和應用程序>IIS>根目錄>FastCGI 設置>雙擊"php-cgi.exe">活動超時
apache服務器:
apache目錄confextrahttpd-default.conf,修改Timeout
nginx服務器:
nginx目錄conf
ginx.conf,修改 fastcgi_connect_timeout
修改以上的參數值可讓采集不再中斷,修改完后記得重啟服務器!
其他服務器請自行百度
如果你是虛擬主機無法修改配置,唯一方法就是設置采集數量,每次不要采集太多,一般web服務器運行時間為30秒,盡量不要超時!
zmh886 發表于 2019-5-27 21:46
我用的是直接弄個網頁自刷新執行采集,可以做到無人值守一直抓取。
代碼大概如下:設置的2分鐘采集間隔, ...
你這個還是要開個頁面一直開機抓取,應該做到服務器后臺計劃任務自動抓取,這樣就是真的無人值守。 貌似采集數量設置少一些可以采集,可以2000-4000-6000一個一個試試 還有人有解決的方法沒?都不行 后臺采集為啥不做成 php守護進程的方式。我看代碼里面有應該加入命令行啟動守護進程。前臺點擊后臺采集就把任務提交到隊列里面有隊列去執行 今天試了一下,中斷的幾率太高了,無法做到無人值守的抓取。還是應該使用隊列加守護的方式 本帖最后由 zmh886 于 2019-5-27 21:48 編輯
老碼農 發表于 2019-5-27 18:17
今天試了一下,中斷的幾率太高了,無法做到無人值守的抓取。還是應該使用隊列加守護的方式 ...
我用的是直接弄個網頁自刷新執行采集,可以做到無人值守一直抓取。
代碼大概如下:設置的2分鐘采集間隔,下面代碼設置的125秒刷新一次。
- <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
- <meta http-equiv="refresh" content="125">
- <div id='numDiv'>...</div>
- <script src="http://www.lz2.cc/caiji/index.php?s=/admin/Task/collect&id=3"></script>
- <script type="text/javascript">
- var num=125;
- var interval=setInterval(function(){
- if(num==0){
- clearInterval(interval);
- }
- numDiv.innerHTML=num--;
- numDiv.innerHTML=numDiv.innerHTML+"秒后刷新本頁面";
- },1000);
- </script>
- </body>
老碼農 發表于 2019-5-28 09:42
你這個還是要開個頁面一直開機抓取,應該做到服務器后臺計劃任務自動抓取,這樣就是真的無人值守。 ...
采用自動采集方式,然后把觸發采集地址添加到定時訪問url任務里面!就可以實現自動采集。就是停止運行也可以采集! 之前用tp5的queue做過隊列自動采集的。有卡死的情況不穩定。后來加了supervisor好多了。這塊藍天應該借鑒一下
老碼農 發表于 2019-5-28 09:42
你這個還是要開個頁面一直開機抓取,應該做到服務器后臺計劃任務自動抓取,這樣就是真的無人值守。 ...
今天發現我的方法還有個小問題,必須是先登錄管理員,才能使用這樣指定任務的方式采集。 相關知識點: 服務器 隊列 任務
- 1藍天采集器需要多表發布,ID關聯,能獲取上一個表的自增ID的功能
- 2狂雨小說CMS安裝搭建使用中常見問題匯總
- 3藍天采集器發布設置里綁定本地cms程序提示錯誤
- 4pbootcms類型站點怎么查看圖片、網頁元素的路徑和大小和顏色
- 5藍天采集器付費求購:需要圖片類素材采集
- 6藍天采集器請大佬幫忙看一下 要采集這個站的快訊要怎么設置
- 7163K網站系統同一服務器多個網站系統配置自動升級教程
- 8藍天采集器2.0版本不能自動采集的問題
- 9藍天采集器采集騰訊企鵝號自媒體內容教程(附采集規則)
- 10藍天采集器寫規則點測試就連接重置
- 11藍天采集器為什么我的采集間隔失效了
- 12藍天采集器如何卸載刪除操作教程
- 13163k地方門戶系統X10_V2(20190214)版本如何升級到最新的版本
- 14Typecho1.1輕博客在線安裝操作教程
- 15藍天采集器發布設置問題
- 16163K網站系統圖片系統+七牛云存儲配置教程
- 17藍天采集器您好,我的采集到這卡住了,好像是沒法寫數據庫一樣
- 18營銷門戶網站建設方案
- 19藍天采集器求教繁體和簡體,中文和英文的轉換問題
- 20影視聽書系統蘋果cmsv10安裝操作教程
-
藍天采集器三級網頁采集方式?
主頁 列表 內容 類似小說網站。。。 怎么設置呢 沒搞懂 只采集到列表頁所有的 是不是多級設置?先從默認頁面進去 然后通過多級設置,多級設置的最后一個開始采集內容??? 起始頁》主頁 多級網址規則》小說列表頁 內容網址規則》小說內容頁
-
藍天采集器采集的永遠是第一頁
http://不能發.com/v.php?next=watch&page={param:num,1081 2161 1 0}然后爬到的永遠是某一頁, http://不能發.com/v.php?next=wat···
-
163K網站系統公眾號模板消息配置教···
要使用微信模板消息需要先配置好網站后臺的公眾號參數配置教程公眾號模板消息配置教程1 登陸微信公眾平臺https://mp.weixin.qq.com/(用網站后臺配置好的公眾號賬號,必須是同一賬號)2 進入 功能 模板消息 模板庫(如沒有此···
-
藍天采集器請問 獲取內容頁中,內容以···
-
藍天采集器WordPress采集發布···
采集來的數據是html源碼直接就發布了,除非我吧這個源碼復制,粘貼到紅圈里的,文本,然后在點格式化,才會轉換過來正文! 試過不能在工具箱里去除HTML標簽。第一去除不掉,第二去除了就沒有格式了。 采集過來的數據html代碼是否已經是編碼···