藍天采集器使用中發現幾個問題

2019-01-15 175 19 編輯:sixkkk 來源:藍天采集社區

在使用了這個采集器后發現這個軟件功能異常強大。列表頁和采集頁的切換以及全面的內容匹配規則能保證采集到想要的數據。不過在使用過程中我發現了下面幾個問題,也有可能是跟我對這個軟件還不熟悉,操作不熟練導致的,如果這樣的話,麻煩指正。謝謝!
1、采集成功過的內容頁面再重新采集的話就不能再采集了,必須要在數據庫中清空采集過的內容網址或者在操作界面中清空采集數據才能再次采集。如果對于采集對象是靜態網頁的話倒無所謂,但是對于動態網頁來說的話,顯然是很不合理的操作了。

2、基于問題1的考慮,可能是只考慮到支持靜態網頁的采集,所以一天內采集的所有的結果都導入到一個文件中,但是對于動態網頁的采集來說,比如我,更希望是每次采集都把數據保存在單獨的文件中。目前輸出文件的名字是以操作日期命名的,如果能在操作日期的基礎上加上操作的時間,比如“時-分”,就能很好的解決這個問題了??上壳斑@個保存文件的接口我還未找到,不能修改驗證,如果有人懂的話,麻煩告知,謝謝!

3、還有一個小小的問題,就是采集到的Json數據中存在中文的Unicode代碼,無法轉換,目前本人對這個軟件代碼還不是很熟悉,有知情者能否告知相應的接口,我這邊修改下看看。謝謝!



更新:目前已經搞定問題2、3。分享下方法:


修改文件:RfileEvent.class.php
文件名的修改接口:
$filename=date('Y-m-d',NOW_TIME)

將Unicode轉成中文的方法:
foreach ($collFields as $k=>$v)
{
$key=preg_replace_callback('/\\u([0-9a-f]{4})/i',create_function('$matches','return mb_convert_encoding(pack("H*", $matches[1]), "UTF-8", "UCS-2BE");'),$v);
$phpExcel->getActiveSheet()->setCellValue(chr(65+$k).$curRow,$this->get_field_val($key));
} 好的,感謝分享,會改善

相關知識點: 的話 這個軟件 目前
本站文章均為蜀戎網絡摘自權威資料,書籍,或網絡原創文章,如有版權糾紛或者違規問題,請即刻聯系我們刪除,未經允許禁止復制轉載!感謝...
更多人喜歡

在線
客服

在線客服服務時間:9:00-21:00

客服
熱線

13227777380
7*24小時客服服務熱線

客服
微信

掃一掃微信咨詢
頂部
最近2019年免费中文字幕电影,最近更新2018中文国语字幕,最近中文字幕2018高清一页,一二三四免费观看视频中文版在线宜宾蜀戎网络公司