分布式数据采集
分布式數據采集
一.數據采集與分布式數據采集
數據采集
介紹
數據采集,又稱數據獲取,是利用一種裝置,從系統外部采集數據并輸入到系統內部的一個接口。數據采集技術廣泛應用在各個領域。比如攝像頭,麥克風,都是數據采集工具。
被采集數據是已被轉換為電訊號的各種物理量,如溫度、水位、風速、壓力等,可以是模擬量,也可以是數字量。采集一般是采樣方式,即隔一定時間(稱采樣周期)對同一點數據重復采集。采集的數據大多是瞬時值,也可是某段時間內的一個特征值。準確的數據測量是數據采集的基礎。數據量測方法有接觸式和非接觸式,檢測元件多種多樣。不論哪種方法和元件,均以不影響被測對象狀態和測量環境為前提,以保證數據的正確性。數據采集含義很廣,包括對面狀連續物理量的采集。在計算機輔助制圖、測圖、設計中,對圖形或圖像數字化過程也可稱為數據采集,此時被采集的是幾何量(或包括物理量,如灰度)數據。
在互聯網行業快速發展的今天,數據采集已經被廣泛應用于互聯網及分布式領域,數據采集領域已經發生了重要的變化。首先,分布式控制應用場合中的智能數據采集系統在國內外已經取得了長足的發展。其次,總線兼容型數據采集插件的數量不斷增大,與個人計算機兼容的數據采集系統的數量也在增加。國內外各種數據采集機先后問世,將數據采集帶入了一個全新的時代。
方式
在聯邦數據采集的設計上主要有三種方式:
(1)集中式數據采集;
(2)分布式數據采集;
(3)分散集中式數據采集。
基本原理
假設有一個模擬信號,每隔時間t采樣一次,時間t為采樣周期,1/t成為你采樣頻率,每次獲得的信號值稱為采樣值。進行采樣的頻率過高或者過低都會使原始信號失真。為避免這兩種情況的出現,通常將過低頻率和過高頻率下采集的信號過濾掉。采樣頻率應當怎樣設置?也許可能會首先考慮用采集卡支持的最大頻率。但是,較長時間使用很高的采樣率可能會導致沒有足夠的內存或者硬盤存儲數據太慢。理論上設置采樣頻率為被采集信號最高頻率成分的2倍就夠了,實際上工程中選用5~10倍,有時為了較好地還原波形,甚至更高一些。
通常,信號采集后都要去做適當的信號處理,樣本數據要求提供5~10個周期,甚至更多的采集結果,且樣本總數最好是采集周期的整數倍,這樣獲得的信號更便于處理。
數據采集系統
任務
數據采集系統的任務,就是采集傳感器輸出的模擬信號并轉換成計算機能識別的數字信號,然后送入計算機,根據不同的需要由計算機進行相應的計算和處理,得出所需要的數據。與此同時,將計算機得到的數據進行顯示和打印,以便實現對某些物理量的監視,其中一部分數據還將被生產過程中的計算機控制系統用來控制某些物理量。
判別標準
數據采集系統性能的好壞,主要取決于它的精度和速度。在保證精度的條件下,應有盡可能高的采樣速度,以滿足實時采集,實時處理和實時控制對速度的要求。
基本功能
數據采集系統具有以下幾種基本功能:
(1)數據采集;
(2)模擬信號處理;
(3)數字信號處理;
(4)開關信號處理;
(5)二次數據計算;
(6)屏幕顯示;
(7)數據存儲;
(8)打印輸出;
(9)入機聯系。
分布式數據采集
分布式記錄方式可以在影響網絡帶寬最小的情況下采集到所需要的數據,其主要設計思路就是在成員與RTI之間加一層記錄接口,成員在向RTI發送數據時,首先經過記錄接口,由記錄接口將數據記錄之后,再轉發給RTI,這樣就不會有冗余的數據在網絡上傳輸(特別是大大減少了網絡上的網間數據),消除了系統瓶頸。而集中式數據采集方法雖然比較簡單,生成的記錄文件對數據分析和演練回放都很方便,但是它卻占用了網絡的帶寬資源。
優點
1.龐大數據量的采集
實現對數據來源多、數據采集量大、實時性高的采集需求,同時具有較高的可擴展性、提供定制服務的特點。
2.云采集
由大量的云服務器支撐,7*24小時不間斷運行,可實現定時采集,無需人員值守,靈活契合業務場景,幫你提升采集效率,保障數據時效性。
3.響應速度快:
分布式的大數據采集系統,具有數據分析、日志分析、商業智能分析、客戶營銷、大規模索引等業務,采集速度快,操作便捷。
4.支持自登錄采集
只需配置目標網站的賬號密碼,即可用該模塊采集到登錄后的數據。同時具備采集Cookie自定義功能,首次登錄以后,可以自動記住cookie,免去多次輸入密碼的繁瑣,支持更多網站的采集。
二.應用場景
分布式數據采集軟件較傳統的數據采集軟件而言,解決了互聯網大規模數據采集中數據量大不便于存儲分析,采集過程中協議不統一,系統擴展性能低,維護困難等等多難題問題。在目前的互聯網大平臺下,實現大規模、快速采集數據。
分布式數據采集,能夠對國內外的網站海量數據進行爬取,實時監控采集、多層級采集,自動數據解析
2 分布式數據采集系統在小范圍霧霾檢測中的應用
概述
背景
目前主流的PM值監測技術主要有三種方法: 稱重法、微量振蕩天平法和 β 射線法 。
經世界各國的權威檢測機構及第三方監測機構的測試, 這三種方法中,微量振蕩天平技術與標準重量法 數據的相關性最佳 當然,采用這些技術對相 關設備的要求也高,價格不菲。
目的
為了降低成本,普及PM2.5,讓公眾能隨時隨 地了解空氣質量研究了一款適用于小范圍 霧霾檢測的分布式數據采集系統。
監測技術是利 用紅外光散射法以及處理模塊來測定大氣顆粒物 濃度,測定速度較快,操作也簡單。
系統將移動互聯網GPRS、GPS定位、PM數據 采集等技術集成起來,用于城市PM大數據的實時采集。
增加城市中輕便型民用PM數據采集裝置的 安裝數量,提高PM數值的采集密度,將實時采集 到的數據通過移動互聯網上傳到服務器上。再通 過APP、WEB等技術手段分享出去,供人們出行 參考,或用于城市霧霾的實時精確監控。
系統框架
系統包括:數據采集平臺、數據監測處理平 臺和監測應用平臺3部分。
數據采集前端設備負責采集PM2.5和PM10的 濃度數據,然后通過GPRS網絡傳送數據到數據接 收服務器上進行數據初步處理,再經過數據立方 系統,進行存儲和計算,最后由WEB服務器進行 數據的最后處理和公布,用戶可通過手機APP軟 件或者電腦網頁隨時查詢指定地區PM數值
1.1數據采集部分
數據采集部分包括采集前端設備、通信設備 和電源。 前端設備采用先進的傳感器、低功耗單片機 技術與網絡通訊技術相結合,使用探頭來進行采 集相關的數據,通過光散射獲取顆粒濃度。通信 主要是通過GPRS進行數據的無線傳輸。每個前端 設備都有一個SIM卡進行通信,SIM卡使用GPRS 業務。供電是鋰電池和市電互補的供電方式
1.2數據監測處理平臺部分
數據監測處理平臺是介于采集平臺和應用平 臺之間的系統,從架構來看,包括實時數據存儲、 過期數據處理、數據分析等功能模塊。PM2.5數據 全部存儲在監測平臺的分布式文件系統中,部分 為方便查詢存儲于關系數據庫中。
1.3 監測應用平臺部分
監測應用平臺部分包括監控PM2.5實時數據、 數據查詢等功能模塊。如果監控范圍比較大,數 據量就會很大,就需要多臺服務器并行處理。
系統實現
2.1 PM數據采集終端硬件系統
由于硬件平臺需要同時連接 PM 傳感器和 GPRS 通 訊 模 塊 , 因 此 選 擇 STC15F2K08S2 -SOP28型單片機作為硬件平臺的處理器,該處理 器具有兩個串口可以同時連接兩個串口設備。供 電系統采用 5V/2A的電源適配器,為單片機主 板和PM傳感器供電。
2.2 傳感器數據采樣原理
系統對空氣中顆粒數據濃度的采集主要是通 過傳感器。該傳感器利用 PWM 脈沖寬度調制輸 出,計算與粒子計算器原理相同,檢測單位體積 上顆粒的個數。傳感器的原理結構。 (見圖4)
傳感器內置加熱器,能夠自動吸入空氣,發 射的光線遇到空氣中的顆粒會產生反射光,顆粒 大小不同光的強度不同,利用光和透鏡的原理, 傳感器可檢測到光的強度,然后輸出信號,將光 的強度信號轉換為兩個不同的脈寬調制信號 PWM,以區分不同灰塵顆粒物的濃度。
2.3 采樣數據的計算
當帶有灰塵的空氣穿過檢測通道時,粉塵對光反射,光反射強度與灰塵濃度成正比。傳感器 把光的強弱信號轉換成電的脈寬調制信號 (PWM),通過獲取低電平的占空比,獲取到相關 參數,得出顆粒物的等效粒徑及單位體積內不同 粒徑的顆粒物數量
數據統計分析
系統中,通過 PM2.5 監測平臺這個模塊對采 集到的數據進行實時入庫存儲,并能夠完成數據 的查詢分析。
采集到的數據,海量數據存儲在監 測平臺的分布式文件系統中,部分數據因為需要 存儲于關系數據庫中。
用戶通過電腦終端或手機 APP進行查詢時,監測平臺首先對前端設備采集 到的數據進行解析,得到需要查詢的信息后,把 需要的信息封裝成與數據庫端相合的協議,再調 用數據庫提供的接口對后臺數據庫進行查詢。
數 據庫端查詢完畢后將二進制形式的結果存放在指 定文件中。
接口服務器收到信號,讀取文件,并 將結果封裝成字符串發送到前臺界面顯示。
預期結果
系統PM數據采集終端安裝時,應合理選擇安 裝位置,應考慮人們群眾居住、活動或者交通干 道等區域。
設備安裝位置應該距離地面1~2m左 右,應保持設備周圍通風順暢,應保障設備有持 續穩定的市電供應。
服務器應持續高效穩定,具 有足夠多的硬盤空間 (每個終端一天約產生 60K 的數據量),并做定期數據清理。
一個城市安裝的 PM數據采集終端達到一定密度后,將會形成一個 全市的PM數據采集網,可以實時地向群眾提供在 線的空氣PM值的發布和出行建議服務。
該數據還可以供環保、交通等部門參考使用。
總結
- 上一篇: 电子地图设计
- 下一篇: 手动给无线网设置一个DNS服务器地址,手