大数据采集技术概述
大數據采集是指從傳感器和智能設備、企業在線系統、企業離線系統、社交網絡和互聯網平臺等獲取數據的過程。
數據包括 RFID 數據、傳感器數據、用戶行為數據、社交網絡交互數據及移動互聯網數據等各種類型的結構化、半結構化及非結構化的海量數據。
不但數據源的種類多,數據的類型繁雜,數據量大,并且產生的速度快,傳統的數據采集方法完全無法勝任。
所以,大數據采集技術面臨著許多技術挑戰,一方面需要保證數據采集的可靠性和高效性,同時還要避免重復數據。
大數據分類
傳統的數據采集來源單一,且存儲、管理和分析數據量也相對較小,大多采用關系型數據庫和并行數據倉庫即可處理。
在依靠并行計算提升數據處理速度方面,傳統的并行數據庫技術追求的是高度一致性和容錯性,從而難以保證其可用性和擴展性。
在大數據體系中,傳統數據分為業務數據和行業數據,傳統數據體系中沒有考慮過的新數據源包括內容數據、線上行為數據和線下行為數據 3 大類。
在傳統數據體系和新數據體系中,數據共分為以下 5 種。
大數據的主要來源如下。
在大數據體系中,數據源與數據類型的關系如圖 1 所示。大數據系統從傳統企業系統中獲取相關的業務數據。
圖 1? 數據源與數據類型的關系
機器系統產生的數據分為兩大類:
- 通過智能儀表和傳感器獲取行業數據,例如,公路卡口設備獲取車流量數據,智能電表獲取用電量等。
- 通過各類監控設備獲取人、動物和物體的位置和軌跡信息。
互聯網系統會產生相關的業務數據和線上行為數據,例如,用戶的反饋和評價信息,用戶購買的產品和品牌信息等。
社交系統會產生大量的內容數據,如博客與照片等,以及線上行為數據。所以,大數據采集與傳統數據采集有很大的區別。
從數據源方面來看,傳統數據采集的數據源單一,就是從傳統企業的客戶關系管理系統、企業資源計劃系統及相關業務系統中獲取數據,而大數據采集系統還需要從社交系統、互聯網系統及各種類型的機器設備上獲取數據。
從數據量方面來看,互聯網系統和機器系統產生的數據量要遠遠大于企業系統的數據量。
從數據結構方面來看,傳統數據采集的數據都是結構化的數據,而大數據采集系統需要采集大量的視頻、音頻、照片等非結構化數據,以及網頁、博客、日志等半結構化數據。
從數據產生速度來看,傳統數據采集的數據幾乎都是由人操作生成的,如果你對大數據開發感興趣,想系統學習大數據的話,可以加入大數據技術學習交流扣群:458數字345數字782獲取學習資源,遠遠慢于機器生成數據的效率。因此,傳統數據采集的方法和大數據釆集的方法也有根本區別。
大數據采集方法分類
大數據的采集是指利用多個數據庫或存儲系統來接收發自客戶端(Web、App 或者傳感器形式等)的數據。例如,電商會使用傳統的關系型數據庫?MySQL?和 Oracle 等來存儲每一筆事務數據,在大數據時代,Redis、MongoDB?和?HBase?等?NoSQL?數據庫也常用于數據的采集。
大數據的采集過程的主要特點和挑戰是并發數高,因為同時可能會有成千上萬的用戶在進行訪問和操作,例如,火車票售票網站和淘寶的并發訪問量在峰值時可達到上百萬,所以在采集端需要部署大量數據庫才能對其支撐,并且,在這些數據庫之間進行負載均衡和分片是需要深入的思考和設計的。
根據數據源的不同,大數據采集方法也不相同。但是為了能夠滿足大數據采集的需要,大數據采集時都使用了大數據的處理模式,即 MapReduce 分布式并行處理模式或基于內存的流式處理模式。
針對 4 種不同的數據源,大數據采集方法有以下幾大類。
1. 數據庫采集
傳統企業會使用傳統的關系型數據庫 MySQL 和 Oracle 等來存儲數據。
隨著大數據時代的到來,Redis、MongoDB 和 HBase 等 NoSQL 數據庫也常用于數據的采集。企業通過在采集端部署大量數據庫,并在這些數據庫之間進行負載均衡和分片,來完成大數據采集工作。
2. 系統日志采集
系統日志采集主要是收集公司業務平臺日常產生的大量日志數據,供離線和在線的大數據分析系統使用。
高可用性、高可靠性、可擴展性是日志收集系統所具有的基本特征。系統日志采集工具均采用分布式架構,能夠滿足每秒數百 MB 的日志數據采集和傳輸需求。
?
3. 網絡數據采集
網絡數據采集是指通過網絡爬蟲或網站公開 API 等方式從網站上獲取數據信息的過程。
網絡爬蟲會從一個或若干初始網頁的 URL 開始,獲得各個網頁上的內容,并且在抓取網頁的過程中,不斷從當前頁面上抽取新的 URL 放入隊列,直到滿足設置的停止條件為止。
這樣可將非結構化數據、半結構化數據從網頁中提取出來,存儲在本地的存儲系統中。
4. 感知設備數據采集
感知設備數據采集是指通過傳感器、攝像頭和其他智能終端自動采集信號、圖片或錄像來獲取數據。
大數據智能感知系統需要實現對結構化、半結構化、非結構化的海量數據的智能化識別、定位、跟蹤、接入、傳輸、信號轉換、監控、初步處理和管理等。其關鍵技術包括針對大數據源的智能識別、感知、適配、傳輸、接入等。
總結
- 上一篇: 【转】2007高校BBS上20个睿智的冷
- 下一篇: matlab中获取view,ios 怎么