数据采集简介
(淺淺介紹一下數(shù)據(jù)采集的基礎(chǔ)知識)(分享在東軟教育線上學習的學習心得。)如有錯誤,歡迎各位技術(shù)大佬指正。
????????大數(shù)據(jù)采集是指從傳感器和智能設(shè)備、企業(yè)在線系統(tǒng)、企業(yè)離線系統(tǒng)、社交網(wǎng)絡(luò)和互聯(lián)網(wǎng)平臺等等獲取數(shù)據(jù)的過程。這些數(shù)據(jù)包括RFID數(shù)據(jù)(RFID:無線射頻識別即射頻識別技術(shù)(Radio Frequency Identification,RFID),是自動識別技術(shù)的一種,通過無線射頻方式進行非接觸雙向數(shù)據(jù)通信,利用無線射頻方式對記錄媒體(電子標簽或射頻卡)進行讀寫,從而達到識別目標和數(shù)據(jù)交換的目的)、傳感器數(shù)據(jù)、用戶行為數(shù)據(jù)、社交網(wǎng)絡(luò)交互數(shù)據(jù)以及移動互聯(lián)網(wǎng)數(shù)據(jù)等等各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化的海量數(shù)據(jù)。
??????? 不但數(shù)據(jù)源的種類多,數(shù)據(jù)的類型繁雜,數(shù)據(jù)量大,并且產(chǎn)生的速度快,傳統(tǒng)的數(shù)據(jù)采集方法完全無法勝任。所以在這種情況下,大數(shù)據(jù)采集技術(shù)面臨許多技術(shù)挑戰(zhàn),一方面需要保證數(shù)據(jù)采集的可靠性和高效性,同時還要避免重復(fù)數(shù)據(jù)。
本次主要介紹:
1、大數(shù)據(jù)的來源
2、數(shù)據(jù)采集的概念
3、大數(shù)據(jù)采集目標
4、大數(shù)據(jù)采集方法和途徑
5、數(shù)據(jù)存儲方式
?????? 1、大數(shù)據(jù)采集
???????? 提到大數(shù)據(jù)采集首先要了解一下傳統(tǒng)的數(shù)據(jù)體系和大數(shù)據(jù)體系中的數(shù)據(jù)的類型有何區(qū)別。從數(shù)據(jù)源方面來看,傳統(tǒng)數(shù)據(jù)采集的數(shù)據(jù)比較單一,就是從傳統(tǒng)企業(yè)的客戶關(guān)系管理系統(tǒng)、企業(yè)資源計劃系統(tǒng)以及相關(guān)的業(yè)務(wù)系統(tǒng)當中獲取數(shù)據(jù)。而大數(shù)據(jù)采集系統(tǒng)需要從社交網(wǎng)絡(luò)、互聯(lián)網(wǎng)系統(tǒng)以及各種類型的機器設(shè)備上獲取數(shù)據(jù)。從數(shù)據(jù)量方面來看,互聯(lián)網(wǎng)系統(tǒng)和機器系統(tǒng)產(chǎn)生的數(shù)據(jù)量,要遠遠大于企業(yè)系統(tǒng)的數(shù)據(jù)量。從數(shù)據(jù)結(jié)構(gòu)方面來看,傳統(tǒng)數(shù)據(jù)采集的數(shù)據(jù)都是結(jié)構(gòu)化的數(shù)據(jù),而大數(shù)據(jù)采集系統(tǒng)需要采集大量的視頻、音頻、照片等等非結(jié)構(gòu)化數(shù)據(jù)。以及網(wǎng)頁、博客、日志等等半結(jié)構(gòu)化數(shù)據(jù)。從數(shù)據(jù)產(chǎn)生速度來看,傳統(tǒng)數(shù)據(jù)采集的數(shù)據(jù)幾乎都是由人類的操作實現(xiàn)的。遠遠慢于機器生成數(shù)據(jù)的效率,因此,傳統(tǒng)數(shù)據(jù)采集的方法和大數(shù)據(jù)采集的方法也有很多根本的區(qū)別。傳統(tǒng)數(shù)據(jù)體系中包括業(yè)務(wù)數(shù)據(jù)和行業(yè)數(shù)據(jù)。
????????在新的數(shù)據(jù)體系中,數(shù)據(jù)的來源主要分為一下五種。
????????大數(shù)據(jù)的來源主要有:業(yè)務(wù)數(shù)據(jù)(消費者數(shù)據(jù)、客戶關(guān)系數(shù)據(jù)、商戶數(shù)據(jù)、賬務(wù)數(shù)據(jù)等)、行業(yè)數(shù)據(jù)(流量數(shù)據(jù)、農(nóng)業(yè)大數(shù)據(jù)、天氣環(huán)境數(shù)據(jù)、醫(yī)療健康、科學研究數(shù)據(jù)等)、內(nèi)容數(shù)據(jù)(應(yīng)用日志、電子文檔、機器數(shù)據(jù)、多模態(tài)數(shù)據(jù)等)、線上行為數(shù)據(jù)(頁面數(shù)據(jù)、交互數(shù)據(jù)、表單數(shù)據(jù)、會話數(shù)據(jù)、反饋數(shù)據(jù)等)、線下行為數(shù)據(jù)(物體運動數(shù)據(jù)、用戶位置和軌跡數(shù)據(jù)、運動位置和軌跡數(shù)據(jù)等)
??????? 數(shù)據(jù)的來源按照不同的來源系統(tǒng)有以下幾種。
??????? 企業(yè)系統(tǒng)(ERP系統(tǒng)、商務(wù)銷售系統(tǒng)、計費賬務(wù)系統(tǒng)、財務(wù)系統(tǒng)等)、機器系統(tǒng)(智能儀表、工業(yè)設(shè)備傳感器、農(nóng)業(yè)設(shè)備、視頻監(jiān)控系統(tǒng)、科研探測設(shè)備等)、互聯(lián)網(wǎng)系統(tǒng)(電商系統(tǒng)、服務(wù)系統(tǒng)、政府監(jiān)管系統(tǒng)等)、社交系統(tǒng)(Wechat微信、QQ、微博、短視頻平臺、第三方應(yīng)用、朋友圈等)。
??????? 2、數(shù)據(jù)采集的概念
??????? 數(shù)據(jù)采集又稱喂數(shù)據(jù)獲取,它是利用一種裝置,從系統(tǒng)外部采集數(shù)據(jù),并輸入到系統(tǒng)內(nèi)部的一個接口。數(shù)據(jù)采集技術(shù)廣泛應(yīng)用在各個領(lǐng)域。例如攝像頭、麥克風等,都是數(shù)據(jù)采集工具。被采集數(shù)據(jù)是已被轉(zhuǎn)換為電信號的各種物理量。例如溫度、水位、風速、壓力等等。它可以是一個模擬量,也可以是一個數(shù)字量。一般是固定的采樣方式,間隔一定時間對同一點的數(shù)據(jù)重復(fù)的進行采集。采集的數(shù)據(jù)大多是瞬時的值,也可以是某段時間內(nèi)的一個特征的值。準確的數(shù)據(jù)測量是數(shù)據(jù)采集的基礎(chǔ)數(shù)據(jù)采集的含義很廣,包括對連續(xù)物理量的采集,在計算機輔助制圖? 測圖? 設(shè)計中,對圖形、圖像數(shù)字化過程也可以稱為數(shù)據(jù)采集。此時被采集的就是幾何數(shù)據(jù)了。
??????? 在互聯(lián)網(wǎng)行業(yè)飛快發(fā)展的今天,數(shù)據(jù)采集已經(jīng)被廣泛地應(yīng)用于互聯(lián)網(wǎng)以及分布式領(lǐng)域,數(shù)據(jù)采集的領(lǐng)域已經(jīng)發(fā)生了重要的變化。首先,分布式控制應(yīng)用場合中的智能數(shù)據(jù)采集系統(tǒng)已經(jīng)在國外得到了長足的發(fā)展。其次,總線兼容型數(shù)據(jù)采集插件的不斷增多與個人計算機兼容的數(shù)據(jù)采集系統(tǒng)也在增加。國內(nèi)外各種數(shù)據(jù)采集機先后問世,將數(shù)據(jù)采集帶入了一個全新的時代。
??????? 數(shù)據(jù)采集的三大要點:1、全面性·數(shù)據(jù)量足夠具有分析價值、數(shù)據(jù)面足夠支撐分析需求。2、多維性·數(shù)據(jù)更重要的是能滿足分析需求。靈活、快速自定義數(shù)據(jù)的多種屬性和不同類型,從而滿足不同的分析目標。3、高效性·高效性包含技術(shù)執(zhí)行的高效性、團隊內(nèi)部成員協(xié)同的高效性以及數(shù)據(jù)分析需求和目標實現(xiàn)的高效性。
??????? 3、大數(shù)據(jù)采集目標
??????? 數(shù)據(jù)采集的宏觀目標:完成企業(yè)所需各類數(shù)據(jù)源的采集,并建立各種接口,將數(shù)據(jù)引入企業(yè)大數(shù)據(jù)平臺。從業(yè)務(wù)系統(tǒng)采集的數(shù)據(jù),主要是滿足業(yè)務(wù)抽象出來的數(shù)據(jù)需求。典型的例子是電商推廣、線上廣告、APP注冊等生意。不管是各家電商網(wǎng)站的輔助營銷工具還是各大媒體平臺也不管具體的付費方式是哪種,最終都要提供較為通用的瀏覽量、獨立訪客數(shù)、轉(zhuǎn)化率、點擊率等等各類型的數(shù)據(jù)。給營銷人員、銷售人員、甲方去適用,參考和分析。另一方面為了提出產(chǎn)品改進方向的假設(shè),滿足假設(shè)檢驗的數(shù)據(jù)需求,比如什么形狀的分享按鈕更有利于用戶分享。某個tab頁是否存在的意義。為了驗證假設(shè)的需求,就會在數(shù)據(jù)采集過程當中體現(xiàn),在常用的APP中我們仔細觀察不難刊出很多的測試案例。數(shù)據(jù)采集貫穿在企業(yè)大數(shù)據(jù)平臺建設(shè)整個過程中,不同階段根據(jù)需求,考慮各種因素,制定階段數(shù)據(jù)采集目標。比如采集的技術(shù),是否能夠滿足實時的要求,能否滿足其他的要求等等。同時要考慮采集的數(shù)據(jù)范圍,需要多久的歷史數(shù)據(jù),需要哪些表那些字段等等。要考慮數(shù)據(jù)質(zhì)量,某些來源的數(shù)據(jù)如果存在數(shù)據(jù)缺失、重復(fù)數(shù)據(jù)、異常數(shù)據(jù)等等情況,要如何地進行采集和處理。考慮到采集成本,不同的采集方法會有成本的差異,要綜合測算投入的產(chǎn)出比,選擇對應(yīng)的技術(shù)方案。
??????? 4、大數(shù)據(jù)采集方法和途徑
????????大數(shù)據(jù)的采集是指利用多個數(shù)據(jù)庫或者存儲系統(tǒng),來接收客戶端的數(shù)據(jù)。例如,電商會使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle來存儲每一筆事務(wù)的數(shù)據(jù)。在大數(shù)據(jù)時代,Redis、MongoDB和HBase等等NoSQL數(shù)據(jù)庫也常常用于數(shù)據(jù)的采集。數(shù)據(jù)采集過程的主要特點和挑戰(zhàn)是并發(fā)程度高。因為同時可能會有,成千上萬的用戶來進行訪問和操作。例如,火車票的銷售網(wǎng)絡(luò)和淘寶的并發(fā)量。在峰值可能達到上百萬。所以在采集端需要部署,大量的數(shù)據(jù)庫才能夠?qū)λM行支撐。在這些數(shù)據(jù)庫之間進行負載均衡和分片是需要深入思考和設(shè)計的。根據(jù)數(shù)據(jù)源的不同,大數(shù)據(jù)采集方法也不同。但是為了能夠滿足大數(shù)據(jù)采集的需要,大數(shù)據(jù)采集時都使用了大數(shù)據(jù)的處理模式,即使用了MapReduce分布式并行處理模式?;蚴腔趦?nèi)存的流式處理模式。針對于四種不同的數(shù)據(jù)源大數(shù)據(jù)的采集方法有以下幾類。
大數(shù)據(jù)采集的方法:(1)數(shù)據(jù)庫采集:關(guān)系型數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫
???????????????????????????????? (2)系統(tǒng)日志采集:離線大數(shù)據(jù)分析系統(tǒng)、在線大數(shù)據(jù)分析系統(tǒng)。滿足高可用性、高可靠性、高可拓展性。? 系統(tǒng)日志采集工具均使用分布式架構(gòu),能夠滿足每秒數(shù)百MB的日志數(shù)據(jù)采集和傳輸需求。
????????????????????????????????? (3)網(wǎng)絡(luò)數(shù)據(jù)采集:通過網(wǎng)絡(luò)爬蟲或者網(wǎng)站公開API等方式從網(wǎng)站上獲取數(shù)據(jù)信息的過程。將非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁中提取出來。
????????????????????????????????? (4)感知設(shè)備數(shù)據(jù)采集:通過傳感器、攝像頭和其他智能終端自動采集信號、圖片或錄像來獲取數(shù)據(jù)。對結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的海量數(shù)據(jù)的智能化識別、定位、跟蹤、接入、傳輸、信號轉(zhuǎn)換、監(jiān)控、初步處理和管理。
??????? 5、數(shù)據(jù)存儲方式
??????? 結(jié)構(gòu)化數(shù)據(jù):來自業(yè)務(wù)系統(tǒng)關(guān)系數(shù)據(jù)庫、大數(shù)據(jù)平臺Hive、MaxCompute、統(tǒng)一倉庫建模,劃分層次、主題。
??????? 半結(jié)構(gòu)化數(shù)據(jù):來自日志,網(wǎng)絡(luò)、大數(shù)據(jù)平臺Hive,MaxCompute,NoSQL數(shù)據(jù)庫、解析抽取出結(jié)構(gòu)化信息,進入數(shù)據(jù)倉庫。
??????? 非結(jié)構(gòu)化數(shù)據(jù):來自網(wǎng)絡(luò)、檢測設(shè)備。分布式文件系統(tǒng)HDFS,OSS,MongoDB等。識別抽取出結(jié)構(gòu)化信息,進入數(shù)據(jù)倉庫。
總結(jié)
 
                            
                        - 上一篇: c++ 多个线程操作socket要同步吗
- 下一篇: Tabs
