大数据大数据
對于“大數據”(Big data)研究機構Gartner給出了這樣的定義。“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產。
麥肯錫全球研究所給出的定義是:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征。 [3]?
大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業化處理。換而言之,如果把大數據比作一種產業,那么這種產業實現盈利的關鍵,在于提高對數據的“加工能力”,通過“加工”實現數據的“增值”。 [4]?
從技術上看,大數據與云計算的關系就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單臺的計算機進行處理,必須采用分布式架構。它的特色在于對海量數據進行分布式數據挖掘。但它必須依托云計算的分布式處理、分布式數據庫和云存儲、虛擬化技術。 [1]?
隨著云時代的來臨,大數據(Big data)也吸引了越來越多的關注。分析師團隊認為,大數據(Big data)通常用來形容一個公司創造的大量非結構化數據和半結構化數據,這些數據在下載到關系型數據庫用于分析時會花費過多時間和金錢。大數據分析常和云計算聯系到一起,因為實時的大型數據集分析需要像MapReduce一樣的框架來向數十、數百或甚至數千的電腦分配工作。
大數據需要特殊的技術,以有效地處理大量的容忍經過時間內的數據。適用于大數據的技術,包括大規模并行處理(MPP)數據庫、數據挖掘、分布式文件系統、分布式數據庫、云計算平臺、互聯網和可擴展的存儲系統。
最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
它們按照進率1024(2的十次方)來計算:
1 Byte =8 bit
1 KB = 1,024 Bytes = 8192 bit
1 MB = 1,024 KB = 1,048,576 Bytes
1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576 MB
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB
1 YB = 1,024 ZB = 1,048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB
特征
編輯 播報
容量(Volume):數據的大小決定所考慮的數據的價值和潛在的信息; [5]?
種類(Variety):數據類型的多樣性; [5]?
速度(Velocity):指獲得數據的速度; [5]?
可變性(Variability):妨礙了處理和有效地管理數據的過程。 [5]?
真實性(Veracity):數據的質量。 [5]?
復雜性(Complexity):數據量巨大,來源多渠道。 [5]?
價值(value):合理運用大數據,以低成本創造高價值。
結構
編輯 播報
正在上傳…重新上傳取消
大數據包括結構化、半結構化和非結構化數據,非結構化數據越來越成為數據的主要部分。據IDC的調查報告顯示:企業中80%的數據都是非結構化數據,這些數據每年都按指數增長60%。 [6]? 大數據就是互聯網發展到現今階段的一種表象或特征而已,沒有必要神話它或對它保持敬畏之心,在以云計算為代表的技術創新大幕的襯托下,這些原本看起來很難收集和使用的數據開始容易被利用起來了,通過各行各業的不斷創新,大數據會逐步為人類創造更多的價值。 [7]?
其次,想要系統的認知大數據,必須要全面而細致的分解它,著手從三個層面來展開:
第一層面是理論,理論是認知的必經途徑,也是被廣泛認同和傳播的基線。在這里從大數據的特征定義理解行業對大數據的整體描繪和定性;從對大數據價值的探討來深入解析大數據的珍貴所在;洞悉大數據的發展趨勢;從大數據隱私這個特別而重要的視角審視人和數據之間的長久博弈。
第二層面是技術,技術是大數據價值體現的手段和前進的基石。在這里分別從云計算、分布式處理技術、存儲技術和感知技術的發展來說明大數據從采集、處理、存儲到形成結果的整個過程。
第三層面是實踐,實踐是大數據的最終價值體現。在這里分別從互聯網的大數據,政府的大數據,企業的大數據和個人的大數據四個方面來描繪大數據已經展現的美好景象及即將實現的藍圖。 [7]?
應用
編輯 播報
洛杉磯警察局和加利福尼亞大學合作利用大數據預測犯罪的發生。
Google流感趨勢(Google Flu Trends)利用搜索關鍵詞預測禽流感的散布。
統計學家內特·西爾弗(Nate Silver)利用大數據預測2012美國選舉結果。
麻省理工學院利用手機定位數據和交通數據建立城市規劃。
梅西百貨的實時定價機制。根據需求和庫存的情況,該公司基于SAS的系統對多達7300萬種貨品進行實時調價。 [8]?
醫療行業早就遇到了海量數據和非結構化數據的挑戰,而近年來很多國家都在積極推進醫療信息化發展,這使得很多醫療機構有資金來做大數據分析。 [9]?
意義
編輯 播報
現在的社會是一個高速發展的社會,科技發達,信息流通,人們之間的交流越來越密切,生活也越來越方便,大數據就是這個高科技時代的產物。 [10]? 阿里巴巴創辦人馬云來臺演講中就提到,未來的時代將不是IT時代,而是DT的時代,DT就是Data Technology數據科技,顯示大數據對于阿里巴巴集團來說舉足輕重。 [11]?
有人把數據比喻為蘊藏能量的煤礦。煤炭按照性質有焦煤、無煙煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似,大數據并不在“大”,而在于“有用”。價值含量、挖掘成本比數量更為重要。對于很多行業而言,如何利用這些大規模數據是贏得競爭的關鍵。 [12]?
大數據的價值體現在以下幾個方面:
(1)對大量消費者提供產品或服務的企業可以利用大數據進行精準營銷;
(2)做小而美模式的中小微企業可以利用大數據做服務轉型;
(3)面臨互聯網壓力之下必須轉型的傳統企業需要與時俱進充分利用大數據的價值。
不過,“大數據”在經濟發展中的巨大意義并不代表其能取代一切對于社會問題的理性思考,科學發展的邏輯不能被湮沒在海量數據中。著名經濟學家路德維希·馮·米塞斯曾提醒過:“就今日言,有很多人忙碌于資料之無益累積,以致對問題之說明與解決,喪失了其對特殊的經濟意義的了解。”這確實是需要警惕的。
在這個快速發展的智能硬件時代,困擾應用開發者的一個重要問題就是如何在功率、覆蓋范圍、傳輸速率和成本之間找到那個微妙的平衡點。企業組織利用相關數據和分析可以幫助它們降低成本、提高效率、開發新產品、做出更明智的業務決策等等。例如,通過結合大數據和高性能的分析,下面這些對企業有益的情況都可能會發生:
(1)及時解析故障、問題和缺陷的根源,每年可能為企業節省數十億美元。
(2)為成千上萬的快遞車輛規劃實時交通路線,躲避擁堵。
(3)分析所有SKU,以利潤最大化為目標來定價和清理庫存。
(4)根據客戶的購買習慣,為其推送他可能感興趣的優惠信息。
(5)從大量客戶中快速識別出金牌客戶。
(6)使用點擊流分析和數據挖掘來規避欺詐行為。 [13]?
總結
 
                            
                        - 上一篇: ie8升级到ie11
- 下一篇: docker选择安装位置_自定义WSL的
