《大数据导论》一第1章 理解大数据
第1章
理解大數(shù)據(jù)
大數(shù)據(jù)是一門專注于對(duì)大量的、頻繁產(chǎn)生于不同信息源的數(shù)據(jù)進(jìn)行存儲(chǔ)、處理和分析的學(xué)科。當(dāng)傳統(tǒng)的數(shù)據(jù)分析、處理和存儲(chǔ)技術(shù)手段無(wú)法滿足當(dāng)前需求的時(shí)候,大數(shù)據(jù)的實(shí)踐解決方案就顯得尤為重要。具體地說(shuō),大數(shù)據(jù)能滿足許多不同的需求,例如,將多個(gè)沒有聯(lián)系的數(shù)據(jù)集結(jié)合在一起,或是處理大量非結(jié)構(gòu)化的數(shù)據(jù),抑或是從時(shí)間敏感的行為中獲取隱藏的信息等。
雖然大數(shù)據(jù)看起來(lái)像是一門新興的學(xué)科,卻已有多年的發(fā)展歷史。對(duì)大型數(shù)據(jù)集的管理與分析是一個(gè)存在已久的問題—從利用勞動(dòng)密集方法進(jìn)行早期人口普查的工作,到計(jì)算保險(xiǎn)收費(fèi)背后的精算學(xué)科,都涉及這個(gè)方面的問題,大數(shù)據(jù)就由此發(fā)展起來(lái)。
作為對(duì)傳統(tǒng)的基于統(tǒng)計(jì)學(xué)分析方法的優(yōu)化,大數(shù)據(jù)加入了更加新的技術(shù),利用計(jì)算資源和方法的優(yōu)勢(shì)來(lái)執(zhí)行分析算法。在當(dāng)今數(shù)據(jù)集持續(xù)地?cái)U(kuò)大化、擴(kuò)寬化、復(fù)雜化和數(shù)據(jù)流化的背景之下,這種優(yōu)化十分重要。自《圣經(jīng)》時(shí)代以來(lái),統(tǒng)計(jì)學(xué)方法一直在告訴我們通過抽樣調(diào)查的手段能夠粗略地測(cè)量人口。但計(jì)算機(jī)科學(xué)目前的發(fā)展使我們完全有能力處理那樣龐大的數(shù)據(jù)集,因此抽樣調(diào)查的手法正在逐漸“失寵”。
對(duì)于大數(shù)據(jù)的數(shù)據(jù)集的分析是一項(xiàng)綜合數(shù)學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)等多項(xiàng)專業(yè)學(xué)科的跨學(xué)科工作。這種多學(xué)科、多觀點(diǎn)的混合,常常會(huì)使人對(duì)大數(shù)據(jù)及大數(shù)據(jù)分析這門學(xué)科所涵蓋的內(nèi)容產(chǎn)生疑問,每個(gè)人都會(huì)有不同的見解。大數(shù)據(jù)問題所涵蓋的內(nèi)容范圍也會(huì)隨著軟硬件技術(shù)的更新而變化。這是因?yàn)槲覀冊(cè)诙x大數(shù)據(jù)的時(shí)候考慮了數(shù)據(jù)特征對(duì)于數(shù)據(jù)解決方案本身的影響。比如30年前,1GB的數(shù)據(jù)就稱得上是大數(shù)據(jù),而且我們還會(huì)為這份數(shù)據(jù)專門申請(qǐng)計(jì)算資源,而如今,1GB的數(shù)據(jù)十分常見,面向消費(fèi)者的設(shè)備就能對(duì)其進(jìn)行快速的存儲(chǔ)、轉(zhuǎn)移、復(fù)制或者其他處理。
大數(shù)據(jù)時(shí)代下的企業(yè)數(shù)據(jù),常常通過各種應(yīng)用、傳感器以及外部資源聚集到企業(yè)的數(shù)據(jù)集中。這些數(shù)據(jù)經(jīng)過大數(shù)據(jù)解決方案的處理后,能夠直接應(yīng)用于企業(yè),或者添加到數(shù)據(jù)倉(cāng)庫(kù)中豐富現(xiàn)有的數(shù)據(jù)。這種大數(shù)據(jù)解決方案處理的結(jié)果,將會(huì)給我們帶來(lái)許多深層知識(shí)和益處,例如:
運(yùn)營(yíng)優(yōu)化
可實(shí)踐的知識(shí)
新市場(chǎng)的發(fā)現(xiàn)
精確的預(yù)測(cè)
故障和欺詐的檢測(cè)
詳細(xì)的信息記錄
優(yōu)化的決策
科學(xué)的新發(fā)現(xiàn)
顯然,大數(shù)據(jù)的應(yīng)用面和潛在優(yōu)勢(shì)十分廣闊。然而,在何時(shí)選用大數(shù)據(jù)分析手段的問題上,還有大量的問題需要考慮。當(dāng)然,我們需要去理解這些存在的問題,并與大數(shù)據(jù)的優(yōu)勢(shì)進(jìn)行權(quán)衡,最終才能做出一個(gè)合理的決策并提出合適的解決方案。這些內(nèi)容我們將在第二部分單獨(dú)討論。
1.1 概念與術(shù)語(yǔ)
作為開端,我們首先要定義幾個(gè)基本概念和術(shù)語(yǔ),以便大家理解。
1.1.1 數(shù)據(jù)集
我們把一組或者一個(gè)集合的相關(guān)聯(lián)的數(shù)據(jù)稱作數(shù)據(jù)集。數(shù)據(jù)集中的每一個(gè)成員數(shù)據(jù),都應(yīng)與數(shù)據(jù)集中的其他成員擁有相同的特征或者屬性。以下是一些數(shù)據(jù)集的例子:
存儲(chǔ)在一個(gè)文本文件中的推文(tweet)
一個(gè)文件夾中的圖像文件
存儲(chǔ)在一個(gè)CSV格式文件中的從數(shù)據(jù)庫(kù)中提取出來(lái)的行數(shù)據(jù)
存儲(chǔ)在一個(gè)XML文件中的歷史氣象觀測(cè)數(shù)據(jù)
圖1.1中顯示了三種不同數(shù)據(jù)格式的數(shù)據(jù)集。
1.1.2 數(shù)據(jù)分析
數(shù)據(jù)分析是一個(gè)通過處理數(shù)據(jù),從數(shù)據(jù)中發(fā)現(xiàn)一些深層知識(shí)、模式、關(guān)系或是趨勢(shì)的過程。數(shù)據(jù)分析的總體目標(biāo)是做出更好的決策。舉個(gè)簡(jiǎn)單的例子,通過分析冰淇淋的銷售額數(shù)據(jù),發(fā)現(xiàn)一天中冰淇淋甜筒的銷量與當(dāng)天氣溫的關(guān)系。這個(gè)分析結(jié)果可以幫助商店根據(jù)天氣預(yù)報(bào)來(lái)決定每天應(yīng)該訂購(gòu)多少冰淇淋。通過數(shù)據(jù)分析,我們可以對(duì)分析過的數(shù)據(jù)建立起關(guān)系與模式。圖1.2顯示了代表數(shù)據(jù)分析的符號(hào)。
1.1.3 數(shù)據(jù)分析學(xué)
數(shù)據(jù)分析學(xué)是一個(gè)包含數(shù)據(jù)分析,且比數(shù)據(jù)分析更為寬泛的概念。數(shù)據(jù)分析學(xué)這門學(xué)科涵蓋了對(duì)整個(gè)數(shù)據(jù)生命周期的管理,而數(shù)據(jù)生命周期包含了數(shù)據(jù)收集、數(shù)據(jù)清理、數(shù)據(jù)組織、數(shù)據(jù)分析、數(shù)據(jù)存儲(chǔ)以及數(shù)據(jù)管理等過程。此外,數(shù)據(jù)分析學(xué)還涵蓋了分析方法、科學(xué)技術(shù)、自動(dòng)化分析工具等。在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)分析學(xué)發(fā)展了數(shù)據(jù)分析在高度可擴(kuò)展的、大量分布式技術(shù)和框架中的應(yīng)用,使之有能力處理大量的來(lái)自不同信息源的數(shù)據(jù)。圖1.3顯示了代表數(shù)據(jù)分析學(xué)的符號(hào)。
大數(shù)據(jù)分析(學(xué))的生命周期通常會(huì)對(duì)大量非結(jié)構(gòu)化且未經(jīng)處理過的數(shù)據(jù)進(jìn)行識(shí)別、獲取、準(zhǔn)備和分析等操作,從這些數(shù)據(jù)中提取出能夠作為模式識(shí)別的輸入,或者加入現(xiàn)有的企業(yè)數(shù)據(jù)庫(kù)的有效信息。
不同的行業(yè)會(huì)以不同的方式使用大數(shù)據(jù)分析工具和技術(shù)。以下述三者為例:
在商業(yè)組織中,利用大數(shù)據(jù)的分析結(jié)果能降低運(yùn)營(yíng)開銷,還有助于優(yōu)化決策。
在科研領(lǐng)域,大數(shù)據(jù)分析能夠確認(rèn)一個(gè)現(xiàn)象的起因,并且能基于此提出更為精確的預(yù)測(cè)。
在服務(wù)業(yè)領(lǐng)域,比如公眾行業(yè),大數(shù)據(jù)分析有助于人們以更低的開銷提供更好的服務(wù)。
大數(shù)據(jù)分析使得決策有了科學(xué)基礎(chǔ),現(xiàn)在做決策可以基于實(shí)際的數(shù)據(jù)而不僅僅依賴于過去的經(jīng)驗(yàn)或者直覺。根據(jù)分析結(jié)果的不同,我們大致可以將分析歸為以下4類:
描述性分析
診斷性分析
預(yù)測(cè)性分析
規(guī)范性分析
不同的分析類型將需要不同的技術(shù)和分析算法。這意味著在傳遞多種類型的分析結(jié)果的時(shí)候,可能會(huì)有大量不同的數(shù)據(jù)、存儲(chǔ)、處理要求。如圖1.4所示,生成高質(zhì)量的分析結(jié)果將加大分析環(huán)境的復(fù)雜性和開銷。
1.描述性分析
描述性分析往往是對(duì)已經(jīng)發(fā)生的事件進(jìn)行問答和總結(jié)。這種形式的分析需要將數(shù)據(jù)置于生成信息的上下文中考慮。
相關(guān)問題可能包括:
過去12個(gè)月的銷售量如何?
根據(jù)事件嚴(yán)重程度和地理位置分類,收到的求助電話的數(shù)量如何?
每一位銷售經(jīng)理的月銷售額是多少?
據(jù)估計(jì),生成的分析結(jié)果80%都是自然可描述的。描述性分析提供了較低的價(jià)值,但也只需要相對(duì)基礎(chǔ)的訓(xùn)練集。
如圖1.5所示,進(jìn)行描述性分析常常借助即席報(bào)表和儀表板(dashboard)。報(bào)表常常是靜態(tài)的,并且是以數(shù)據(jù)表格或圖表形式呈現(xiàn)的歷史數(shù)據(jù)。查詢處理往往基于企業(yè)內(nèi)部存儲(chǔ)的可操作數(shù)據(jù),例如客戶關(guān)系管理系統(tǒng)(CRM)或者企業(yè)資源規(guī)劃系統(tǒng)(ERP)。
2.診斷性分析
診斷性分析旨在尋求一個(gè)已經(jīng)發(fā)生的事件的發(fā)生原因。這類分析的目標(biāo)是通過獲取一些與事件相關(guān)的信息來(lái)回答有關(guān)的問題,最后得出事件發(fā)生的原因。
相關(guān)的問題可能包括:
為什么Q2商品比Q1賣得多?
為什么來(lái)自東部地區(qū)的求助電話比來(lái)自西部地區(qū)的要多?
為什么最近三個(gè)月內(nèi)病人再入院的比率有所提升?
診斷性分析比描述性分析提供了更加有價(jià)值的信息,但同時(shí)也要求更加高級(jí)的訓(xùn)練集。如圖1.6所示,診斷性分析常常需要從不同的信息源搜集數(shù)據(jù),并將它們以一種易于進(jìn)行下鉆和上卷分析的結(jié)構(gòu)加以保存。而診斷性分析的結(jié)果可以由交互式可視化界面顯示,讓用戶能夠清晰地了解模式與趨勢(shì)。診斷性分析是基于分析處理系統(tǒng)中的多維數(shù)據(jù)進(jìn)行的,而且,與描述性分析相比,它的查詢處理更加復(fù)雜。
3.預(yù)測(cè)性分析
預(yù)測(cè)性分析常在需要預(yù)測(cè)一個(gè)事件的結(jié)果時(shí)使用。通過預(yù)測(cè)性分析,信息將得到增值,這種增值主要表現(xiàn)在信息之間是如何相關(guān)的。這種相關(guān)性的強(qiáng)度和重要性構(gòu)成了基于過去事件對(duì)未來(lái)進(jìn)行預(yù)測(cè)的模型的基礎(chǔ)。這些用于預(yù)測(cè)性分析的模型與過去已經(jīng)發(fā)生的事件的潛在條件是隱式相關(guān)的,理解這一點(diǎn)很重要。如果這些潛在的條件改變了,那么用于預(yù)測(cè)性分析的模型也需要進(jìn)行更新。
預(yù)測(cè)性分析提出的問題常常以假設(shè)的形式出現(xiàn),例如:
如果消費(fèi)者錯(cuò)過了一個(gè)月的還款,那么他們無(wú)力償還貸款的幾率有多大?
如果以藥品B來(lái)代替藥品A的使用,那么這個(gè)病人生存的幾率有多大?
如果一個(gè)消費(fèi)者購(gòu)買了商品A和商品B,那么他購(gòu)買商品C的概率有多大?
預(yù)測(cè)性分析嘗試著預(yù)測(cè)事件的結(jié)果,而預(yù)測(cè)則基于模式、趨勢(shì)以及來(lái)自于歷史數(shù)據(jù)和當(dāng)前數(shù)據(jù)的期望。這將讓我們能夠分辨風(fēng)險(xiǎn)與機(jī)遇。
這種類型的分析涉及包含外部數(shù)據(jù)和內(nèi)部數(shù)據(jù)的大數(shù)據(jù)集以及多種分析方法。與描述性分析和診斷性分析相比,這種分析顯得更有價(jià)值,同時(shí)也要求更加高級(jí)的訓(xùn)練集。如圖1.7所示,這種工具通常通過提供用戶友好的前端接口對(duì)潛在的錯(cuò)綜復(fù)雜的數(shù)據(jù)進(jìn)行抽象。
4.規(guī)范性分析
規(guī)范性分析建立在預(yù)測(cè)性分析的結(jié)果之上,用來(lái)規(guī)范需要執(zhí)行的行動(dòng)。其注重的不僅是哪項(xiàng)操作最佳,還包括了其原因。換句話說(shuō),規(guī)范性分析提供了經(jīng)得起質(zhì)詢的結(jié)果,因?yàn)樗鼈兦度肓饲榫忱斫獾脑亍R虼?#xff0c;這種分析常常用來(lái)建立優(yōu)勢(shì)或者降低風(fēng)險(xiǎn)。
下面是兩個(gè)這類問題的樣例:
這三種藥品中,哪一種能提供最好的療效?
何時(shí)才是拋售一只股票的最佳時(shí)機(jī)?
規(guī)范性分析比其他三種分析的價(jià)值都高,同時(shí)還要求最高級(jí)的訓(xùn)練集,甚至是專門的分析軟件和工具。這種分析將計(jì)算大量可能出現(xiàn)的結(jié)果,并且推薦出最佳選項(xiàng)。解決方案從解釋性的到建議性的均有,同時(shí)還能包括各種不同情境的模擬。
這種分析能將內(nèi)部數(shù)據(jù)與外部數(shù)據(jù)結(jié)合起來(lái)。內(nèi)部數(shù)據(jù)可能包括當(dāng)前和過去的銷售數(shù)據(jù)、消費(fèi)者信息、產(chǎn)品數(shù)據(jù)和商業(yè)規(guī)則。外部數(shù)據(jù)可能包括社會(huì)媒體數(shù)據(jù)、天氣情況、政府公文等等。如圖1.8所示,規(guī)范性分析涉及利用商業(yè)規(guī)則和大量的內(nèi)外部數(shù)據(jù)來(lái)模擬事件結(jié)果,并且提供最佳的做法。
1.1.4 商務(wù)智能
商務(wù)智能(BI)通過分析由業(yè)務(wù)過程和信息系統(tǒng)生成的數(shù)據(jù)讓一個(gè)組織能夠獲取企業(yè)績(jī)效的內(nèi)在認(rèn)識(shí)。分析的結(jié)果可以用于改進(jìn)組織績(jī)效,或者通過修正檢測(cè)出的問題來(lái)管理和引導(dǎo)業(yè)務(wù)過程。商務(wù)智能在企業(yè)中使用大數(shù)據(jù)分析,并且這種分析通常會(huì)被整合到企業(yè)數(shù)據(jù)倉(cāng)庫(kù)中以執(zhí)行分析查詢。如圖1.9所示,商務(wù)智能的輸出能以儀表板顯示,它允許管理者訪問和分析數(shù)據(jù),且可以潛在地改進(jìn)分析查詢,從而對(duì)數(shù)據(jù)進(jìn)行深入挖掘。
1.1.5 關(guān)鍵績(jī)效指標(biāo)
關(guān)鍵績(jī)效指標(biāo)(KPI)是一種用來(lái)衡量一次業(yè)務(wù)過程是否成功的度量標(biāo)準(zhǔn)。它與企業(yè)整體的戰(zhàn)略目標(biāo)和任務(wù)相聯(lián)系。同時(shí),它常常用來(lái)識(shí)別經(jīng)營(yíng)業(yè)績(jī)中的一些問題,以及闡釋一些執(zhí)行標(biāo)準(zhǔn)。因此,KPI通常是一個(gè)測(cè)量企業(yè)整體績(jī)效的特定方面的定量參考指標(biāo)。如圖1.10所示,它常常通過專門的儀表板顯示。儀表板將多個(gè)關(guān)鍵績(jī)效指標(biāo)聯(lián)合起來(lái)展示,并且將實(shí)測(cè)值與關(guān)鍵績(jī)效指標(biāo)閾值相比較。
總結(jié)
以上是生活随笔為你收集整理的《大数据导论》一第1章 理解大数据的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《编写高质量代码:改善c程序代码的125
- 下一篇: 《软件工程(第4版?修订版)》—第1章1