Python数据可视化1.2 数据转换
1.2 數(shù)據(jù)轉(zhuǎn)換
現(xiàn)在,我們了解了數(shù)據(jù)的定義,但問題是:為什么要收集數(shù)據(jù)?數(shù)據(jù)對于描述物質(zhì)或社會現(xiàn)象以及進一步回答這些問題非常有用。出于這個原因,確保數(shù)據(jù)的無誤、精確和完整是很重要的;否則,錯誤、不精確和不完整的數(shù)據(jù)將導(dǎo)致響應(yīng)結(jié)果的不精確或不完整。
數(shù)據(jù)有不同種類,其中包括過去表現(xiàn)數(shù)據(jù)、實驗數(shù)據(jù)和基準數(shù)據(jù)。過去表現(xiàn)數(shù)據(jù)和實驗數(shù)據(jù)當(dāng)然很容易理解。另一方面,基準數(shù)據(jù)是用一個測度標準來比較兩種不同項目或產(chǎn)品的特征。數(shù)據(jù)被轉(zhuǎn)換為信息,得到進一步處理,然后用來解答問題。因此,很明顯下一步就是轉(zhuǎn)換的實現(xiàn)。
1.2.1 數(shù)據(jù)轉(zhuǎn)換為信息
根據(jù)數(shù)據(jù)的內(nèi)容和重要性,數(shù)據(jù)收集和儲存有一些不同的方式。例如,如果數(shù)據(jù)是關(guān)于籃球季后賽的,那么這些數(shù)據(jù)將儲存為文本和視頻格式。另一個例子是一個國家所有城市的溫度記錄,這些數(shù)據(jù)通過不同形式收集得到。從數(shù)據(jù)轉(zhuǎn)換為信息包含數(shù)據(jù)的收集、處理和組織,如下圖所示:
?
收集來的數(shù)據(jù)需要處理和組織過程,這些數(shù)據(jù)后續(xù)可能沒有結(jié)構(gòu)、沒有模型或沒有模式。然而,該處理過程至少給我們一種從數(shù)據(jù)中發(fā)現(xiàn)問題答案的組織方式。這種處理可以是一種基于籃球員總得分的簡單分類,或者根據(jù)城市和州名的分類。
從數(shù)據(jù)到信息的轉(zhuǎn)換也可以不僅僅是分類,比如統(tǒng)計建模或計算算法。將數(shù)據(jù)轉(zhuǎn)換為信息確實很重要,這樣數(shù)據(jù)可以被查詢、訪問和操作。海量數(shù)據(jù)的轉(zhuǎn)換可能包括這樣幾種處理方法:過濾、聚集、應(yīng)用相關(guān)性、歸一化和分類。
1. 數(shù)據(jù)收集
數(shù)據(jù)收集是一個耗時的過程。因此,人們正在尋找更好的自動數(shù)據(jù)采集方法。然而,人工數(shù)據(jù)收集仍然很常見。如今,數(shù)據(jù)的自動收集過程用到輸入設(shè)備,比如傳感器。例如,通過傳感器檢測水下珊瑚礁;農(nóng)業(yè)上用傳感器檢測土壤性質(zhì)、控制灌溉和施肥方法是另一個應(yīng)用領(lǐng)域。
另一種自動收集數(shù)據(jù)的方法是通過掃描文檔和日志文件,這也是一種服務(wù)器端數(shù)據(jù)收集的形式。人工處理包括基于網(wǎng)絡(luò)且儲存于數(shù)據(jù)庫的數(shù)據(jù)收集方法,這些數(shù)據(jù)可以轉(zhuǎn)換為信息。現(xiàn)在,基于網(wǎng)絡(luò)的協(xié)作環(huán)境正受益于交流改善和數(shù)據(jù)分享。
傳統(tǒng)的可視化和可視化分析工具專門為單個用戶、單機可視化應(yīng)用而設(shè)計。將這些工具的功能拓展到支持協(xié)作的層面需要一個漫長的過程,才能擴大真實世界中可視化的適用范圍和應(yīng)用領(lǐng)域。
2. 數(shù)據(jù)預(yù)處理
如今,基于數(shù)據(jù)量、數(shù)據(jù)來源的多重異質(zhì)性和數(shù)據(jù)類型的不同,數(shù)據(jù)很容易受到噪音和不一致的影響。現(xiàn)有一些數(shù)據(jù)預(yù)處理技術(shù),比如數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)壓縮和數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)清洗用于數(shù)據(jù)中的噪音清理和矛盾修正。數(shù)據(jù)集成將多個數(shù)據(jù)源的數(shù)據(jù)合并起來,通常被稱為數(shù)據(jù)倉庫。數(shù)據(jù)壓縮可以通過諸如合并、聚集和消除冗余特征等方法減少數(shù)據(jù)量。數(shù)據(jù)轉(zhuǎn)換將數(shù)據(jù)縮放到一個較小的區(qū)間,從而提高處理和可視化的精確性和效率。數(shù)據(jù)的轉(zhuǎn)換周期如下圖所示:
?
異常值檢測是非常規(guī)數(shù)據(jù)的識別,這些數(shù)據(jù)可能不會落入收集數(shù)據(jù)的預(yù)期行為或模式。異常值也稱為離群點或噪音;比如信號數(shù)據(jù),一個非常規(guī)的特別信號被視為噪音。交易數(shù)據(jù)中的一個離群點是欺詐交易。準確的數(shù)據(jù)收集對于保持數(shù)據(jù)完整性必不可少。然而,從另一角度考慮,異常值也非常重要,比如尋找詐騙保險理賠。
3. 數(shù)據(jù)處理
數(shù)據(jù)處理是轉(zhuǎn)換過程中的重要一步。當(dāng)務(wù)之急是關(guān)注數(shù)據(jù)質(zhì)量。依存模型和聚類有助于準備分析數(shù)據(jù)和更好地理解處理步驟。雖然也有其他處理技術(shù),但是我們在這不做過多贅述,僅以兩種最受歡迎的處理方法為例。
依存模型是建模數(shù)據(jù)以確定表現(xiàn)方式性質(zhì)和結(jié)構(gòu)的基本原則。該過程尋找數(shù)據(jù)元素間的關(guān)系;比如,百貨公司可能收集顧客購買習(xí)慣的數(shù)據(jù)。該過程有助于百貨公司減掉頻繁購買的信息。
聚類是在數(shù)據(jù)中發(fā)現(xiàn)群組,從某種方式上看,“相似性模式”沒有用數(shù)據(jù)中已知的結(jié)構(gòu)。
4. 組織數(shù)據(jù)
數(shù)據(jù)庫管理系統(tǒng)允許用戶以結(jié)構(gòu)化的形式存儲數(shù)據(jù)。然而,數(shù)據(jù)庫太大而不能存入內(nèi)存。有以下兩種結(jié)構(gòu)化數(shù)據(jù)的方法:
以結(jié)構(gòu)化的形式將大量數(shù)據(jù)儲存到磁盤中,比如,表、樹或圖表
為了快速訪問,以結(jié)構(gòu)化的形式將數(shù)據(jù)儲存到內(nèi)存中
數(shù)據(jù)結(jié)構(gòu)由將數(shù)據(jù)結(jié)構(gòu)化為可被儲存和訪問的一系列不同格式構(gòu)成。常用的數(shù)據(jù)結(jié)構(gòu)類型有數(shù)組、文件、表、數(shù)、列表、映射等。任何數(shù)據(jù)結(jié)構(gòu)都是為特定目的而設(shè)計的,通過組織數(shù)據(jù)來進行數(shù)據(jù)儲存、訪問和操作。一種數(shù)據(jù)結(jié)構(gòu)可能被選擇或設(shè)計來儲存數(shù)據(jù),以實現(xiàn)用不同算法更快訪問的目的。
經(jīng)過高效收集、處理和組織所存儲的數(shù)據(jù),使數(shù)據(jù)更容易被理解,這也有助于更好地理解數(shù)據(jù)中蘊含的信息。
5. 獲取數(shù)據(jù)集
針對接觸不到組織數(shù)據(jù)的讀者,下面列舉出一些豐富的數(shù)據(jù)集資源:
http://grouplens.org(來自明尼蘇達大學(xué))
http://ichart.finance.yahoo.com/table.csv?s=YHOO&c=1962
http://datawrangling.com/some-datasets-available-on-the-web
http://weather-warehouse.com(天氣數(shù)據(jù))
http://www.bjs.gov/developer/ncvs/(Justice統(tǒng)計局)
http://census.ire.org/data/bulkdata.html(人口普查數(shù)據(jù))
http://www.pro-football-reference.com(足球參考)
http://www.basketball-reference.com(籃球參考)
http://www.baseball-reference.com(棒球參考)
http://archive.ics.uci.edu/ml/datasets.html(機器學(xué)習(xí))
http://www.pewresearch.org/data/download-datasets/
http://archive.ics.uci.edu/ml/datasets/Heart+Disease(心臟病)
1.2.2 信息轉(zhuǎn)換為知識
信息是可量化的、可測度的、有形式的,可以被訪問、生成、存儲、分發(fā)、搜索、壓縮和復(fù)制。信息可以通過數(shù)量或信息量進行量化。
通過應(yīng)用離散算法,信息可轉(zhuǎn)換為知識,知識要比信息更可量化。在某些領(lǐng)域,知識持續(xù)經(jīng)歷了一個不斷發(fā)展的周期。當(dāng)數(shù)據(jù)發(fā)生實時變化時,這種演變過程隨之發(fā)生。
知識就像是幫助你做面包的面粉和酵母成分的烹飪配方。另一個看待知識的方法是數(shù)據(jù)和信息的結(jié)合,并加入經(jīng)驗和專家意見,以幫助決策。知識不僅僅是過濾或算法的結(jié)果。
轉(zhuǎn)換中包括哪些步驟?這種變化如何發(fā)生?當(dāng)然,它本身是不能發(fā)生的。盡管信息這個詞是基于定義的不同闡釋,但是,我們將在計算的范圍內(nèi)進一步探索。
有一個簡單的類比用以說明信息和知識之間的區(qū)別:一門特定課程的課程材料為你提供有關(guān)概念的重要信息,隨后老師引導(dǎo)學(xué)生通過討論來理解概念。這有助于學(xué)生獲得課程知識。類似地,信息轉(zhuǎn)換為知識也需要完成一些工作。下圖展示了信息轉(zhuǎn)換為知識的過程:
?
正如上圖所示,信息通過一些離散算法進行合并和運行后,就能轉(zhuǎn)換為知識。需要通過整合信息得到更多的知識。通過這種轉(zhuǎn)換獲得的知識有助于回答有關(guān)數(shù)據(jù)或信息的問題,比如,公司在哪個季度銷售收益最高?廣告拉動銷售的貢獻有多大?今年發(fā)布了多少新產(chǎn)品?
1.2.3 知識轉(zhuǎn)換為觀點
在傳統(tǒng)的系統(tǒng)中,信息經(jīng)處理、分析并形成報告。自因特網(wǎng)誕生以來,我們可以獲取經(jīng)過處理的信息,而且社交媒體融合成為一種處理實際問題的新方式。
一些組織機構(gòu)已開始分析外部數(shù)據(jù)來獲得觀點。比如,通過Twitter上消費者的推文完成對用戶情緒的測度,以此來追蹤他們對產(chǎn)品品牌的意見。在某些情況下,較高比例的用戶會在社交媒體上發(fā)布新產(chǎn)品的好評,比如一臺iPhone或平板電腦。分析工具能夠提供該情緒的數(shù)據(jù)化證據(jù),這就是數(shù)據(jù)可視化扮演的重要角色。
下面是知識轉(zhuǎn)化為觀點的另一個例子。2009年Netflix公司宣布了一場比賽,該比賽基于已有的電影分級,評選用來預(yù)測用戶對電影評級的最佳協(xié)同過濾算法。比賽的獲勝者用語用學(xué)理論,在預(yù)測用戶分級方面提高10.05%的正確率,增加了Netflix公司的商業(yè)價值。
?
知識轉(zhuǎn)換為觀點是通過如上圖所示的協(xié)作和分析來實現(xiàn)的。觀點意味著看到解決方案,并發(fā)現(xiàn)需要做的事情。得到數(shù)據(jù)和信息很容易,一些組織機構(gòu)已經(jīng)知道獲取方法,但是得到觀點卻很難。觀點的得出需要新的創(chuàng)造性思維和連點成線的能力。除了應(yīng)用創(chuàng)造性思維,數(shù)據(jù)分析和數(shù)據(jù)可視化在觀點得出的過程中也發(fā)揮著很大作用。數(shù)據(jù)可視化被視為藝術(shù)和科學(xué)的結(jié)合。
總結(jié)
以上是生活随笔為你收集整理的Python数据可视化1.2 数据转换的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《数据库原理与应用(第3版)》——小结
- 下一篇: 《Angular从零到一》导读