生活随笔
收集整理的這篇文章主要介紹了
                                
大数据采集与处理期末复习题
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.                        
 
                                
                            
                            
                            填空:
 
數(shù)據(jù)產(chǎn)生方式經(jīng)歷的階段:運營式系統(tǒng)階段、用戶原創(chuàng)內(nèi)容階段和感知式系統(tǒng)階段大數(shù)據(jù)的四個特點:數(shù)據(jù)量大、數(shù)據(jù)類型繁多、處理速度快和價值密度低。大數(shù)據(jù)的四種范式:實驗、理論、計算、數(shù)據(jù)密集型大數(shù)據(jù)計算模式:批處理計算、流計算、圖計算、查詢分析計算Hadoop的特性:高可靠性、高效性、高可擴展性、高容錯性、成本低、運行在Linux平臺上、支持多種編程語言Hadoop的核心:HDFS和MapReduce分布式文件系統(tǒng)的節(jié)點:一類叫主節(jié)點(名稱節(jié)點)或從節(jié)點(數(shù)據(jù)節(jié)點)Hbase:采用行鍵、列族、列限定符和時間戳進行索引Hbase:三個主要的功能組件:庫函數(shù),鏈接到每個客戶端;一個Master主服務(wù)器;許多個Region服務(wù)器Hbase:三層結(jié)構(gòu) Zookeeper文件 -ROOT-表 .META.表Hbase系統(tǒng)架構(gòu):客戶端、Zookeeper服務(wù)器、Master主服務(wù)器、Region服務(wù)器,一般采用HDFS作為底層數(shù)據(jù)存儲NoSQL數(shù)據(jù)庫三個特點:靈活的可擴展性、靈活的數(shù)據(jù)模型、與云計算緊密融合關(guān)系數(shù)據(jù)庫無法滿足Web2.0的需求的三個方面:無法滿足海量數(shù)據(jù)的管理需求、無法滿足數(shù)據(jù)高并發(fā)的需求、無法滿足高可擴展性和高可用性的需求。NoSQL的四大類型:鍵值數(shù)據(jù)庫、列族數(shù)據(jù)庫、文檔數(shù)據(jù)庫、圖數(shù)據(jù)庫NoSQL三大基石:CAP、BASE和最終一致性CAP指的是:C 一致性 A 可用性 P 分區(qū)容忍性 三選二數(shù)據(jù)庫事務(wù)具有ACID四性:A 原子性、C 一致性、I 隔離性、D 持久性BASE基本含義:基本可用、軟狀態(tài)、最終一致性云數(shù)據(jù)庫具有以下特性:動態(tài)可擴展、高可用性、較低的使用代價、易用性、高性能、免維護、安全YARN體系機構(gòu)中包含了三個組件:ResourceManager、 ApplicationMaster、 NodeManagerSpark四個特點:運行速度快、容易使用、通用性、運行模式多樣Spark具有以下優(yōu)點:Spark的計算模式也屬于MapReduce,但不局限于Map和Reduce操作,還提供了多數(shù)據(jù)集操作類型,編程模型比 MapReduce
 Sperk提供了內(nèi)存計算,中間結(jié)果之間放在內(nèi)存中,帶來了更高的迭代執(zhí)行機制
 Sperk基于DAG的任務(wù)調(diào)度執(zhí)行機制,要優(yōu)于MapReduce的迭代執(zhí)行機制數(shù)據(jù)的兩種類型:靜態(tài)數(shù)據(jù)和流數(shù)據(jù)計算模式:批量計算和實時計算Storm主要術(shù)語:Streams、Spouts、Bolts、Topology、Stream GroupingsSpark Streaming和Storm最大的區(qū)別在于,Spark 無法實現(xiàn)毫秒級的流計算,而Storm則可以實現(xiàn)毫秒級響應(yīng)。Pregel圖計算模型:有向圖和頂點、頂點之間的消息傳遞、Pregel的計算過程推薦方法:專家推薦、基于統(tǒng)計的推薦、基于內(nèi)容的推薦、協(xié)同過濾推薦、混合推薦 
名詞解釋:
 
分布式文件系統(tǒng)的概念:是一種通過網(wǎng)絡(luò)實現(xiàn)文件在多臺主機上進行分布式存儲的文件系統(tǒng)HDFS:是Hadoop項目的核心子項目,是分布式計算中數(shù)據(jù)存儲管理的基礎(chǔ),是基于流數(shù)據(jù)模式訪問和處理超大文件的需求而開發(fā)的,可以運行于廉價的商用服務(wù)器上。名稱節(jié)點:負責(zé)管理分布式文件系統(tǒng)的命名空間,保存了兩個核心的數(shù)據(jù)結(jié)構(gòu),即FsImage和EditLog數(shù)據(jù)節(jié)點:是分布式文件系統(tǒng)HDFS的工作節(jié)點,負責(zé)數(shù)據(jù)的存儲和讀取,會根據(jù)客戶端或者名稱節(jié)點的調(diào)度來進行數(shù)據(jù)的存儲和檢索,并且向名稱節(jié)點定期發(fā)送自己所存儲的塊的列表。第二名稱節(jié)點:是HDFS架構(gòu)的一個重要組成部分,具有兩個方面的功能:首先,可以完成EditLog與FsImage的合并操作,減小EditLog文件大小,縮短名稱節(jié)點重啟時間;其次,可以作為名稱節(jié)點的“檢查點”。Zookeeper服務(wù)器:Zookeeper服務(wù)器并非一臺單一的機器,可能是由多臺機器構(gòu)成的集群來提供穩(wěn)定可靠的協(xié)同服務(wù)。Zookeeper不僅能夠幫助維護當(dāng)前集群中機器的服務(wù)狀態(tài),而且能夠幫助選出一個“總管”。讓這個總管來管理集群。云數(shù)據(jù)庫的概念:云數(shù)據(jù)庫是部署和虛擬化在云計算環(huán)境中的數(shù)據(jù)庫,云數(shù)據(jù)庫是在云計算的大背景下發(fā)展起來的一種新興的共享基礎(chǔ)結(jié)構(gòu)的方法,它極大地增強了數(shù)據(jù)庫的存儲能力,消除了人員、硬件、軟件的重復(fù)配置,讓軟、硬件升級變得更加容易,同時也虛擬化了許多后端功能。RDD概念:是彈性分布式數(shù)據(jù)集的英文縮寫,是分布式內(nèi)存的一個抽象概念,提供了一種高度受限的共享內(nèi)存模型。窄依賴:父RDD的一個分區(qū)只被一個子RDD的一個分區(qū)所使用就是窄依賴寬依賴:父RDD的一個分區(qū)被一個子RDD的多個分區(qū)所使用就是寬依賴什么是數(shù)據(jù)可視化:數(shù)據(jù)可視化是指將大型數(shù)據(jù)集中的數(shù)據(jù)以圖形圖像形式表示,并利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的處理過程。數(shù)據(jù)可視化技術(shù)的基本思想是將數(shù)據(jù)庫中每一個數(shù)據(jù)項作為單個圖元素表示,大量的數(shù)據(jù)集構(gòu)成數(shù)據(jù)圖像,同時將數(shù)據(jù)的各個屬性值以多維數(shù)據(jù)的形式表示,可以從不同的維度觀察數(shù)據(jù),從而對數(shù)據(jù)進行更深入的觀察和分析。協(xié)同過濾推薦:是推薦系統(tǒng)中應(yīng)用最早和最為成功的技術(shù)之一。它一般采用最近鄰技術(shù),利用用戶的歷史信息計算用戶之間的距離,然后利用目標用戶的最近鄰居用戶對商品的評價信息來預(yù)測目標用戶對特定商品的喜好程度,最后根據(jù)這一喜好程度對目標用戶進行推薦。 
簡答題:
 
數(shù)據(jù)存取策略原理:數(shù)據(jù)存取策略包括數(shù)據(jù)存放、數(shù)據(jù)讀取和數(shù)據(jù)復(fù)制等方面,它在很大程度上會影響到整個分布式文件系統(tǒng)的讀寫性能,是分布式文件系統(tǒng)的核心內(nèi)容。Region服務(wù)器的工作原理:Region服務(wù)器內(nèi)部管理一系列Region對象和一個Hlog文件,其中,Hlog是磁盤上面的記錄文件,它記錄著所有的更新操作,每個Region對象又是由多個Store組成的,每個Store對應(yīng)了表中的一個列族的存儲。每個Store又包含了MemStore和若干個StoreFile,其中,MemStore是在內(nèi)存中的緩存。Map函數(shù)的輸入來自于分布式文件系統(tǒng)的文件塊,這些文件塊的格式是任意的,可以是文檔,也可以是二進制格式的。文件塊是一系列元素的集合,這些元素也是任意類型的,同一個元素不能跨文件存儲。Map函數(shù)將輸入的元素轉(zhuǎn)換成<key,value>形式的鍵值對,鍵和值的類型也是任意的,其中鍵不同于一般的標志屬性,即鍵沒有唯一性,不能作為輸出的身份標識,即使是同一輸入元素,也可通過一個Map任務(wù)生成具有相同鍵的多個<key,value>
 Reduce函數(shù)的任務(wù)就是將輸入的一系列具有相同鍵的鍵值對以某種方式組合起來,輸出處理后的鍵值對,輸出結(jié)果會合并成一個文件。用戶可以指定Reduce任務(wù)的個數(shù),并通知實現(xiàn)系統(tǒng),然后主控進程通常會選擇一個Hash函數(shù),map任務(wù)輸出的每個鍵都會經(jīng)過Hash函數(shù)計算,并根據(jù)哈希結(jié)果將該鍵值對輸入相應(yīng)的Reduce任務(wù)來處理。對于處理鍵為k的Reduce任務(wù)的輸入形式為<k,<v1,v2,…vn>>,輸出為<k,v>.Map端的Shuffle過程:Map端的輸出結(jié)果首先會被與入到緩存中(比磁盤效率高),
 當(dāng)緩存滿時(80%寫入后),就會啟動流與擲作;溢寫操作會清空內(nèi)容,把內(nèi)容寫入到磁盤空間。每次溢寫操作會寫一個磁盤文件(key,value),當(dāng)Map程序運行完成后,會把這個Map程序產(chǎn)生的溢寫文件歸并成一個大的文件(key,value1,value2,…),然后通知Reduce端來取數(shù)據(jù)HDFS HA新特性:在一個典型的HA集群中,一般設(shè)置兩個名稱節(jié)點,其中一個名稱節(jié)點處于“活躍”狀態(tài),另一個處于“待命”狀態(tài)。處于活躍狀態(tài)的名稱節(jié)點負責(zé)對外處理所有客戶端的請求,而處于待命狀態(tài)的名稱節(jié)點則作為備用節(jié)點,保存了足夠多的系統(tǒng)元數(shù)據(jù),當(dāng)名稱節(jié)點出現(xiàn)故障時提供快速回復(fù)能力也就是說,在HDFS HA中,處于待命狀態(tài)的名稱節(jié)點提供了“熱備份”,一旦活躍名稱節(jié)點出現(xiàn)故障,就可以立即切換到待命名稱節(jié)點,不會影響到系統(tǒng)的正常對外服務(wù)。
                            總結(jié)
                            
                                以上是生活随笔為你收集整理的大数据采集与处理期末复习题的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
                            
                            
                                如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。