當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【Hadoop系列】HDFS

發(fā)布時間：2023/12/10 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了【Hadoop系列】HDFS 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Hadoop的前世今生

什么是大數(shù)據(jù)

各行各業(yè)都會產(chǎn)生大量的數(shù)據(jù)，比如社交網(wǎng)站的意見觀點，電商平臺人們?yōu)g覽網(wǎng)頁停留的時間，交通運輸每天產(chǎn)生的數(shù)據(jù)等等。這些數(shù)據(jù)大多不是結(jié)構(gòu)化的，一般來說都是半結(jié)構(gòu)化或者非結(jié)構(gòu)化的

在以前，我們的處理能力達不到，所以很多數(shù)據(jù)要么沒有存起來，要么沒有利用起來。而現(xiàn)在數(shù)據(jù)越來越集中在云端的服務器上，并且計算能力已經(jīng)今非昔比了，我們完全有能力對大數(shù)據(jù)進行存儲和分析。

所以所謂的大數(shù)據(jù)指的就是，原有的計算能力無法處理的大批量的數(shù)據(jù)，而大數(shù)據(jù)技術(shù)研究的是如何快速有效的處理這些結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)的技術(shù)。

處理大數(shù)據(jù)的架構(gòu)

下圖是傳統(tǒng)的集中式架構(gòu)

它的主要問題在于擴展性不強而且數(shù)據(jù)庫將成為很大的瓶頸。

所以谷歌提出了

MapReduce算法
BigTable
GFS

合稱“三劍客”。

那么相對于傳統(tǒng)的架構(gòu)，有什么樣的變化呢？

首先它可以使用大量的x86服務器，而不是使用性能強健的大型機來完成計算，也就是Scale-out的
另外它使用軟件方案來保證硬件故障容錯

我們知道x86服務器的穩(wěn)定性不如小型機，存在一定的故障的可能，但是小型機實在太貴了。我們完全可以讓x86服務器組成集群，然后使用上層軟件來保障整體的硬件故障容錯。
簡化并行分布式計算，不需要再控制節(jié)點的同步和數(shù)據(jù)的交換。

Hadoop模仿Google的實現(xiàn)方式，最終演變成一系列的開源項目。

總結(jié)一下：

大數(shù)據(jù)既是一個概念又是一門技術(shù)，它是以Hadoop和Spark為代表的大數(shù)據(jù)基礎(chǔ)框架，可以實現(xiàn)數(shù)據(jù)分析、挖掘、預測。

Hadoop

上面說到Hadoop是一種分布式計算解決方案，含有若干組件，其中最著名的當屬

HDFS分布式文件系統(tǒng)：存儲海量數(shù)據(jù)

存儲技術(shù)是大數(shù)據(jù)的基礎(chǔ)，因為對于大量的數(shù)據(jù)，我們希望能找的一種比較廉價的方式來保存我們的數(shù)據(jù)，那么分布式文件系統(tǒng)當屬首選。
MapReduce編程模型：

并行處理框架，實現(xiàn)任務分解和調(diào)度

所以Hadoop的優(yōu)勢在于：

高擴展性，也就是可以通過增加節(jié)點來活動性能提升，比如說性能不夠了，就懟新的服務器上去。
低成本，可以基于便宜的x86服務器
成熟的生態(tài)圈，里面有大量的工具集可以使用

下面分別介紹一下HDFS和MapReduce

HDFS

在【大話存儲II】學習筆記（15章），文件級集群系統(tǒng)中我們介紹了分布式集群的基本概念。

分布式文件系統(tǒng)可以等價于非共享存儲集群文件系統(tǒng)，也就是說同一個文件系統(tǒng)下的文件是存放在不同的節(jié)點里面，而且Sharing-nothing

那么分布式文件系統(tǒng)應該解決

統(tǒng)一的命名空間，也就是對外顯現(xiàn)同一個文件目錄。

這樣用戶不用管數(shù)據(jù)是如何存放的，分布式文件系統(tǒng)已經(jīng)幫它解決存放的問題了，用戶用起來就像使用本地文件一樣簡單。
緩存一致，因為數(shù)據(jù)都緩存在各自的節(jié)點，不存在不緩存不一致的情況。
分布式鎖，也就是多個連接并發(fā)訪問的時候，如何控制文件的數(shù)據(jù)會出現(xiàn)不一致的情況。

若要理解HDFS，我們需要知道如下的基本概念。

基本概念

分布式設計

HDFS這樣的架構(gòu)，非常類似于【大話存儲II】學習筆記（15章），塊級集群存儲系統(tǒng)中的XIV，當然XIV是提供塊存儲的，不過XIV也利用了文件系統(tǒng)的思想，對每個塊像一個文件一樣。

HDFS的基本存儲和操作單位是數(shù)據(jù)塊，默認大小64MB，一般設置為128M。為什么要這么設計呢？因為一個文件會比較大，為了分布式存放，可以分成若干小塊。那么最好就切成相同大小，比如說64MB。

而且為了保證數(shù)據(jù)塊不丟失，對每個數(shù)據(jù)塊會保存3副本，分布在兩個機架的三個節(jié)點中。其中兩份在同一個機架，一份在另一個機架。

比如下圖中兩個A數(shù)據(jù)塊放在機架1，另一份副本放到了機架2 。

角色

在【大話存儲II】學習筆記（15章），文件級集群系統(tǒng)我們介紹過，分布式文件系統(tǒng)有對稱和非對稱的兩種。

對稱集群中所有節(jié)點的地位相同，互相維護通信鏈接進行數(shù)據(jù)同步，也正因為如此，不適合擴展。

而HDFS采用的是非對稱集群，所以有Master和Slave兩種角色。

Master就是HDFS中的NameNode，它的作用是存放元數(shù)據(jù)，管理文件系統(tǒng)的命名空間。也就是一個注冊中心，其他的Slave都要到它這邊注冊。

Master和Slave組成集群以后，可以自服務，也可以對外提供服務。

它會記錄兩種信息：

文件與數(shù)據(jù)塊的映射關(guān)系
數(shù)據(jù)塊與服務器的對應關(guān)系，也就是每個塊存放的節(jié)點的信息

Slave則是DataNode，它的主要作用就是存放數(shù)據(jù)塊，是具體的執(zhí)行者。

當塊存儲信息改變了以后，DataNode會向NameNode主動更新信息

另外，在這種主從架構(gòu)里面，NameNode的地位很超然，非常的重要，一旦他掛了則整個系統(tǒng)就宕了。

所以從HDFS 2x就可以為NameNode配置HA了。

如下圖所示，出現(xiàn)了一個Secondary NameNode。

二級NameNode定期同步元數(shù)據(jù)鏡像文件和修改日志，當NameNode發(fā)生故障時，備胎轉(zhuǎn)正。

HDFS的讀與寫

寫

下面我們來看一下寫流程。

客戶端向NameNode發(fā)出請求，表示自己要發(fā)送文件了，然后NameNode會返回現(xiàn)在空余存儲的信息
然后客戶端將文件分塊，
接著，客戶端將數(shù)據(jù)塊1以及相應的元數(shù)據(jù)信息發(fā)給DataNode1
然后開啟流水線復制，將數(shù)據(jù)同步給另外的節(jié)點
寫完了以后，DataNode才返回更新信息，最后NameNode向客戶端返回成功。

讀文件

下圖展示了HDFS的讀流程

首先客戶端向NameNode發(fā)起讀請求，將路徑+文件名發(fā)過去
NameNode返回元數(shù)據(jù)，告訴客戶端可以從哪些地方取
然后由客戶端自己向DataNode讀取數(shù)據(jù)

HDFS的特點

了解了HDFS的架構(gòu)以及讀寫流程以后，我們可以總結(jié)一下HDFS的特點。

本質(zhì)上HDFS就是一個分布式文件系統(tǒng)，它

通過三副本機制進行冗余，類似于的分布式的RAID10
它的寫比較的復雜，需要復制2份，還要同步各種信息，而且修改也比較麻煩，只能刪除以后再寫。所以比較適合于一次寫入，多次讀取的場景，現(xiàn)在的OLAP就比較契合
因為每次寫或者讀都需要向NameNode發(fā)起請求，所以NameNode是整個系統(tǒng)的瓶頸，所以如果是小文件的話，NameNode壓力非常大。

也就是說HDFS適合于批量讀，這樣吞吐量高，因為可以并發(fā)讀嘛。

但是不支持多用戶寫相同的文件，因為沒有加鎖。

也就是不適合交互應用以及那些實時性要求高的地方。

轉(zhuǎn)載于:https://www.cnblogs.com/dy2903/p/8492304.html

總結(jié)

以上是生活随笔為你收集整理的【Hadoop系列】HDFS的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：西刺代理python_python爬取西
下一篇：软件产品需求分析模板