GlusterFS架构与维护
GlusterFS 外部架構(gòu)
? ? GlusterFS總體架構(gòu)與組成部分如圖2所示,它主要由存儲服務(wù)器(BrickServer)、客戶端以及NFS/Samba 存儲網(wǎng)關(guān)組成。不難發(fā)現(xiàn),GlusterFS 架構(gòu)中沒有元數(shù)據(jù)服務(wù)器組件,這是其最大的設(shè)計這點,對于提升整個系統(tǒng)的性能、可靠性和穩(wěn)定性都有著決定性的意義。GlusterFS 支持TCP/IP 和InfiniBandRDMA 高速網(wǎng)絡(luò)互聯(lián),客戶端可通過原生Glusterfs 協(xié)議訪問數(shù)據(jù),其他沒有運行GlusterFS客戶端的終端可通過NFS/CIFS 標(biāo)準(zhǔn)協(xié)議通過存儲網(wǎng)關(guān)訪問數(shù)據(jù)。
GlusterFS內(nèi)部架構(gòu)
GlusterFS是模塊化堆棧式的架構(gòu)設(shè)計,如上圖所示。模塊稱為Translator,是GlusterFS提供的一種強大機制,借助這種良好定義的接口可以高效簡便地擴展文件系統(tǒng)的功能。
1.服務(wù)端與客戶端模塊接口是兼容的,同一個translator可同時在兩邊加載。
2.GlusterFS中所有的功能都是通過translator實現(xiàn),如Cluster, Storage,Performance, Protocol, Features等。
3.重點是GlusterFSClient端。
GlusterFS數(shù)據(jù)訪問流程
上圖是GlusterFS數(shù)據(jù)訪問的一個概要圖:
1.首先是在客戶端,用戶通過glusterfs的mount point 來讀寫數(shù)據(jù)。
2.用戶的這個操作被遞交給本地linux系統(tǒng)的VFS來處理。
3.VFS將數(shù)據(jù)遞交給FUSE內(nèi)核文件系統(tǒng),在啟動glusterfs客戶端以前,需要向系統(tǒng)注冊一個實際的文件系統(tǒng)FUSE,如上圖所示,該文件系統(tǒng)與ext3在同一個層次上面,ext3是對實際的磁片進行處理,而fuse文件系統(tǒng)則是將數(shù)據(jù)通過/dev/fuse這個設(shè)備文件遞交給了glusterfs client端。所以,我們可以將fuse文件系統(tǒng)理解為一個代理。
4.數(shù)據(jù)被fuse遞交給Glusterfs client 后,client對數(shù)據(jù)進行一些指定的處理(所謂的指定,是按照client配置文件來進行的一系列處理)
5.在glusterfsclient的處理末端,通過網(wǎng)路將數(shù)據(jù)遞交給Glusterfs Server,并且將數(shù)據(jù)寫入到服務(wù)器所控制的存儲設(shè)備上
技術(shù)特點
GlusterFS在技術(shù)實現(xiàn)上與傳統(tǒng)存儲系統(tǒng)或現(xiàn)有其他分布式文件系統(tǒng)有顯著不同之處,主要體現(xiàn)在如下幾個方面。
完全軟件實現(xiàn)(SoftwareOnly)
GlusterFS認為存儲是軟件問題,不能夠把用戶局限于使用特定的供應(yīng)商或硬件配置來解決。GlusterFS采用開放式設(shè)計,廣泛支持工業(yè)標(biāo)準(zhǔn)的存儲、網(wǎng)絡(luò)和計算機設(shè)備,而非與定制化的專用硬件設(shè)備捆綁。對于商業(yè)客戶,GlusterFS可以以虛擬裝置的形式交付,也可以與虛擬機容器打包,或者是公有云中部署的映像。開源社區(qū)中,GlusterFS被大量部署在基于廉價閑置硬件的各種操作系統(tǒng)上,構(gòu)成集中統(tǒng)一的虛擬存儲資源池。簡言之,GlusterFS是開放的全軟件實現(xiàn),完全獨立于硬件和操作系統(tǒng)。
完整的存儲操作系統(tǒng)棧(CompleteStorage Operating System Stack)
GlusterFS不僅提供了一個分布式文件系統(tǒng),而且還提供了許多其他重要的分布式功能,比如分布式內(nèi)存管理、I/O調(diào)度、軟RAID和自我修復(fù)等。GlusterFS汲取了微內(nèi)核架構(gòu)的經(jīng)驗教訓(xùn),借鑒了GNU/Hurd操作系統(tǒng)的設(shè)計思想,在用戶空間實現(xiàn)了完整的存儲操作系統(tǒng)棧。
用戶空間實現(xiàn)(User Space)
與傳統(tǒng)的文件系統(tǒng)不同,GlusterFS在用戶空間實現(xiàn),這使得其安裝和升級特別簡便。另外,這也極大降低了普通用戶基于源碼修改GlusterFS的門檻,僅僅需要通用的C程序設(shè)計技能,而不需要特別的內(nèi)核編程經(jīng)驗。
模塊化堆棧式架構(gòu)(ModularStackable Architecture)
GlusterFS采用模塊化、堆棧式的架構(gòu),可通過靈活的配置支持高度定制化的應(yīng)用環(huán)境,比如大文件存儲、海量小文件存儲、云存儲、多傳輸協(xié)議應(yīng)用等。每個功能以模塊形式實現(xiàn),然后以積木方式進行簡單的組合,即可實現(xiàn)復(fù)雜的功能。比如,Replicate模塊可實現(xiàn)RAID1,Stripe模塊可實現(xiàn)RAID0,通過兩者的組合可實現(xiàn)RAID10和RAID01,同時獲得高性能和高可性。
原始數(shù)據(jù)格式存儲(DataStored in Native Formats)
GlusterFS無元數(shù)據(jù)服務(wù)設(shè)計(NoMetadata with the Elastic Hash Algorithm)以原始數(shù)據(jù)格式(如EXT3、EXT4、XFS、ZFS)儲存數(shù)據(jù),并實現(xiàn)多種數(shù)據(jù)自動修復(fù)機制。因此,系統(tǒng)極具彈性,即使離線情形下文件也可以通過其他標(biāo)準(zhǔn)工具進行訪問。如果用戶需要從GlusterFS中遷移數(shù)據(jù),不需要作任何修改仍然可以完全使用這些數(shù)據(jù)。
對Scale-Out存儲系統(tǒng)而言,最大的挑戰(zhàn)之一就是記錄數(shù)據(jù)邏輯與物理位置的映像關(guān)系,即數(shù)據(jù)元數(shù)據(jù),可能還包括諸如屬性和訪問權(quán)限等信息。傳統(tǒng)分布式存儲系統(tǒng)使用集中式或分布式元數(shù)據(jù)服務(wù)來維護元數(shù)據(jù),集中式元數(shù)據(jù)服務(wù)會導(dǎo)致單點故障和性能瓶頸問題,而分布式元數(shù)據(jù)服務(wù)存在性能負載和元數(shù)據(jù)同步一致性問題。特別是對于海量小文件的應(yīng)用,元數(shù)據(jù)問題是個非常大的挑戰(zhàn)。
GlusterFS獨特地采用無元數(shù)據(jù)服務(wù)的設(shè)計,取而代之使用算法來定位文件,元數(shù)據(jù)和數(shù)據(jù)沒有分離而是一起存儲。集群中的所有存儲系統(tǒng)服務(wù)器都可以智能地對文件數(shù)據(jù)分片進行定位,僅僅根據(jù)文件名和路徑并運用算法即可,而不需要查詢索引或者其他服務(wù)器。這使得數(shù)據(jù)訪問完全并行化,從而實現(xiàn)真正的線性性能擴展。無元數(shù)據(jù)服務(wù)器極大提高了GlusterFS的性能、可靠性和穩(wěn)定性。
一些設(shè)計與討論
無元數(shù)據(jù)服務(wù)器vs 元數(shù)據(jù)服務(wù)器
無元數(shù)據(jù)服務(wù)器設(shè)計的好處是沒有單點故障和性能瓶頸問題,可提高系統(tǒng)擴展性、性能、可靠性和穩(wěn)定性。對于海量小文件應(yīng)用,這種設(shè)計能夠有效解決元數(shù)據(jù)的難點問題。它的負面影響是,數(shù)據(jù)一致問題更加復(fù)雜,文件目錄遍歷操作效率低下,缺乏全局監(jiān)控管理功能。同時也導(dǎo)致客戶端承擔(dān)了更多的職能,比如文件定位、名字空間緩存、邏輯卷視圖維護等等,這些都增加了客戶端的負載,占用相當(dāng)?shù)腃PU 和內(nèi)存。
用戶空間vs內(nèi)核空間
用戶空間實現(xiàn)起來相對要簡單許多,對開發(fā)者技能要求較低,運行相對安全。用戶空間效率低,數(shù)據(jù)需要多次與內(nèi)核空間交換,另外GlusterFS 借助FUSE 來實現(xiàn)標(biāo)準(zhǔn)文件系統(tǒng)接口,性能上又有所損耗。內(nèi)核空間實現(xiàn)可以獲得很高的數(shù)據(jù)吞吐量,缺點是實現(xiàn)和調(diào)試非常困難,程序出錯經(jīng)常會導(dǎo)致系統(tǒng)崩潰,安全性低。縱向擴展上,內(nèi)核空間要優(yōu)于用戶空間,GlusterFS 有橫向擴展能力來彌補。
堆棧式vs 非堆棧式
這有點像操作系統(tǒng)的微內(nèi)核設(shè)計與單一內(nèi)核設(shè)計之爭。GlusterFS 堆棧式設(shè)計思想源自GNU/Hurd 微內(nèi)核操作系統(tǒng),具有很強的系統(tǒng)擴展能力,系統(tǒng)設(shè)計實現(xiàn)復(fù)雜性降低很多,基本功能模塊的堆棧式組合就可以實現(xiàn)強大的功能。查看GlusterFS卷配置文件我們可以發(fā)現(xiàn),translator 功能樹通常深達10層以上,一層一層進行調(diào)用,效率可見一斑。非堆棧式設(shè)計可看成類似Linux 的單一內(nèi)核設(shè)計,系統(tǒng)調(diào)用通過中斷實現(xiàn),非常高效。后者的問題是系統(tǒng)核心臃腫,實現(xiàn)和擴展復(fù)雜,出現(xiàn)問題調(diào)試?yán)щy。
原始存儲格式vs 私有存儲格式
GlusterFS使用原始格式存儲文件或數(shù)據(jù)分片,可以直接使用各種標(biāo)準(zhǔn)的工具進行訪問,數(shù)據(jù)互操作性好,遷移和數(shù)據(jù)管理非常方便。然而,數(shù)據(jù)安全成了問題,因為數(shù)據(jù)是以平凡的方式保存的,接觸數(shù)據(jù)的人可以直接復(fù)制和查看。這對很多應(yīng)用顯然是不能接受的,比如云存儲系統(tǒng),用戶特別關(guān)心數(shù)據(jù)安全,這也是影響公有云存儲發(fā)展的一個重要原因。私有存儲格式可以保證數(shù)據(jù)的安全性,即使泄露也是不可知的。GlusterFS 要實現(xiàn)自己的私有格式,在設(shè)計實現(xiàn)和數(shù)據(jù)管理上相對復(fù)雜一些,也會對性能產(chǎn)生一定影響。
大文件vs 小文件
GlusterFS 適合大文件還是小文件存儲?彈性哈希算法和Stripe 數(shù)據(jù)分布策略,移除了元數(shù)據(jù)依賴,優(yōu)化了數(shù)據(jù)分布,提高數(shù)據(jù)訪問并行性,能夠大幅提高大文件存儲的性能。對于小文件,無元數(shù)據(jù)服務(wù)設(shè)計解決了元數(shù)據(jù)的問題。但GlusterFS 并沒有在I/O 方面作優(yōu)化,在存儲服務(wù)器底層文件系統(tǒng)上仍然是大量小文件,本地文件系統(tǒng)元數(shù)據(jù)訪問是一個瓶頸,數(shù)據(jù)分布和并行性也無法充分發(fā)揮作用。因此,GlusterFS 適合存儲大文件,小文件性能較差,還存在很大優(yōu)化空間。
可用性vs 存儲利用率
GlusterFS使用復(fù)制技術(shù)來提供數(shù)據(jù)高可用性,復(fù)制數(shù)量沒有限制,自動修復(fù)功能基于復(fù)制來實現(xiàn)。可用性與存儲利用率是一個矛盾體,可用性高存儲利用率就低,反之亦然。采用復(fù)制技術(shù),存儲利用率為1/復(fù)制數(shù),鏡像是50%,三路復(fù)制則只有33%。其實,可以有方法來同時提高可用性和存儲利用率,比如RAID5的利用率是(n-1)/n,RAID6是(n-2)/n,而糾刪碼技術(shù)可以提供更高的存儲利用率。但是,魚和熊掌不可得兼,它們都會對性能產(chǎn)生較大影響。
術(shù)語表:
Xlator=translator:glusterfs 模塊的代名詞
Brick :存儲目錄是Glusterfs 的基本存儲單元,由可信存儲池中服務(wù)器上對外
輸出的目錄表示。存儲目錄的格式由服務(wù)器和目錄的絕對路徑構(gòu)成,具體如下:
SERVER:EXPORT.例如:myhostname:/exports/myexportdir/
Volume :卷是存儲目錄的邏輯組合。大部分gluster 管理操作是在卷上進行的。
Metadata:元數(shù)據(jù)關(guān)于數(shù)據(jù)的數(shù)據(jù),用于描述文件、目錄等的相關(guān)信息。
FUSE=Filesystem inUserspace:?是一個內(nèi)核模塊,允許用戶創(chuàng)建自己的文件系
統(tǒng)無需修改內(nèi)核代碼。
Glusterd :?Glusterfs 后臺進程,運行在所有Glusterfs 節(jié)點上。
DistributeVolume:?分布式卷
ReplicateVolume:?副本卷
StripeVolume:?條帶卷
DistributeReplicate Volume:?分布式副本卷
DHT=Distribute HashTable
AFR=Automatic FileReplication
SAN =?Storage AreaNetwork: 存儲區(qū)域網(wǎng)絡(luò)是一種高速網(wǎng)絡(luò)或子網(wǎng)絡(luò),提供在計算機與存儲之間的數(shù)據(jù)傳輸。
NAS = Network-attachedstorage:網(wǎng)絡(luò)附屬存儲是一種將分布、獨立的數(shù)據(jù)整合為大型、集中化管理的數(shù)據(jù)中心,以便于對不同主機和應(yīng)用服務(wù)器進行訪問的技術(shù)。
RPC =Remote ProcedureCall:?遠程過程調(diào)用
XDR =eXtern DataRepresentation: RPC?傳遞數(shù)據(jù)的格式
CLI=Command LineInterface?控制臺
argp=Argument Parser
UUID=University?UnqiueIdentifier
SVC =service
CLNT =client
MGMT=management
cbks =?Call Backs
ctx =?context
lk =?lock
attr =?attribute
txn =?transaction
rb =?replace brick
worm =?write once , readmany
系統(tǒng)配額:
1、開啟/關(guān)閉系統(tǒng)配額
| 1 | gluster?volume?quota?VOLNAME?enable/disable |
2、設(shè)置(重置)目錄配額
| 1 2 | gluster?volume?quota?VOLNAME?limit-usage?/img?limit-value gluster?volume?quota?img?limit-usage?/quota?10GB |
設(shè)置img 卷下的quota 子目錄的限額為10GB。這個目錄是以系統(tǒng)掛載目錄為根目錄”/”,所以/quota 即客戶端掛載目錄下的子目錄quota
3、配額查看
| 1 2 | gluster?volume?quota?VOLNAME?list gluster?volume?quota?VOLNAME?list |
可以使用如上兩個命令進行系統(tǒng)卷的配額查看,第一個命令查看目的卷的所有配額設(shè)置,
第二個命令則是執(zhí)行目錄進行查看。可以顯示配額大小及當(dāng)前使用容量,若無使用容量(最小0KB)則說明設(shè)置的目錄可能是錯誤的(不存在)。
?地域復(fù)制:
| 1 | gluster?volume?geo-replication?MASTER?SLAVE?start/status/stop |
?//地域復(fù)制是系統(tǒng)提供的災(zāi)備功能,能夠?qū)⑾到y(tǒng)的全部數(shù)據(jù)進行異步的增量備份到另外的磁盤中。
| 1 | gluster?volume?geo-replication?img?192.168.10.8:/data1/brick1?start |
如上,開始執(zhí)行將img 卷的所有內(nèi)容備份到10.8 下的/data1/brick1 中的task,需要注意的是,這個備份目標(biāo)不能是系統(tǒng)中的Brick。
?平衡卷:
平衡布局是很有必要的,因為布局結(jié)構(gòu)是靜態(tài)的,當(dāng)新的bricks 加入現(xiàn)有卷,新創(chuàng)建的文件會分布到舊的bricks 中,所以需要平衡布局結(jié)構(gòu),使新加入的bricks 生效。布局平衡只是使
新布局生效,并不會在新的布局移動老的數(shù)據(jù),如果你想在新布局生效后,重新平衡卷中的數(shù)據(jù),還需要對卷中的數(shù)據(jù)進行平衡。
當(dāng)你擴展或者縮小卷之后,需要重新在服務(wù)器直接重新平衡一下數(shù)據(jù),重新平衡的操作被分
為兩個步驟:
1、Fix Layout
修改擴展或者縮小后的布局,以確保文件可以存儲到新增加的節(jié)點中。
2、Migrate Data
重新平衡數(shù)據(jù)在新加入bricks 節(jié)點之后。
* Fix Layout and Migrate Data
先重新修改布局然后移動現(xiàn)有的數(shù)據(jù)(重新平衡)
| 1 2 | #?gluster?volume?rebalance?VOLNAME?fix-layout?start #?gluster?volume?rebalance?VOLNAME?migrate-data?start |
也可以兩步合一步同時操作
| 1 2 3 | #?gluster?volume?rebalance?VOLNAME?start #?gluster?volume?rebalance?VOLNAME?status?//你可以在在平衡過程中查看平衡信息 #??gluster?volume?rebalance?VOLNAME?stop?//你也可以暫停平衡,再次啟動平衡的時候會從上次暫停的地方繼續(xù)開始平衡。 |
I/O 信息查看:
Profile Command 提供接口查看一個卷中的每一個brick 的IO 信息
| 1 2 3 | #gluster?volume?profile?VOLNAME?start?//啟動profiling,之后則可以進行IO?信息查看 #gluster?volume?profile?VOLNAME?info?//查看IO?信息,可以查看到每一個Brick?的IO?信息 #gluster?volume?profile?VOLNAME?stop?//查看結(jié)束之后關(guān)閉profiling?功能 |
Top監(jiān)控:
Top command 允許你查看bricks 的性能例如:read, write, fileopen calls, file read calls, file,write calls,directory open calls, and directory real calls
所有的查看都可以設(shè)置top 數(shù),默認100
| 1 2 3 4 5 6 7 | #?gluster?volume?top?VOLNAME?open?[brick?BRICK-NAME]?[list-cnt?cnt]?//查看打開的fd #?gluster?volume?top?VOLNAME?read?[brick?BRICK-NAME]?[list-cnt?cnt]?//查看調(diào)用次數(shù)最多的讀調(diào)用 #?gluster?volume?top?VOLNAME?write?[brick?BRICK-NAME]?[list-cnt?cnt]?//查看調(diào)用次數(shù)最多的寫調(diào)用 #?gluster?volume?top?VOLNAME?opendir?[brick?BRICK-NAME]?[list-cnt?cnt]?//查看次數(shù)最多的目錄調(diào)用 #?gluster?volume?top?VOLNAME?readdir?[brick?BRICK-NAME]?[list-cnt?cnt]?//查看次數(shù)最多的目錄調(diào)用 #?gluster?volume?top?VOLNAME?read-perf?[bs?blk-size?count?count]?[brickBRICK-NAME]?[list-cnt?cnt]?//查看每個Brick?的讀性能 #?gluster?volume?top?VOLNAME?write-perf?[bs?blk-size?count?count]?[brickBRICK-NAME]?[list-cnt?cnt]?//查看每個Brick?的寫性能 |
性能優(yōu)化配置選項:
| 1 2 3 4 5 6 7 8 9 | gluster?volume?set?arch-img?cluster.min-free-disk?默認是10%?磁盤剩余告警 gluster?volume?set?arch-img?cluster.min-free-inodes?默認是5%?inodes?剩余告警 gluster?volume?set?img?performance.read-ahead-page-count?8?默認4,預(yù)讀取的數(shù)量 gluster?volume?set?img?performance.io-thread-count?16?默認16?io?操作的最大線程 gluster?volume?set?arch-img?network.ping-timeout?10?默認42s gluster?volume?set?arch-img?performance.cache-size?2GB?默認128M?或32MB, gluster?volume?set?arch-img?cluster.self-heal-daemon?on?開啟目錄索引的自動愈合進程 gluster?volume?set?arch-img?cluster.heal-timeout?300?自動愈合的檢測間隔,默認為600s?#3.4.2版本才有 gluster?volume?set?arch-img?performance.write-behind-window-size?256MB?#默認是1M?能提高寫性能單個文件后寫緩沖區(qū)的大小默認1M |
本文轉(zhuǎn)自Jacken_yang 51CTO博客,原文鏈接:http://blog.51cto.com/linuxnote/1825533,如需轉(zhuǎn)載請自行聯(lián)系原作者
總結(jié)
以上是生活随笔為你收集整理的GlusterFS架构与维护的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 仿佛的近义词
- 下一篇: 说给女朋友的感动情话 让女生感到暖心的句