大数据环境下的存储系统构建:挑战、方法和趋势
大數(shù)據(jù)環(huán)境下的存儲系統(tǒng)構(gòu)建:挑戰(zhàn)、方法和趨勢
陳游旻, 李飛, 舒繼武
清華大學(xué)計算機(jī)科學(xué)與技術(shù)系,北京 100084
摘要:互聯(lián)網(wǎng)規(guī)模的迅速擴(kuò)展促使全球數(shù)據(jù)總量呈現(xiàn)爆炸式的增長。物聯(lián)網(wǎng)、電子商務(wù)等新的應(yīng)用對數(shù)據(jù)存儲及處理的實(shí)時性提出了更高的要求,迫切需要結(jié)合新型存儲介質(zhì),以構(gòu)建大規(guī)模、高性能存儲系統(tǒng)。分別從閃存存儲、持久性內(nèi)存存儲兩種存儲系統(tǒng)構(gòu)建方案出發(fā),詳細(xì)闡述了其各自面臨的挑戰(zhàn),并總結(jié)了現(xiàn)有的解決方案。最后,展望了未來數(shù)據(jù)中心及存儲系統(tǒng)構(gòu)建的若干發(fā)展趨勢。
關(guān)鍵詞:存儲系統(tǒng) ; 閃存 ; 非易失內(nèi)存
論文引用格式:
陳游旻, 李飛, 舒繼武. 大數(shù)據(jù)環(huán)境下的存儲系統(tǒng)構(gòu)建:挑戰(zhàn)、方法和趨勢. 大數(shù)據(jù)[J], 2019, 5(4):27-40
CHEN Y M, LI F, SHU J W.Building storage systems in big data era:challenges, methods and trends. Big Data Research[J], 2019, 5(4): 27-40
1 引言
互聯(lián)網(wǎng)規(guī)模的迅速擴(kuò)張促使全球數(shù)據(jù)呈現(xiàn)爆炸式增長、海量聚集的特點(diǎn),大數(shù)據(jù)逐步走向信息化發(fā)展的新階段。近年來,社交媒體、物聯(lián)網(wǎng)等技術(shù)的迅速發(fā)展導(dǎo)致了大量非結(jié)構(gòu)化數(shù)據(jù)的出現(xiàn),從海量數(shù)據(jù)中提取有價值信息的難度越來越大。因此,大數(shù)據(jù)不止更“大”,還要更“快”?;趥鹘y(tǒng)磁盤的大數(shù)據(jù)平臺已經(jīng)難以應(yīng)對新應(yīng)用日益增長的數(shù)據(jù)存儲與處理需求,大數(shù)據(jù)技術(shù)正在發(fā)生著以下變化。
閃存(flash memory)逐漸替代磁盤,用于構(gòu)建大規(guī)模存儲系統(tǒng)。在存儲系統(tǒng)中,磁盤自1956年被發(fā)明以來,長期居于外存的主導(dǎo)地位。近年來,隨著閃存制造與加工工藝的逐漸成熟,閃存設(shè)備已經(jīng)開始在個人電腦與移動設(shè)備上得到普及,并將在數(shù)據(jù)中心得到大規(guī)模的應(yīng)用。據(jù)標(biāo)準(zhǔn)性能評估組織(Standard Performance Evaluation Corporation,SPEC)調(diào)查,閃存設(shè)備在數(shù)據(jù)中心的使用比例從2012年的8%增長到了2017年的27%,預(yù)計到2020年,閃存設(shè)備的使用比例將達(dá)到47%。2018年,英特爾公司推出了基于4層單元(quad-level cell,QLC)和三維堆疊技術(shù)的消費(fèi)級固態(tài)盤(solid state drive, SSD),在實(shí)現(xiàn)高性能、高可靠性的同時,進(jìn)一步降低了固態(tài)盤的價格,提供了更大的存儲容量。與磁盤相比,閃存具有體積小、能耗低、帶寬高、時延低、抗震性強(qiáng)、可靠性高等特點(diǎn)。正因為如此,研究人員著力于構(gòu)建大規(guī)模閃存存儲系統(tǒng),以充分發(fā)揮閃存優(yōu)勢,適應(yīng)大數(shù)據(jù)環(huán)境的發(fā)展,如清華大學(xué)提出構(gòu)建開放通道閃存系統(tǒng)等。閃存存儲正發(fā)生著巨大變革。
隨著內(nèi)存價格的日益低廉,內(nèi)存計算逐步成為人們關(guān)注的熱點(diǎn)。電子商務(wù)、物聯(lián)網(wǎng)、自動駕駛等應(yīng)用對數(shù)據(jù)管理的時效性提出了新的需求。例如,一個典型的網(wǎng)頁服務(wù)需要在數(shù)毫秒之內(nèi)訪問數(shù)據(jù)倉庫數(shù)千次,用于響應(yīng)單個用戶請求。內(nèi)存計算依靠大容量內(nèi)存,將待處理數(shù)據(jù)盡可能地全部放入內(nèi)存中,從而實(shí)現(xiàn)高吞吐、高時效的數(shù)據(jù)存儲與處理。然而,動態(tài)隨機(jī)存取存儲器(dynamic random access memory, DRAM)價格昂貴、能耗高、性能不穩(wěn)定等缺陷,限制了內(nèi)存計算被更廣泛地應(yīng)用。近年來出現(xiàn)了大量的新型非易失性隨機(jī)存儲介質(zhì)(non-volatile memory, NVM),例如相變存儲器(phase change memory,PCM)、阻變存儲器(resistive ramdom-access memory,ReRAM)等,它們具有價格低廉、容量大、能耗低、性能與DRAM相當(dāng)?shù)忍攸c(diǎn),更重要的是,在系統(tǒng)發(fā)生斷電故障時,其存儲的數(shù)據(jù)不會丟失。這些優(yōu)良的特性正推動著研究人員構(gòu)建基于持久性內(nèi)存的內(nèi)存計算平臺,如惠普實(shí)驗室推出的The Machine、加州大學(xué)伯克利分校的FireBox等,內(nèi)存存儲與計算正面臨著巨大變革。
針對大數(shù)據(jù)存儲技術(shù)面臨的巨大變革,本文將從閃存存儲、持久性內(nèi)存存儲兩種存儲系統(tǒng)構(gòu)建方案出發(fā),詳細(xì)闡述其各自面臨的挑戰(zhàn)以及解決方案,最后,展望未來數(shù)據(jù)中心及存儲系統(tǒng)構(gòu)建的若干發(fā)展趨勢。
2 告別硬盤:閃存存儲系統(tǒng)的構(gòu)建
存儲設(shè)備從機(jī)械式部件發(fā)展至電子式部件是計算機(jī)發(fā)展中的重大變革,也是計算機(jī)發(fā)展的趨勢。表1比較了當(dāng)前磁盤設(shè)備與閃存設(shè)備的存儲性能。與磁盤設(shè)備相比,閃存設(shè)備帶寬提高了1個數(shù)量級,時延降低了2個數(shù)量級,每秒的輸入輸出次數(shù)(input/output operations per second, IOPS)提高了近3個數(shù)量級。當(dāng)前存儲系統(tǒng)多基于磁盤特性進(jìn)行設(shè)計,極少考慮其他存儲介質(zhì)的特性。隨著閃存技術(shù)的廣泛應(yīng)用,如何在大數(shù)據(jù)環(huán)境下高效利用閃存并構(gòu)建適合于閃存的存儲系統(tǒng),值得關(guān)注與深入思考。
2.1 閃存與固態(tài)盤
閃存是一種電子式、可擦除、可編程、非易失的存儲器件。與機(jī)械式的磁盤相比,閃存具有體積小、能耗低、帶寬高、時延低、抗震性強(qiáng)、可靠性高等特點(diǎn)。在大容量固態(tài)盤中,NAND閃存是主要的存儲介質(zhì),分為單層單元(single-level cell,SLC)、多層單元(multi-level cell, MLC)、3層單元(triple-level cell,TLC)與QLC,分別表示每個閃存單元記錄1個、2個、3個和4個比特數(shù)。相比于傳統(tǒng)磁盤介質(zhì),閃存主要具有以下幾個獨(dú)特性質(zhì)。
● 寫前擦除。閃存單元具有單向可編程的特性,對于閃存頁的寫入操作,閃存需要將數(shù)據(jù)寫入已擦除的頁面中,這被稱為寫前擦除,也被稱為不可覆蓋寫。
● 讀寫擦粒度不同。在閃存設(shè)備中,閃存頁是執(zhí)行讀寫操作的基本單位,閃存塊是執(zhí)行擦除操作的基本單位。一個閃存頁的容量一般為512 B~16 KB,一個閃存塊中一般包含64~512個閃存頁。此外,閃存設(shè)備的讀、寫、擦除操作的性能不同,閃存頁的讀操作平均時延為25 ms、寫操作平均時延為200 ms,閃存塊的擦除操作平均時延為1.5 ms。
● 磨損壽命有限(耐久性)。閃存單元能承受的擦寫操作次數(shù)有限。經(jīng)過一定數(shù)量的擦寫操作后,閃存單元不能可靠地存儲數(shù)據(jù)狀態(tài),這一過程被稱為單元磨損。閃存單元經(jīng)歷的擦寫次數(shù)用于衡量閃存的擦寫壽命,也被稱為耐久性(endurance)。隨著閃存單元中比特位的增加(從SLC到QLC),閃存設(shè)備的每比特價格在降低,耐久性問題更加嚴(yán)峻。
固態(tài)盤是由閃存存儲單元組成的閃存存儲設(shè)備,其內(nèi)部存在不同級別的I/O并發(fā)訪問能力,被稱為內(nèi)部并發(fā)特性。SSD采用閃存轉(zhuǎn)換層(flash translation layer, FTL)對閃存的讀寫擦操作進(jìn)行管理,并向軟件系統(tǒng)提供與傳統(tǒng)磁盤相同的讀寫接口,其主要功能包括地址映射、垃圾回收、磨損均衡、ECC校驗、壞塊管理等。地址映射機(jī)制維護(hù)了一個地址映射表,用于將主機(jī)端I/O請求的邏輯地址映射到閃存設(shè)備中的物理地址。由于閃存具有“寫前擦除”的特性,FTL采用“異地更新”的方式對數(shù)據(jù)進(jìn)行更新。FTL將新版本的數(shù)據(jù)通過地址映射寫入空閑的閃存頁中,并將存有舊版本數(shù)據(jù)的閃存頁標(biāo)記為無效。當(dāng)SSD中的空閑閃存塊數(shù)量低于預(yù)定義的閾值時,FTL會對SSD進(jìn)行垃圾回收操作。在FTL的垃圾回收過程中,有效數(shù)據(jù)的移動引入了額外的寫入量,占用了閃存設(shè)備的有效帶寬,加快了設(shè)備的磨損,這一問題被稱為閃存設(shè)備的寫放大問題。為了延長閃存設(shè)備的使用壽命,FTL采用動態(tài)或靜態(tài)的磨損均衡策略,盡量使擦寫操作均勻地分布在所有的閃存塊上。在SSD中,每個閃存頁除了數(shù)據(jù)區(qū)外,還保留一塊帶外空間(out of band,OOB),利用OOB對閃存頁中存儲的數(shù)據(jù)進(jìn)行錯誤檢查與糾正(error correcting code,ECC)。當(dāng)某個閃存塊無法可靠地保存數(shù)據(jù)時,FTL會將該塊標(biāo)記為壞塊,不再使用。
2.2 閃存固態(tài)盤存儲系統(tǒng)的問題
在FTL的幫助下,現(xiàn)有的存儲系統(tǒng)可以無縫地運(yùn)行在具有FTL的SSD之上,無須進(jìn)行軟件的修改?;陂W存固態(tài)盤的存儲系統(tǒng)架構(gòu)如圖1所示。
圖1???基于閃存固態(tài)盤的存儲系統(tǒng)架構(gòu)
SSD通過串行高級技術(shù)附件(serial advanced technology attachment, SATA)、高速串行計算機(jī)擴(kuò)展總線標(biāo)準(zhǔn)(peripheral component interconnect express,PCIe)或非易失性內(nèi)存主機(jī)控制器接口規(guī)范(non-volatile memory express,NVMe)硬件接口與主機(jī)端連接,將自身抽象成通用塊設(shè)備供上層存儲軟件使用;內(nèi)核中的文件系統(tǒng)運(yùn)行在抽象出的塊設(shè)備之上,并向用戶態(tài)的應(yīng)用程序(例如數(shù)據(jù)庫)提供文件訪問接口;FTL負(fù)責(zé)對閃存設(shè)備的特性進(jìn)行管理,并將上層存儲軟件的I/O請求轉(zhuǎn)換成對閃存頁的讀、寫操作。FTL的應(yīng)用加速了閃存設(shè)備的普及與推廣,但也阻礙了現(xiàn)有存儲系統(tǒng)發(fā)揮閃存設(shè)備在性能、壽命上的潛力,主要體現(xiàn)在以下幾個方面。
● 層次間功能存在重疊與干擾。如圖1所示,閃存固態(tài)盤存儲系統(tǒng)中不同層次間存在功能冗余的問題,例如,在 FTL、文件系統(tǒng)與上層數(shù)據(jù)庫中都存在存儲空間管理、數(shù)據(jù)地址映射或索引、垃圾回收等類似功能。這些冗余功能不僅會導(dǎo)致I/O處理上的低效,還會互相干擾,影響系統(tǒng)的性能和閃存設(shè)備的使用壽命。
● 系統(tǒng)軟件無法感知閃存特性。FTL將閃存設(shè)備抽象成通用塊設(shè)備,導(dǎo)出到主機(jī)端,屏蔽了上層存儲軟件對閃存設(shè)備特性的感知,阻礙了存儲軟件的定向優(yōu)化?,F(xiàn)有的存儲軟件是基于磁盤設(shè)備進(jìn)行設(shè)計與優(yōu)化的,不能充分發(fā)揮閃存設(shè)備的優(yōu)勢,也無法彌補(bǔ)閃存設(shè)備的劣勢。
● 硬件管理缺乏軟件語義。上層存儲軟件通過FTL導(dǎo)出到塊設(shè)備接口,將I/O請求發(fā)送到SSD上。塊設(shè)備接口屏蔽了上層存儲軟件的語義信息,導(dǎo)致FTL在請求處理上效率低、產(chǎn)生額外的垃圾回收開銷與寫放大。例如,FTL在為寫請求分配閃存物理空間時,由于缺乏寫入數(shù)據(jù)的屬性(如元數(shù)據(jù)或文件數(shù)據(jù))與熱度信息,無法有效地對寫入數(shù)據(jù)進(jìn)行布局優(yōu)化。冷熱數(shù)據(jù)可能會被分配到同一個物理閃存塊中,導(dǎo)致垃圾回收的開銷增大。
2.3 基于開放通道閃存設(shè)備的存儲系統(tǒng)構(gòu)建方法
近年來,一種新型閃存架構(gòu)——開放通道(open channel)閃存架構(gòu)得到了工業(yè)界與學(xué)術(shù)界的廣泛關(guān)注,為解決閃存固態(tài)盤存儲系統(tǒng)面臨的問題提供了思路。如圖2所示,開放通道閃存架構(gòu)在SSD的基礎(chǔ)上,移除了設(shè)備端FTL,消除了閃存固態(tài)盤存儲系統(tǒng)中的功能冗余。開放通道閃存架構(gòu)將閃存設(shè)備的內(nèi)部信息(如設(shè)備的硬件拓?fù)浣Y(jié)構(gòu)、閃存通道數(shù)量、閃存塊大小、閃存頁長度等)與控制接口(如讀操作、寫操作、擦除操作等)全部導(dǎo)出到主機(jī)端,由存儲軟件直接對閃存設(shè)備進(jìn)行管理,打破了原有的感知屏蔽與語義隔離。存儲軟件能夠根據(jù)自身的I/O特征與閃存特性進(jìn)行軟硬件協(xié)同設(shè)計與優(yōu)化,充分發(fā)揮閃存設(shè)備的性能潛力,降低了設(shè)備的磨損。
圖2???閃存設(shè)備架構(gòu)比較
開放通道閃存架構(gòu)對云計算與數(shù)據(jù)中心具有重要意義。通過使用開放通道閃存設(shè)備,上層軟件能夠?qū)崿F(xiàn)閃存通道級別的I/O隔離與并發(fā)控制,能夠?qū)υO(shè)備內(nèi)的垃圾回收時機(jī)進(jìn)行控制,能夠?qū)﹂W存通道中的I/O請求按照語義優(yōu)先級進(jìn)行調(diào)度。開放通道閃存架構(gòu)的這些優(yōu)勢能夠幫助存儲系統(tǒng)實(shí)現(xiàn)可預(yù)測的I/O時延,降低分布式系統(tǒng)中的尾延遲(tail latency),優(yōu)化云計算環(huán)境中的服務(wù)質(zhì)量(quality of service,QoS)。目前,百度公司已經(jīng)在其存儲系統(tǒng)中部署了超過3 000塊的開放通道SSD,用于網(wǎng)頁和圖像的存儲服務(wù);阿里巴巴公司發(fā)布了自研的開放通道閃存設(shè)備AliFlash V3,并已經(jīng)上線運(yùn)行;谷歌、微軟、臉書以及亞馬遜都開始在數(shù)據(jù)中心應(yīng)用開放通道閃存設(shè)備,以降低I/O時延,提高服務(wù)質(zhì)量。
雖然開放通道閃存架構(gòu)具有上述優(yōu)點(diǎn),但是它也給存儲系統(tǒng)的設(shè)計帶來了挑戰(zhàn)。首先,開放通道閃存設(shè)備的接口與塊設(shè)備不同,它不兼容現(xiàn)有的基于塊設(shè)備設(shè)計的存儲軟件與內(nèi)核I/O棧(如緩存機(jī)制、I/O調(diào)度機(jī)制等);其次,因為開放通道閃存設(shè)備移除了設(shè)備端的FTL,所以上層的存儲軟件需要對閃存設(shè)備的底層功能進(jìn)行管理,例如壞塊管理、磨損均衡、ECC校驗等,這在一定程度上增加了存儲軟件的設(shè)計復(fù)雜度;最后,開放通道閃存設(shè)備導(dǎo)出的硬件信息與控制接口為存儲系統(tǒng)的設(shè)計與優(yōu)化帶來了新的思考維度,例如,如何降低閃存設(shè)備的軟件管理開銷、如何充分發(fā)揮閃存設(shè)備的內(nèi)部并發(fā)性能、如何將軟件的I/O特征與閃存的特性結(jié)合、如何利用閃存的特性對現(xiàn)有的存儲機(jī)制進(jìn)行優(yōu)化等。下面分別從閃存管理架構(gòu)、文件系統(tǒng)、鍵值存儲系統(tǒng)、分布式對象存儲系統(tǒng)等方面介紹開放通道閃存存儲系統(tǒng)的構(gòu)建方法。
(1)閃存管理架構(gòu)
由于開放通道閃存設(shè)備移除了設(shè)備端的FTL,主機(jī)端軟件需要對閃存設(shè)備的內(nèi)部特性進(jìn)行管理,例如磨損均衡、壞塊管理等,這增加了存儲軟件的設(shè)計復(fù)雜度?,F(xiàn)有的主機(jī)端閃存管理架構(gòu)存在著接口功能單一、適用場景受限、不兼容現(xiàn)有的存儲軟件棧等問題,限制了軟件的優(yōu)化空間與開放通道閃存設(shè)備的應(yīng)用范圍。針對上述問題,可以在主機(jī)端對閃存設(shè)備的管理功能進(jìn)行分解,提供對開放通道閃存設(shè)備的底層管理與設(shè)備抽象,以降低上層存儲系統(tǒng)的設(shè)計復(fù)雜度;設(shè)計細(xì)粒度(如頁粒度)的閃存控制接口,以擴(kuò)大存儲軟件的優(yōu)化空間和設(shè)備的適用場景。除此之外,還可以在該架構(gòu)的基礎(chǔ)上設(shè)計實(shí)現(xiàn)主機(jī)端閃存轉(zhuǎn)換層,為開放通道閃存設(shè)備提供塊存儲的支持。
(2)文件系統(tǒng)
由于FTL的屏蔽,基于固態(tài)盤的文件系統(tǒng)無法感知底層閃存設(shè)備的耐久性、內(nèi)部并發(fā)特性等,不僅不能針對閃存特性進(jìn)行定向優(yōu)化,功能上的冗余與沖突甚至?xí)?dǎo)致額外的垃圾回收開銷和寫放大問題。針對上述問題,基于開放通道架構(gòu),移除設(shè)備內(nèi)FTL,將原有FTL功能集成到文件系統(tǒng)的存儲管理部分,由文件系統(tǒng)直接管理閃存介質(zhì),消除功能上的冗余和沖突??紤]到閃存耐久性,根據(jù)對象語義與閃存特性重新設(shè)計存儲機(jī)制,包括:利用閃存頁的OOB記錄反向索引等額外信息,以延緩索引與日志的刷寫;利用閃存塊/頁狀態(tài)轉(zhuǎn)換的特性設(shè)計空閑空間管理機(jī)制;對不對齊的寫操作采用拼接緊湊寫的機(jī)制等。這樣的設(shè)計能大幅降低由文件系統(tǒng)自身機(jī)制引入的額外元數(shù)據(jù)寫入,相比于傳統(tǒng)文件系統(tǒng),能顯著降低文件系統(tǒng)寫放大系數(shù),提升系統(tǒng)性能,延長閃存壽命。針對發(fā)揮閃存內(nèi)部并發(fā)特性與文件系統(tǒng)管理機(jī)制存在沖突的問題,采用日志式結(jié)構(gòu)將文件系統(tǒng)中的數(shù)據(jù)分段與閃存物理塊對應(yīng)。在空間分配上采用二維分配機(jī)制,綜合考慮設(shè)備的并發(fā)特性和數(shù)據(jù)冷熱程度,在發(fā)揮閃存設(shè)備并發(fā)特性的同時保證冷熱程度不同的數(shù)據(jù)相互隔離。另外,利用文件系統(tǒng)的語義信息直接對閃存塊進(jìn)行垃圾回收,在文件系統(tǒng)層為每個閃存通道的I/O請求進(jìn)行優(yōu)化調(diào)度。這樣的設(shè)計能充分發(fā)揮閃存的內(nèi)部并發(fā)特性,顯著提升系統(tǒng)的整體性能,并且能較好地控制系統(tǒng)的性能抖動問題。
(3)鍵值存儲系統(tǒng)
在閃存固態(tài)盤上,采用日志合并樹(log-structured merge tree,LSM-tree)的鍵值存儲系統(tǒng)存在三重的功能冗余,這不僅降低了系統(tǒng)的I/O處理效率,影響系統(tǒng)性能,冗余功能間的相互干擾還會導(dǎo)致嚴(yán)重的寫放大問題。同時,閃存設(shè)備與LSM-tree的特性沒有得到充分的利用與針對性的優(yōu)化,阻礙了閃存與LSMtree性能的發(fā)揮。針對上述問題,基于開放通道閃存架構(gòu),利用LSM-tree日志式更新的特征,在用戶態(tài)直接對開放通道閃存設(shè)備進(jìn)行管理,繞過文件系統(tǒng)與FTL,消除原有架構(gòu)中的多重功能冗余與語義隔離。在此基礎(chǔ)上,根據(jù)閃存設(shè)備的硬件特性與LSM-tree的讀寫特征,對鍵值存儲系統(tǒng)的存儲機(jī)制進(jìn)行軟硬件的協(xié)同設(shè)計與定向優(yōu)化。采用基于“超級塊”的空間管理機(jī)制,降低文件索引的開銷;采用可重建的靜態(tài)數(shù)據(jù)布局機(jī)制,在發(fā)揮閃存內(nèi)部并發(fā)性能的同時,保證了系統(tǒng)故障后的一致性;采用動態(tài)并發(fā)的壓縮機(jī)制,通過限制后臺寫請求的并發(fā)度以降低對前臺讀請求的干擾。進(jìn)一步地,根據(jù)軟件的語義信息對用戶態(tài)I/O棧機(jī)制(如緩存機(jī)制、I/O調(diào)度機(jī)制等)進(jìn)行定向優(yōu)化。
(4)分布式對象存儲系統(tǒng)
在基于閃存固態(tài)盤的分布式對象存儲系統(tǒng)中,對象存儲需要使用日志機(jī)制保證數(shù)據(jù)更新的一致性,這種“兩遍寫”的一致性保障機(jī)制不僅影響了系統(tǒng)的性能,還增加了系統(tǒng)的寫放大系數(shù)。閃存設(shè)備的異地更新特性天然地保存了數(shù)據(jù)的多副本,但是現(xiàn)有的閃存事務(wù)機(jī)制在對象事務(wù)的一致性更新時會產(chǎn)生很大的開銷,不適用于分布式對象存儲的場景。針對上述問題,基于開放通道閃存架構(gòu),根據(jù)對象和事務(wù)的語義與閃存異地更新的特性,設(shè)計適用于分布式對象存儲特性的高效閃存事務(wù)機(jī)制,利用閃存設(shè)備的異地更新特性與帶外存儲空間,可為對象數(shù)據(jù)及其相關(guān)元數(shù)據(jù)提供低開銷的一致性更新保障。在此基礎(chǔ)上,使用多線程將沒有依賴關(guān)系的事務(wù)并行提交到物理隔離的閃存塊中,在發(fā)揮閃存設(shè)備內(nèi)部并發(fā)性能的同時,降低事務(wù)間的干擾。通過感知事務(wù)的語義,對各個閃存通道上的I/O請求執(zhí)行順序進(jìn)行協(xié)調(diào),將屬于同一個事務(wù)的I/O請求在同一時段進(jìn)行處理,降低系統(tǒng)的平均響應(yīng)時延。
2.4 小結(jié)
隨著大數(shù)據(jù)環(huán)境下海量數(shù)據(jù)存取對容量與實(shí)時性要求的不斷提高,研究者也不斷地尋求機(jī)會突破外存帶來的性能瓶頸。從磁盤到閃存固態(tài)盤,實(shí)現(xiàn)了從機(jī)械式到電子式的跨越;從閃存固態(tài)盤設(shè)備到開放通道閃存設(shè)備,則從軟硬件協(xié)同設(shè)計的存儲架構(gòu)的角度,創(chuàng)造性地提出了閃存存儲系統(tǒng)構(gòu)建的新思路。上述系統(tǒng)構(gòu)建的經(jīng)驗表明,基于開放通道閃存設(shè)備的存儲系統(tǒng)能夠結(jié)合閃存設(shè)備的物理特性消除傳統(tǒng)固態(tài)盤層次間的功能冗余,打破了語義隔離,在提高系統(tǒng)性能的同時增加閃存使用壽命。
3 不止更快:持久性內(nèi)存存儲系統(tǒng)構(gòu)建
本節(jié)首先以英特爾公司推出的Optane持久性內(nèi)存(Optane DC persistent memory)為例,介紹NVM的相關(guān)特性,然后闡述基于非易失內(nèi)存構(gòu)建存儲系統(tǒng)時面臨的問題,最后介紹基于非易失內(nèi)存構(gòu)建本地和分布式存儲系統(tǒng)的設(shè)計方法。
3.1 非易失內(nèi)存
英特爾公司于2019年4月正式發(fā)布Optane持久性內(nèi)存,這是一款大規(guī)模量產(chǎn)的非易失內(nèi)存設(shè)備。Optane持久性內(nèi)存可以像DRAM一樣,直接通過內(nèi)存接口與CPU互連,并被CPU以字節(jié)粒度訪問。目前,英特爾公司已經(jīng)推出3款相關(guān)產(chǎn)品,其單條容量分別為128 GB、256 GB和512 GB。Optane持久性內(nèi)存有兩種操作模式,分別為內(nèi)存模式(memory mode)和應(yīng)用直訪模式(application direct mode)。用戶可以靈活地將Optane持久性內(nèi)存設(shè)置為不同的操作模式,以滿足不同應(yīng)用程序的性能需求。在內(nèi)存模式下,將DRAM用作Optane持久性內(nèi)存的緩存,從而大幅擴(kuò)展了內(nèi)存容量。上述緩存管理模式完全由內(nèi)存控制器接管,因此,內(nèi)存模式對操作系統(tǒng)完全透明,上層應(yīng)用程序在不做出任何修改的情況下可以享受大容量內(nèi)存帶來的性能優(yōu)勢。在應(yīng)用直訪模式下,操作系統(tǒng)將DRAM和Optane持久性內(nèi)存看作兩個彼此獨(dú)立的內(nèi)存池,應(yīng)用程序具有直接管理Optane的能力。該模式精簡了軟硬件棧的復(fù)雜度,應(yīng)用程序可以按照各自的需求優(yōu)化持久性內(nèi)存的使用方法,以獲取更優(yōu)的性能,與此同時,也為相應(yīng)的系統(tǒng)軟件開發(fā)帶來了更大的難度。據(jù)英特爾公司稱, SAP HANA引入Optane持久性內(nèi)存后,能夠?qū)⑾到y(tǒng)重啟速度提升13倍,并節(jié)省39%的成本。
加利福尼亞大學(xué)圣地亞哥分校也在Optane持久性內(nèi)存發(fā)布的第一時間公布了其詳細(xì)的測試報告。該測試報告列舉了Optane持久性內(nèi)存的基礎(chǔ)性能參數(shù)以及在內(nèi)存模式和應(yīng)用直訪模式下的性能測試結(jié)果。該報告顯示,Optane持久性內(nèi)存的隨機(jī)讀時延為305 ns,這相比于傳統(tǒng)的SSD具有兩個數(shù)量級的改觀,但時延仍比DRAM長3倍。同時,Optane對訪問模式較敏感,在順序訪問時,讀時延僅比DRAM長兩倍。另外,Optane具有不對稱的讀寫帶寬:其最大讀帶寬可以達(dá)到39.4 GB/s,并能隨著線程數(shù)量的增加而擴(kuò)展,然而,其最大寫帶寬僅為13.9 GB/s, 4個線程就能占滿Optane持久性內(nèi)存的寫帶寬。
3.2 非易失內(nèi)存在實(shí)際應(yīng)用中面臨的挑戰(zhàn)
現(xiàn)有的計算機(jī)體系結(jié)構(gòu)均包含了多種存儲介質(zhì),例如CPU中的寄存器和多級緩存、DRAM主存、固態(tài)硬盤、磁盤等,這些存儲介質(zhì)的特點(diǎn)是容量越大,速度越慢,距離CPU越遠(yuǎn),這種存儲結(jié)構(gòu)被稱為“金字塔”存儲。Optane持久性內(nèi)存作為一種全新的存儲介質(zhì),其性能接近于DRAM,且提供了持久性數(shù)據(jù)存儲,因此,Optane不屬于現(xiàn)有的金字塔存儲的任何一個層級。Optane持久性內(nèi)存硬件上的變化為存儲系統(tǒng)軟件的設(shè)計帶來了一系列新的問題。
(1)一致性管理開銷高
非易失內(nèi)存提供了主存層次的數(shù)據(jù)持久性,而處理器的片上緩存系統(tǒng)依舊是易失性的,系統(tǒng)故障可能導(dǎo)致非易失主存上的數(shù)據(jù)處于不一致的中間狀態(tài)。目前的64位機(jī)器僅支持8 byte的數(shù)據(jù)原子寫入操作,系統(tǒng)設(shè)計者需要額外的日志機(jī)制保證數(shù)據(jù)的一致性,即在修改某數(shù)據(jù)之前,先將新版本或舊版本的數(shù)據(jù)寫到日志區(qū),作為備份用于故障后的數(shù)據(jù)恢復(fù)。然而,非易失內(nèi)存具有讀寫不對稱的特性,寫操作帶寬嚴(yán)重受限,因此日志機(jī)制會引入極高的持久化開銷。此外,處理器緩存由硬件管理控制,大多數(shù)現(xiàn)代處理器會對主存寫操作進(jìn)行重排序以提升性能,這些優(yōu)化手段會打亂數(shù)據(jù)持久化到非易失內(nèi)存的順序,在系統(tǒng)故障時可能導(dǎo)致數(shù)據(jù)不一致的問題。因此,系統(tǒng)設(shè)計者需要通過額外的硬件刷寫指令(如clflush、clflushopt等)按順序強(qiáng)制實(shí)現(xiàn)數(shù)據(jù)的持久化。然而,這些硬件刷寫指令開銷極高。參考文獻(xiàn)指出,隨著NVM的發(fā)展,預(yù)計存儲系統(tǒng)的軟件開銷占比將高達(dá)94.09%。
(2)低效的操作系統(tǒng)抽象
操作系統(tǒng)將應(yīng)用程序進(jìn)行隔離,運(yùn)行在用戶態(tài),而讓內(nèi)核服務(wù)程序運(yùn)行在具有更高權(quán)限的內(nèi)核態(tài),用于硬件管理和抽象。應(yīng)用程序通過系統(tǒng)調(diào)用訪問內(nèi)核服務(wù)程序(如文件系統(tǒng)等),進(jìn)而與硬件設(shè)備進(jìn)行交互,通過這種抽象機(jī)制,不同的應(yīng)用程序彼此隔離,從而提供了更高的安全性。然而,系統(tǒng)調(diào)用過程將會引發(fā)一系列的現(xiàn)場保存與恢復(fù)、緩存逐出等額外開銷,這使得在內(nèi)核態(tài)管理持久性內(nèi)存的開銷變得更多。另外,通過內(nèi)核態(tài)文件系統(tǒng)管理持久性內(nèi)存空間時,Linux內(nèi)核還在文件系統(tǒng)之上統(tǒng)一抽象了一層虛擬文件系統(tǒng)(virtual file system,VFS),在該層次,操作系統(tǒng)增加了粗粒度的鎖管理機(jī)制和DRAM緩存系統(tǒng)。由于持久性內(nèi)存和DRAM具有非常接近的性能,因此DRAM緩存不能再像在傳統(tǒng)外存中一樣發(fā)揮作用,進(jìn)而在性能和擴(kuò)展性上對文件系統(tǒng)的高效性產(chǎn)生極大的制約。
(3)分布式軟件棧臃腫
為兼顧兼容性,現(xiàn)有的大多數(shù)分布式系統(tǒng)軟件采用了模塊化的設(shè)計,將分布式軟件部署在本地文件系統(tǒng)之上。這種架構(gòu)方式會引入一系列的冗余復(fù)制操作。例如,在應(yīng)用程序讀取數(shù)據(jù)時,數(shù)據(jù)需要從本地文件系統(tǒng)鏡像分別復(fù)制到內(nèi)核頁緩存、網(wǎng)絡(luò)軟件棧、用戶態(tài)緩沖區(qū)等位置。另外,現(xiàn)有的軟件系統(tǒng)大多采用傳統(tǒng)的中斷機(jī)制,以響應(yīng)用戶請求,這種方式的時延一般在微秒甚至毫秒級,過于低效。
綜上,簡單地將現(xiàn)有的存儲軟件部署到持久性內(nèi)存上,并不能充分發(fā)揮其硬件特性,甚至有可能導(dǎo)致軟件錯誤、數(shù)據(jù)不可恢復(fù)等新的問題。因此,系統(tǒng)設(shè)計者必須充分了解持久性內(nèi)存的性能和硬件特性,針對性地設(shè)計適合于持久性內(nèi)存的存儲系統(tǒng)軟件。
3.3 持久性內(nèi)存的存儲系統(tǒng)構(gòu)建方法
本節(jié)將分別從持久性內(nèi)存的數(shù)據(jù)一致性管理機(jī)制、持久性內(nèi)存文件系統(tǒng)、持久性內(nèi)存的分布式存儲系統(tǒng)構(gòu)建3個方面闡述存儲系統(tǒng)構(gòu)建中的設(shè)計方法以及如何應(yīng)對這3個方面的挑戰(zhàn)。
3.3.1 新型數(shù)據(jù)一致性管理機(jī)制
為避免傳統(tǒng)日志機(jī)制引入的額外開銷,需要設(shè)計全新的面向非易失內(nèi)存的數(shù)據(jù)管理方式。本節(jié)主要從軟件和硬件的角度,分別闡述降低順序性和一致性開銷的優(yōu)化策略。其中,順序性開銷是指處理器數(shù)據(jù)根據(jù)數(shù)據(jù)依賴關(guān)系有序地持久化到非易失內(nèi)存中的開銷,而持久性開銷指的是數(shù)據(jù)從多級易失性處理器緩存替換到非易失內(nèi)存過程中可能存在的冗余持久化開銷。
(1)降低順序性開銷的方法
大量研究工作通過在處理器緩存中以硬件的方式提供順序性的支持,從而降低軟件顯式順序性的開銷。微軟研究院在處理器緩存中增加新的原語指令,該方法可以將程序劃分成多個執(zhí)行單元,這種機(jī)制保證了不同執(zhí)行單元之間依舊遵循持久化順序約束,而每個執(zhí)行單元內(nèi)部可以對寫操作進(jìn)行重排序,從而提升性能。英特爾公司于2014年設(shè)計了新的擴(kuò)展指令,其中,clwb指令既能避免持久化指令之間的依賴關(guān)系,又可以避免寫回的緩存行數(shù)據(jù)失效,從而使得持久化的數(shù)據(jù)依舊供后續(xù)訪問繼續(xù)使用,減少緩存缺失操作帶來的性能影響。當(dāng)上層應(yīng)用需要保證持久化操作的順序時,它們可以通過內(nèi)存屏障指令(例如mfence)控制持久化操作的順序。
(2)降低持久性開銷的方法
部分做法是設(shè)想處理器緩存的部分或所有層次采用非易失性存儲器,從而縮短持久化路徑,降低持久化開銷。微軟研究院提出了全系統(tǒng)持久化(whole system persistence,WSP)技術(shù),使所有處理器緩存均采用非易失存儲器,并采用后備電源的方式保證在系統(tǒng)掉電后總線上的數(shù)據(jù)傳輸。在軟件方面,清華大學(xué)設(shè)計了BPPM,由于日志保證了已經(jīng)提交的數(shù)據(jù)的持久性,因此在將數(shù)據(jù)寫回數(shù)據(jù)區(qū)的過程中,數(shù)據(jù)無須立即持久化,只有當(dāng)日志空間不足時,才將緩存在DRAM中的數(shù)據(jù)持久化到非易失內(nèi)存中,從而減少了持久化帶來的時延。
3.3.2 更精簡的持久性內(nèi)存文件系統(tǒng)
文件系統(tǒng)是操作系統(tǒng)中最基礎(chǔ)的模塊,也是存儲系統(tǒng)中應(yīng)用較廣泛的抽象模式。它將設(shè)備存儲空間以文件的形式組織為可索引的文件目錄樹,從而方便用戶存取數(shù)據(jù)。為兼顧現(xiàn)有的應(yīng)用程序,將非易失內(nèi)存通過文件系統(tǒng)進(jìn)行組織。一種便捷的方式是直接使用現(xiàn)有的外存文件系統(tǒng)管理持久性內(nèi)存空間。例如,通過虛擬內(nèi)存盤(RAMDISK)將非易失內(nèi)存抽象成塊設(shè)備,這樣現(xiàn)有的外存文件系統(tǒng)(如EXT4、XFS、BtrFS等)均可直接部署在該塊設(shè)備上。這種途徑無須對文件系統(tǒng)做出任何修改,這使得傳統(tǒng)文件系統(tǒng)可以快速獲取大幅的性能提升。
然而,上述方法的缺陷是軟件層次開銷大,無法充分利用非易失內(nèi)存的優(yōu)勢。近年來,已經(jīng)有大量的工作專門針對持久性內(nèi)存設(shè)計新的文件系統(tǒng)。本節(jié)將從移除DRAM緩存、構(gòu)建用戶態(tài)文件系統(tǒng)兩個方面闡述對文件系統(tǒng)進(jìn)行的相關(guān)優(yōu)化。
(1)移除DRAM緩存
Linux內(nèi)核中現(xiàn)有的文件系統(tǒng)模塊均為外存設(shè)計,為了提升性能,VFS專門管理了一部分DRAM空間,用于緩存最近訪問的文件數(shù)據(jù)。然而,NVM具有與DRAM接近的性能,因此,DRAM緩存不再具有緩存效果,相反地,還引入了額外的內(nèi)存復(fù)制,嚴(yán)重影響性能。針對這個問題,EXT4、BtrFS等傳統(tǒng)的文件系統(tǒng)均兼容了直接訪問(direct access,DAX)模式。通過這種方法,應(yīng)用程序可以直接訪問非易失內(nèi)存中存儲的文件數(shù)據(jù),而不需要將數(shù)據(jù)復(fù)制到DRAM緩存空間中。針對非易失內(nèi)存重新設(shè)計的PMFS、NOVA、BPFS等文件系統(tǒng),則通過內(nèi)存映射的方式繞開了文件系統(tǒng)頁緩存,從而避免了數(shù)據(jù)的冗余復(fù)制。
(2)構(gòu)建用戶態(tài)文件系統(tǒng)
雖然大多數(shù)持久性內(nèi)存文件系統(tǒng)均引入了DAX模式,以消除DRAM緩存帶來的額外開銷,但是將文件系統(tǒng)構(gòu)建在內(nèi)核態(tài)依舊無法避免現(xiàn)場切換以及VFS帶來的開銷。因此,一種可行的方案是將文件系統(tǒng)直接部署到用戶態(tài),例如Aerie、Strata等文件系統(tǒng)。它們將持久性內(nèi)存空間直接映射到用戶態(tài),并通過一個用戶庫封裝了文件系統(tǒng)訪問接口,因此,應(yīng)用程序可以直接在用戶態(tài)訪問文件數(shù)據(jù),從而消除了操作系統(tǒng)引入的額外開銷。
3.3.3 基于RDMA的持久性內(nèi)存的分布式存儲系統(tǒng)
為滿足大規(guī)模數(shù)據(jù)處理對存儲容量的需求,還需要將集群中各機(jī)器的持久性內(nèi)存統(tǒng)一組織起來,構(gòu)建大規(guī)模的分布式持久性內(nèi)存存儲系統(tǒng)。遠(yuǎn)程直接內(nèi)存訪問(remote direct memory access, RDMA)能夠在遠(yuǎn)端處理器不參與的情況下直接讀寫遠(yuǎn)端內(nèi)存,從而提供零復(fù)制的數(shù)據(jù)傳輸能力。邁洛斯公司最新發(fā)布的ConnectX-6系列網(wǎng)卡已經(jīng)支持200 Gbit/s的數(shù)據(jù)傳輸帶寬和亞微級秒的傳輸時延。
持久性內(nèi)存和RDMA分別在存儲和網(wǎng)絡(luò)上提供了極高的硬件性能。然而,現(xiàn)有的分布式軟件系統(tǒng)設(shè)計復(fù)雜、層次冗余,引入了極高的軟件開銷。清華大學(xué)于2017年提出的分布式持久性內(nèi)存文件系統(tǒng)Octopus正是為了解決這個問題,重新設(shè)計了文件系統(tǒng)軟件棧。Octopus將各存儲節(jié)點(diǎn)的NVM通過RDMA統(tǒng)一互連起來,構(gòu)建成一個統(tǒng)一尋址的持久性共享內(nèi)存池(如圖3所示),通過這樣的抽象,客戶端可以直接通過RDMA網(wǎng)絡(luò)讀寫內(nèi)存池中的文件數(shù)據(jù),極大精簡了軟件邏輯,降低了冗余復(fù)制。
圖3???Octopus文件系統(tǒng)架構(gòu)
3.4 小結(jié)
非易失內(nèi)存具有不同于現(xiàn)有任何存儲介質(zhì)的硬件屬性,這為系統(tǒng)設(shè)計人員構(gòu)建存儲系統(tǒng)帶來了一致性數(shù)據(jù)管理、操作系統(tǒng)架構(gòu)、分布式軟件設(shè)計等方面的挑戰(zhàn)。現(xiàn)有的工作已經(jīng)從持久性內(nèi)存的空間管理、編程模型設(shè)計、索引結(jié)構(gòu)、文件系統(tǒng)、分布式存儲系統(tǒng)等方面展開了深入的研究,有效地解決了非易失內(nèi)存中存在的若干問題。
4 未來存儲系統(tǒng)發(fā)展的若干思考
高并發(fā)、低時延、細(xì)粒度等將是未來大規(guī)模應(yīng)用對數(shù)據(jù)中心存儲系統(tǒng)的主流訪問特征,這對存儲系統(tǒng)的任務(wù)調(diào)度、數(shù)據(jù)索引與管理、數(shù)據(jù)中心架構(gòu)等方面都帶來了極大的挑戰(zhàn)。為應(yīng)對這些問題,本文從異構(gòu)系統(tǒng)下的存儲計算融合架構(gòu)以及新型數(shù)據(jù)中心架構(gòu)角度展望了存儲系統(tǒng)的發(fā)展趨勢。
(1)存儲計算融合的閃存存儲架構(gòu)
在本地存儲中,閃存設(shè)備具有極高的內(nèi)部并發(fā)能力,內(nèi)部的傳輸帶寬大于主機(jī)與設(shè)備之間的傳輸帶寬。為了減少主機(jī)與設(shè)備之間的數(shù)據(jù)傳輸,一種思路是將主機(jī)端的部分計算卸載到數(shù)據(jù)所在的設(shè)備上,這樣還可以達(dá)到充分利用設(shè)備內(nèi)帶寬資源的目的。在分布式存儲中,通信、分布式協(xié)議存在較大開銷,一種思路是在網(wǎng)絡(luò)硬件上進(jìn)行一些通用計算,從而實(shí)現(xiàn)系統(tǒng)功能優(yōu)化,降低分布式協(xié)議開銷。上述方法的核心是將計算處理單元部署到離數(shù)據(jù)存儲更近的地方,縮短I/O處理路徑,減少服務(wù)器帶寬占用,即近數(shù)據(jù)處理。當(dāng)前閃存固態(tài)盤架構(gòu)中,設(shè)備內(nèi)控制器具有計算能力,進(jìn)行閃存控制、主機(jī)交互和FTL的運(yùn)行。除此之外,設(shè)備內(nèi)還可以增加現(xiàn)場可編程門陣列(field programmable gate array, FPGA)硬件來加速部件或通用處理單元,提供更強(qiáng)的計算處理能力。另外,以可編程網(wǎng)卡(programmable NIC)和可編程交換機(jī)(programmable switch)為代表的可編程網(wǎng)絡(luò)硬件近年來也得到了飛速發(fā)展,為分布式存儲的設(shè)計提供了新的機(jī)遇,為實(shí)現(xiàn)低時延的分布式系統(tǒng)提供了硬件支持。目前,開放通道閃存提供了一種軟件與硬件協(xié)同設(shè)計的思路,如何進(jìn)一步結(jié)合可編程硬件和存儲計算融合的思想,從構(gòu)建大規(guī)模閃存存儲系統(tǒng)的角度,實(shí)現(xiàn)存儲計算功能的全局(存儲級、節(jié)點(diǎn)級和網(wǎng)絡(luò)級)合理分布,是值得關(guān)注和研究的問題。
(2)Rack-Scale的數(shù)據(jù)中心架構(gòu)
傳統(tǒng)數(shù)據(jù)中心是由單個的服務(wù)器節(jié)點(diǎn)組建起來的,每個服務(wù)器節(jié)點(diǎn)內(nèi)部包含了外存設(shè)備、內(nèi)存、CPU等硬件資源,這些服務(wù)器通過多層網(wǎng)絡(luò)互連,構(gòu)成大規(guī)模分布式集群。如果想對集群進(jìn)行擴(kuò)容,只能購置更多的服務(wù)器節(jié)點(diǎn),必要時,還得額外購買機(jī)架和交換機(jī)。這種數(shù)據(jù)中心架構(gòu)方式具有資源利用率低、數(shù)據(jù)中心部署靈活性差、難以擴(kuò)展等問題。一種新的途徑是將服務(wù)器內(nèi)部的各種硬件資源拆分開,將不同類的硬件資源構(gòu)建成硬件資源池,并通過高速網(wǎng)絡(luò)進(jìn)行互聯(lián)。通過這種方式,數(shù)據(jù)中心的擴(kuò)展不再以“服務(wù)器”為粒度,而是直接以機(jī)架為單位進(jìn)行擴(kuò)展,這種數(shù)據(jù)中心的構(gòu)建模式叫作Rack-Scale架構(gòu),它具有部署容易、升級容易、資源管理更靈活等優(yōu)點(diǎn)。因此,如何基于這種全新的數(shù)據(jù)中心架構(gòu)設(shè)計存儲系統(tǒng),是未來考慮的重點(diǎn)。目前Rack-Scale的發(fā)展依舊處于初級階段,其中最大的阻礙就是新一代網(wǎng)絡(luò)互聯(lián)系統(tǒng)還沒有成熟。這是因為將內(nèi)存和CPU拆分開之后,所有的內(nèi)存訪問都要通過網(wǎng)絡(luò)傳輸,這給高速網(wǎng)絡(luò)的設(shè)計帶來了極大的挑戰(zhàn)。
5 結(jié)束語
大數(shù)據(jù)存儲系統(tǒng)日益難以滿足全球快速增長的數(shù)據(jù)存儲需求,“存儲墻”問題凸顯,大數(shù)據(jù)不止更“大”,還要更“快”。從傳統(tǒng)磁盤到閃存固態(tài)盤,實(shí)現(xiàn)了從機(jī)械式到電子式的跨越,開放通道閃存設(shè)備則從軟硬件協(xié)同設(shè)計的角度,提出了閃存存儲系統(tǒng)構(gòu)建的新思路。非易失內(nèi)存作為新的存儲層級,同時提供了內(nèi)存級訪問性能及持久性存儲特性,針對非易失內(nèi)存設(shè)計更快的存儲系統(tǒng),得到了研究人員廣泛關(guān)注。本文從閃存存儲、持久性內(nèi)存存儲兩種存儲系統(tǒng)構(gòu)建方案出發(fā),詳細(xì)闡述了其各自面臨的挑戰(zhàn)以及相應(yīng)的解決方案,最后,展望了未來數(shù)據(jù)中心及存儲系統(tǒng)構(gòu)建的若干發(fā)展趨勢。
作者簡介
陳游旻(1993- ),男,清華大學(xué)計算機(jī)科學(xué)與技術(shù)系博士生,主要研究方向為文件系統(tǒng)、分布式系統(tǒng)。
李飛(1993- ),男,清華大學(xué)計算機(jī)科學(xué)與技術(shù)系碩士生,主要研究方向為閃存存儲系統(tǒng)。
舒繼武(1968- ),男,博士,清華大學(xué)計算機(jī)科學(xué)與技術(shù)系教授,教育部長江學(xué)者特聘教授,IEEEFellow,博士生導(dǎo)師。近年來主要從事基于非易失存儲器件的新型存儲系統(tǒng)與技術(shù)、基于Flash器件的固態(tài)存儲系統(tǒng)與技術(shù)、網(wǎng)絡(luò)(云/大數(shù)據(jù))存儲系統(tǒng)與關(guān)鍵技術(shù)、數(shù)據(jù)存儲可靠性等方面的研究工作。
《大數(shù)據(jù)》期刊
《大數(shù)據(jù)(Big Data Research,BDR)》雙月刊是由中華人民共和國工業(yè)和信息化部主管,人民郵電出版社主辦,中國計算機(jī)學(xué)會大數(shù)據(jù)專家委員會學(xué)術(shù)指導(dǎo),北京信通傳媒有限責(zé)任公司出版的中文科技核心期刊。
關(guān)注《大數(shù)據(jù)》期刊微信公眾號,獲取更多內(nèi)容
往期文章回顧
邊緣智能:現(xiàn)狀和展望
我國地方大數(shù)據(jù)政策的擴(kuò)散模式與轉(zhuǎn)移特征研究
知識圖譜中的關(guān)系方向與強(qiáng)度研究
面向大數(shù)據(jù)的索引結(jié)構(gòu)研究進(jìn)展
基于圖查詢系統(tǒng)的圖計算引擎
總結(jié)
以上是生活随笔為你收集整理的大数据环境下的存储系统构建:挑战、方法和趋势的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 高级C语言教程-C语言函数setjmp(
- 下一篇: 高级C语言教程-作用域