《保护我们的数字遗产:DNA数据存储》白皮书发布
編者按:
? ? ? ?2020年10月,Twist Bioscience、Illumina、Western Digital(西部數(shù)據(jù))、微軟研究院等公司和機(jī)構(gòu)聯(lián)合成立DNA數(shù)據(jù)存儲(chǔ)聯(lián)盟(DNA data storage Alliance)。聯(lián)盟的目標(biāo)是創(chuàng)建可互操作的存儲(chǔ)生態(tài)系統(tǒng),并利用人造DNA作為數(shù)據(jù)存儲(chǔ)介質(zhì)。目前,該聯(lián)盟成員已經(jīng)超過25家機(jī)構(gòu)。2021年6月,聯(lián)盟發(fā)布首份白皮書《保存我們的數(shù)字遺產(chǎn):DNA數(shù)據(jù)存儲(chǔ)》(Preserving Our Digital Legacy: An Introductionto DNA Data Storage)。白皮書介紹了DNA存儲(chǔ)的基本原理、技術(shù)概述、潛在的新存儲(chǔ)介質(zhì)的成本,討論了使用DNA存儲(chǔ)的必要性,以及其在解決數(shù)字?jǐn)?shù)據(jù)指數(shù)增長(zhǎng)方面的前景。
?
?
1??數(shù)字?jǐn)?shù)據(jù)增長(zhǎng)勢(shì)態(tài):海量數(shù)據(jù)
? ? ? ?以數(shù)據(jù)的創(chuàng)造、購買、銷售和積累為特征的全球信息時(shí)代正在考驗(yàn)著我們分析、存儲(chǔ)、處理和保護(hù)這些珍貴數(shù)據(jù)的能力。根據(jù)國(guó)際數(shù)據(jù)公司(IDC)DataSpher全球預(yù)測(cè)報(bào)告顯示,2020-2025年間,全球生成的數(shù)據(jù)(包括新生成和復(fù)制副本)預(yù)計(jì)將以23%的復(fù)合年增長(zhǎng)率(CAGR)增長(zhǎng),到2025年達(dá)到180 ZB。短短三年時(shí)間,新創(chuàng)建的數(shù)據(jù)就從2017年的3ZB增加到2020年的64 ZB。IDC還指出,除了新數(shù)據(jù)的數(shù)量外,復(fù)制數(shù)據(jù)與最初捕獲數(shù)據(jù)的比例也在增加。
? ? ? ?數(shù)據(jù)保存和數(shù)據(jù)挖掘推動(dòng)“海量數(shù)據(jù)”的產(chǎn)生。機(jī)器人、智能城市、自動(dòng)駕駛汽車、醫(yī)療保健、天文學(xué)、氣候科學(xué)等不同領(lǐng)域的用戶都在尋求容量更大的數(shù)據(jù)集,以便未來進(jìn)行數(shù)據(jù)挖掘,保持競(jìng)爭(zhēng)力和/或推動(dòng)科學(xué)發(fā)現(xiàn)。如果能夠以更低的總成本存儲(chǔ)更多數(shù)據(jù),在權(quán)衡保存或丟棄數(shù)據(jù)之間的利弊時(shí),就可以保存更多原始數(shù)據(jù)以供未來進(jìn)行數(shù)據(jù)挖掘時(shí)使用。
? ? ? ? 此外,相關(guān)政府也在制定數(shù)據(jù)存儲(chǔ)相關(guān)的法案,例如,美國(guó)針對(duì)所有上市公司和一些私營(yíng)公司制定了《健康保險(xiǎn)攜帶和責(zé)任法案》(HIPAA)以及《Sarbanes-Oxley法案》(SOX)。因此,數(shù)據(jù)增長(zhǎng)率、數(shù)據(jù)挖掘的商業(yè)/科學(xué)潛力,以及監(jiān)管要求都在推動(dòng)更長(zhǎng)時(shí)間內(nèi)儲(chǔ)存更多數(shù)據(jù)的需求。
? ? ? ? 盡管上述因素推動(dòng)了前所未有的存儲(chǔ)需求的增長(zhǎng),但存儲(chǔ)供應(yīng)并沒有跟上快速增長(zhǎng)的需求。據(jù)IDC StorageSphere報(bào)告估計(jì),存儲(chǔ)設(shè)備總安裝基數(shù)預(yù)計(jì)將以19%的CAGR(2020-2025年)增長(zhǎng)。另一方面,Gartner咨詢公司指出,目前存在潛在的不足區(qū)(圖1),并估計(jì)超大規(guī)模供應(yīng)商存儲(chǔ)需求已經(jīng)超過目前的增長(zhǎng)速度:2013-2019年,以近35%的CAGR增長(zhǎng),2020-2030年有可能飆升至50%。
2? 數(shù)字存儲(chǔ)的發(fā)展動(dòng)態(tài)
? ? ? ?存儲(chǔ)行業(yè)的創(chuàng)新實(shí)現(xiàn)了密度、尺寸和總?cè)萘糠矫娴捏@人進(jìn)步。歷史上首個(gè)硬盤驅(qū)動(dòng)器(HDD)于1956年推出,尺寸相當(dāng)于一臺(tái)冰箱大小,容量為5MB,價(jià)格為1萬美元/MB。隨著磁記錄技術(shù)的逐步改進(jìn),人們已經(jīng)在3.5英寸的外形尺寸中實(shí)現(xiàn)18-20TB的規(guī)模。2019年,近線硬盤的平均售價(jià)約為20美元/TB,比1956年的硬盤售價(jià)低了9個(gè)數(shù)量級(jí)。
2.1??存儲(chǔ)技術(shù)面臨的挑戰(zhàn)
? ? ? 盡管技術(shù)不斷改進(jìn),考慮到ZB規(guī)模和長(zhǎng)存儲(chǔ)時(shí)間的需求,當(dāng)前的存儲(chǔ)技術(shù)仍然面臨關(guān)鍵挑戰(zhàn)。
2.2.1? 存儲(chǔ)維護(hù)和更換成本
? ? ? ?今天的存儲(chǔ)介質(zhì)(磁性、半導(dǎo)體等)在保管妥當(dāng)?shù)那闆r下可以保存數(shù)據(jù)幾十年,但就像任何有形資產(chǎn)一樣,它們會(huì)隨時(shí)間的推移而磨損和退化。因此,必須定期檢查以確保數(shù)據(jù)的完整性。
? ? ? ? 此外,介質(zhì)的固有格式與讀寫技術(shù)緊密結(jié)合。由于技術(shù)或商業(yè)原因,某些存儲(chǔ)設(shè)備的閱讀器或物理介質(zhì)格式已經(jīng)過時(shí),使得這些存儲(chǔ)設(shè)備的數(shù)據(jù)無法再讀取。因此,存儲(chǔ)在當(dāng)前任何存儲(chǔ)設(shè)備上的數(shù)據(jù)都需要定期被重寫到新一代設(shè)備上,以確保能繼續(xù)訪問。
2.2.2? 密度限制
? ? ? ?1975年,Gordon Moore闡明了摩爾定律——可封裝在集成電路中的晶體管數(shù)量每?jī)赡昃蜁?huì)翻一番。該預(yù)測(cè)自發(fā)表以來一直保持不變,CAGR約為40%。對(duì)于存儲(chǔ),介質(zhì)密度的增長(zhǎng)率各不相同。例如,HDD驅(qū)動(dòng)器1998-2002年的面密度CAGR為108%,2003-2009年為39%、2009-2018年為7.9%。盡管諸如能量輔助記錄等技術(shù)的進(jìn)步正在推動(dòng)HDD面密度發(fā)展,但磁介質(zhì)面密度的總體趨勢(shì)正在放緩。NAND閃存已達(dá)到周期性擴(kuò)展限制;2D NAND存儲(chǔ)單元尺寸在平面(x-y)維度上減小, 2012年左右達(dá)到縮放限制;使用3D NAND(在z維度上構(gòu)建單元)可以恢復(fù)增長(zhǎng),但最終也會(huì)達(dá)到極限。
? ? ? ?這些趨勢(shì)對(duì)當(dāng)今ZB級(jí)的數(shù)據(jù)存儲(chǔ)提出了資本支出和運(yùn)營(yíng)成本等方面的挑戰(zhàn),但并不意味著當(dāng)前的存儲(chǔ)解決方案會(huì)過時(shí)。相反,它表明需要在存儲(chǔ)結(jié)構(gòu)中增加新級(jí)別,以經(jīng)濟(jì)高效的擴(kuò)展方式,滿足不斷發(fā)展的存儲(chǔ)生態(tài)系統(tǒng)中數(shù)據(jù)的爆炸性增長(zhǎng)。
2.2.3? 能源和可持續(xù)性問題
? ? ? ?據(jù)估計(jì),2018年,數(shù)據(jù)中心消耗了全球總電力的約1%;未來10年內(nèi)可能會(huì)增加3倍或4倍。如果不持續(xù)提高能效,到2030年,數(shù)據(jù)中心的用電量可能會(huì)增長(zhǎng)到全球總用電量的3%-13%。此外,傳統(tǒng)存儲(chǔ)設(shè)備的材料,尤其是HDD和磁帶依賴具有復(fù)雜供應(yīng)鏈的稀土金屬制成,給可持續(xù)發(fā)展帶來挑戰(zhàn)。
2.2? 存儲(chǔ)介質(zhì)的總擁有成本
? ? ? ?根據(jù)總擁有成本(TCO)查看存儲(chǔ)層次結(jié)構(gòu)非常重要。存儲(chǔ)可以根據(jù)數(shù)據(jù)訪問的頻率進(jìn)行分層(圖2)。頻繁訪問的數(shù)據(jù)(“熱數(shù)據(jù)”)通常存儲(chǔ)在高性能設(shè)備(例如SSD)上。訪問頻率較高的數(shù)據(jù)(“暖數(shù)據(jù)”)通常存儲(chǔ)在HDD上。不經(jīng)常訪問的數(shù)據(jù)(“冷數(shù)據(jù)”)通常存儲(chǔ)在磁帶上。
? ? ? ?隨著金字塔向上移動(dòng),存儲(chǔ)介質(zhì)獲取和更換成本會(huì)推高TCO。此外,金字塔中較高層的存儲(chǔ)設(shè)備與較低層的設(shè)備會(huì)消耗更多電力,進(jìn)而推高TCO。每個(gè)存儲(chǔ)層中的總位數(shù)與該層的基礎(chǔ)成本成反比。在數(shù)據(jù)中心,SSD和HDD的頻繁也增加了維護(hù)成本,增加了TCO。
? ? ? ?推高TCO的另一個(gè)因素是冷數(shù)據(jù)量的增長(zhǎng)速度快于其他層次的數(shù)據(jù),也就是說,需要長(zhǎng)期存儲(chǔ)的數(shù)據(jù)越來越多。圖3顯示了數(shù)據(jù)的訪問頻率(紅綠線)、商業(yè)價(jià)值(藍(lán)線)和數(shù)量(黑線)隨時(shí)間的變化趨勢(shì)。
? ? ? ?因此,數(shù)據(jù)存儲(chǔ)的總擁有成本(TCO)包括以下幾大因素:硬件和介質(zhì)的購置成本、數(shù)據(jù)存儲(chǔ)的時(shí)間范圍、數(shù)據(jù)寫入的成本、存儲(chǔ)數(shù)據(jù)的年增長(zhǎng)率、檢索數(shù)據(jù)的數(shù)量和頻率、存儲(chǔ)的副本量、年遷移量、電力設(shè)施的成本、遷移的成本,員工成本等。
3??DNA作為存儲(chǔ)介質(zhì)
? ? ? ?基于DNA的數(shù)據(jù)存儲(chǔ)是既能減少傳統(tǒng)存儲(chǔ)的物理和碳足跡,同時(shí)又可以顯著降低歸檔層TCO的解決方案。如果存儲(chǔ)得當(dāng),DNA數(shù)據(jù)可以穩(wěn)定保存數(shù)千年,甚至沒有損耗且極少需要維護(hù)或更新。基于DNA的數(shù)據(jù)存儲(chǔ)的存儲(chǔ)密度、耐久性和低功耗從根本上降低了TCO,使其成為長(zhǎng)期存檔數(shù)據(jù)存儲(chǔ)的有力競(jìng)爭(zhēng)者。
3.1? 生物與合成(人造)DNA
? ? ? ?DNA是自然界可靠、長(zhǎng)期存儲(chǔ)遺傳信息的系統(tǒng)。自然界中,DNA通常以雙鏈螺旋(dsDNA)形式存在,但某些生物中以單鏈聚合物鏈(ssDNA)形式存在。dsDNA或ssDNA均可用于DNA數(shù)據(jù)存儲(chǔ)。然而,在數(shù)字?jǐn)?shù)據(jù)存儲(chǔ)的環(huán)境中,DNA是人造的:DNA數(shù)據(jù)存儲(chǔ)介質(zhì)的創(chuàng)建不需要任何細(xì)胞、生物體或生命的創(chuàng)建或修改,同樣,生成的存儲(chǔ)數(shù)據(jù)也不會(huì)導(dǎo)致任何細(xì)胞、生物體或生命的創(chuàng)建或修改。
3.2? DNA存檔的特性
? ? ? ?DNA的獨(dú)特特性使其成為存儲(chǔ)檔案數(shù)據(jù)數(shù)十年、數(shù)百年甚至數(shù)千年的理想介質(zhì)。
介質(zhì)耐久性:DNA是生物系統(tǒng)中信息存儲(chǔ)的首選分子。在干燥的室溫環(huán)境下,它可以完好無損地保存數(shù)千年。斯德哥爾摩古遺傳學(xué)中心領(lǐng)導(dǎo)的國(guó)際團(tuán)隊(duì)發(fā)現(xiàn)并成功測(cè)序了120萬年前的哥倫比亞猛犸象遺骸的DNA。這種化學(xué)穩(wěn)定性確保DNA編碼的數(shù)據(jù)可以穩(wěn)定地保存很長(zhǎng)時(shí)間。
維護(hù)簡(jiǎn)單性:如今的存儲(chǔ)介質(zhì)必須定期進(jìn)行固定檢查,以確保數(shù)據(jù)的可讀性。由于DNA的持久性和其他特性,預(yù)計(jì)其靜態(tài)維護(hù)將比傳統(tǒng)存儲(chǔ)解決方案簡(jiǎn)單,也會(huì)顯著降低數(shù)據(jù)保存成本。
格式不變性:區(qū)分DNA作為存儲(chǔ)介質(zhì)的一個(gè)基本因素是其分子結(jié)構(gòu)。如今保存在DNA中的數(shù)字?jǐn)?shù)據(jù)將在數(shù)千年后以化學(xué)方式讀取。與傳統(tǒng)存儲(chǔ)相比,此特性為基于DNA的存儲(chǔ)提供了顯著優(yōu)勢(shì)。DNA的不可變格式確保了存儲(chǔ)數(shù)字?jǐn)?shù)據(jù)的DNA始終能夠被讀取,并且只要編寫數(shù)據(jù)的編碼(邏輯結(jié)構(gòu)與物理設(shè)備)可用就可以解碼。
密度:DNA介質(zhì)使多種形式的儲(chǔ)存成為可能,包括三維存儲(chǔ)。DNA堿基的大小約為數(shù)十個(gè)原子,體積約為1立方納米。因此,即使考慮到大量實(shí)際開銷,1mm3卷積中可存儲(chǔ)的DNA位數(shù)估計(jì)為9 TB,大約是18TB LTO-9磁帶(大約23.5萬mm3)容量的一半。如果LTO磁帶內(nèi)的空間填滿DNA二進(jìn)制位,磁帶將容納約200萬TB的數(shù)據(jù),約為L(zhǎng)TO-9磁帶容量的11.5萬倍。
能源效率和可持續(xù)性:與當(dāng)前的數(shù)據(jù)中心和存儲(chǔ)技術(shù)相比,存儲(chǔ)在DNA中的數(shù)據(jù)在靜止?fàn)顟B(tài)下消耗最少。雖然目前的數(shù)據(jù)中心使用了大量的電力和土地,但在DNA數(shù)據(jù)存儲(chǔ)下這些需求或?qū)⒑雎圆挥?jì)。由于DNA的耐用性和密度,其對(duì)環(huán)境的影響比廢棄的磁帶驅(qū)動(dòng)器或HDD要小得多。
成本:在處理需要持續(xù)數(shù)十年或更長(zhǎng)時(shí)間的歸檔數(shù)據(jù)時(shí),這種不會(huì)隨時(shí)間產(chǎn)生額外成本的存儲(chǔ)介質(zhì)非常具有吸引力。
4? 將數(shù)字?jǐn)?shù)據(jù)導(dǎo)入DNA
? ? ? ?為了在DNA中存儲(chǔ)數(shù)據(jù),原始數(shù)字?jǐn)?shù)據(jù)被編碼(從1和0映射到DNA堿基序列),然后合成(寫入)并存儲(chǔ)。當(dāng)需要存儲(chǔ)的數(shù)據(jù)時(shí),對(duì)DNA分子進(jìn)行測(cè)序(讀取)和解碼(從DNA堿基重新映射回1和0)。
編碼(將二進(jìn)制位轉(zhuǎn)換為堿基):DNA數(shù)據(jù)存儲(chǔ)編碼的基本概念是將原始數(shù)字?jǐn)?shù)據(jù)的1和0轉(zhuǎn)換為組成DNA的堿基(ACGT)。編碼方法與所使用的合成和測(cè)序方法緊密結(jié)合,實(shí)現(xiàn)可接受的二進(jìn)制位密度,補(bǔ)償錯(cuò)誤率,能夠?qū)⒃级M(jìn)制數(shù)據(jù)分割成DNA鏈,也能將DNA鏈重新組裝回二進(jìn)制數(shù)據(jù)。
合成(寫入):合成是制造DNA的階段。基于一系列化學(xué)步驟,由編碼步驟確定的DNA分子以反映“位對(duì)堿基”或其他編碼方法的各種不同方式組裝。
DNA的物理存儲(chǔ):DNA合成后,被封裝以長(zhǎng)期保存并放在DNA存儲(chǔ)庫中。封裝有多種類型,包括用惰性氣體將DNA密封在膠囊中,或?qū)⑵渑c有助于保存DNA的化學(xué)物質(zhì)混合。
檢索(從文庫中檢索):存儲(chǔ)后,一旦需要數(shù)據(jù),就可以從文庫中檢索編碼的DNA并為測(cè)序作準(zhǔn)備。通常還包括為測(cè)序方法制作的分子副本,這是分子密集型的,適用于更多副本服務(wù)分發(fā)或進(jìn)一步存儲(chǔ)需求的情況。
測(cè)序(讀取):測(cè)序是確定DNA片段中DNA堿基(ACGT)的身份和順序的過程。目前使用的測(cè)序方法多種多樣,例如合成測(cè)序(SBS)、納米孔測(cè)序等。
解碼(將堿基轉(zhuǎn)換回二進(jìn)制位):解碼涉及到將DNA測(cè)序中的堿基映射回?cái)?shù)字?jǐn)?shù)據(jù)。重要的是,它涉及從合成、保存到測(cè)序期間的糾錯(cuò)。解碼完成后,數(shù)據(jù)將以數(shù)字形式重新組合并返回給用戶。
5? DNA數(shù)據(jù)存儲(chǔ)的經(jīng)濟(jì)性
? ? ? ?當(dāng)前,用于數(shù)據(jù)存儲(chǔ)的DNA寫入(合成)和讀取(測(cè)序)其實(shí)并沒有實(shí)現(xiàn)大規(guī)模應(yīng)用。然而,這些應(yīng)用是有發(fā)展前景的。合成成本是所有應(yīng)用案例的基礎(chǔ),而測(cè)序成本對(duì)需要頻繁讀取的數(shù)據(jù)的歸檔尤為重要。
5.1? 合 成
? ? ? ?DNA數(shù)據(jù)存儲(chǔ)的合成成本取決于位如何編碼到DNA堿基中,以及合成DNA的具體方法。由于當(dāng)今商業(yè)應(yīng)用不包括DNA數(shù)據(jù)存儲(chǔ),因此難以對(duì)與DNA數(shù)據(jù)存儲(chǔ)直接相關(guān)的合成進(jìn)行定價(jià)估算。美國(guó)情報(bào)高級(jí)計(jì)劃研究局(IARPA)正在通過分子信息存儲(chǔ)項(xiàng)目(MIST)資助該領(lǐng)域的工作,并且已經(jīng)制定了目標(biāo)路線圖——到2024年合成成本為1美元/GB,到2030年為1美元/TB。
? ? ? ?除了成本趨勢(shì),用于數(shù)據(jù)存儲(chǔ)的DNA合成還有一個(gè)與遺留存儲(chǔ)相關(guān)的特性。對(duì)于遺留存儲(chǔ),數(shù)據(jù)集的第一個(gè)或任何后續(xù)副本的成本與寫入原始副本的成本相同,即每種情況下的介質(zhì)容量成本。相比之下,對(duì)于DNA數(shù)據(jù)存儲(chǔ),創(chuàng)建數(shù)據(jù)集的第一個(gè)副本有與合成相關(guān)的成本,但由于PCR等工具的特性,創(chuàng)建后續(xù)副本的成本基本上為零,在這些工具中,副本是該過程的自然產(chǎn)物。基于DNA存儲(chǔ)的這種“免費(fèi)副本”屬性與當(dāng)今大規(guī)模存儲(chǔ)系統(tǒng)的趨勢(shì)非常吻合。
5.2??測(cè) 序
? ? ? ?討論DNA測(cè)序過程可以讀取多少數(shù)據(jù)到底意味著什么?以人類基因組測(cè)序?yàn)槔?#xff0c;美國(guó)國(guó)家人類基因組研究所(NHGRI)估計(jì),人類基因組測(cè)序成本從2001年的1億美元下降到2020年的1000美元。整個(gè)人類基因組包含約60億個(gè)DNA堿基,如果將每DNA編碼一個(gè)二進(jìn)制位,一個(gè)人類基因組可以編碼約0.75 GB數(shù)據(jù),相當(dāng)于在1000美元/人類基因組的情況下,數(shù)據(jù)成本價(jià)約為1300美元/GB。這個(gè)成本與當(dāng)今高端商業(yè)DNA測(cè)序平臺(tái)的通量一致,當(dāng)轉(zhuǎn)換為數(shù)字承載能力時(shí),假設(shè)每個(gè)DNA堿基為1個(gè)二進(jìn)制位,其成本為800-1500美元/GB。
? ? ? ?此外,Illumina和其他公司預(yù)計(jì),未來幾年內(nèi),可能僅需100美元就可在最高通量測(cè)序平臺(tái)進(jìn)行人類基因組測(cè)序。這意味著成本又減少了10倍,約為130美元/GB。鑒于IARPA的目標(biāo)是到2030年達(dá)到1美元/TB,以及當(dāng)今主流存儲(chǔ)技術(shù)在讀寫成本沒有太大差異的情況下,預(yù)計(jì)DNA數(shù)據(jù)存儲(chǔ)生態(tài)系統(tǒng)的成本或?qū)⒔咏鼫y(cè)序成本。
5.3??存儲(chǔ)和維護(hù)
在審查歸檔存儲(chǔ)成本時(shí),不僅要考慮讀寫成本,還要考慮隨時(shí)間推移的總成本。圖4總結(jié)了寫入和存儲(chǔ)數(shù)據(jù)的成本,其中比較了云存儲(chǔ)、磁帶存儲(chǔ)和DNA數(shù)據(jù)隨時(shí)間推移的預(yù)計(jì)成本。該分析假設(shè)DNA沒有定期的數(shù)據(jù)遷移,只有固定檢查和存儲(chǔ)所需的能量消耗。可以看到,隨時(shí)間推移,DNA編寫成本逐漸下降,存儲(chǔ)和維護(hù)成本逐漸增加。
-
使用Fujifilm TCO計(jì)算器計(jì)算的磁帶價(jià)格
-
價(jià)格取自Amazon AWS公開定價(jià)(2021.2.1)
-
DNA存儲(chǔ)價(jià)格基于選定的成本方案,僅供比較
6??DNA編碼的發(fā)展現(xiàn)狀
? ? ? ?用于存儲(chǔ)數(shù)據(jù)的DNA編碼是將原始數(shù)字1和0轉(zhuǎn)換為DNA分子的堿基序列(ACGT)的過程。特定的編碼算法在技術(shù)上與合成和測(cè)序方法的基礎(chǔ)化學(xué)過程交織在一起,因此編碼方法會(huì)受到DNA數(shù)據(jù)存儲(chǔ)系統(tǒng)整個(gè)流程的復(fù)雜性、可擴(kuò)展性、數(shù)據(jù)密度、數(shù)據(jù)可靠性以及成本的影響。
? ? ? ?在DNA上進(jìn)行編碼傳輸時(shí),1和0在合成前映射到DNA堿基的方式,以及DNA堿基在測(cè)序過程中映射回1和0的方式,大致類似在電氣傳輸過程中的數(shù)字到模擬到數(shù)字的轉(zhuǎn)換。ECC位和加擾模式在合成前添加到數(shù)據(jù)流中并在測(cè)序時(shí)(接收器)刪除,以檢測(cè)/糾正錯(cuò)誤。
? ? ? ?用于DNA數(shù)據(jù)存儲(chǔ)的DNA編碼另一個(gè)重要方面是分段(segmentation)和尋址(addressing)。由于合成DNA鏈的長(zhǎng)度存在實(shí)際限制,因此目前所有的編碼方案都是編碼地址信息,以便將長(zhǎng)數(shù)字位流分割成DNA子片段,隨后在測(cè)序和解碼過程中重新組裝。可以使用多種尋址方案來實(shí)現(xiàn)分段,例如使用字段(fields)、隱式映射(implicit mapping)或外部標(biāo)簽。
7??DNA合成的發(fā)展現(xiàn)狀
? ? ? ?大多數(shù)生物研究和生物工程都涉及合成DNA。考慮到數(shù)據(jù)存儲(chǔ)時(shí),所有DNA合成方法的總通量?比任何現(xiàn)有存儲(chǔ)技術(shù)都慢幾個(gè)數(shù)量級(jí)。未來需要大規(guī)模并行化,以使DNA數(shù)據(jù)存儲(chǔ)比傳統(tǒng)數(shù)據(jù)存儲(chǔ)技術(shù)更具成本競(jìng)爭(zhēng)力。
7.1? 堿基合成(化學(xué)和酶)
? ? ? ?目前,所有商業(yè)合成DNA都是使用磷酰胺合成方法。自20世紀(jì)80年代末以來,這一過程已實(shí)現(xiàn)自動(dòng)化,是目前構(gòu)建合成DNA最可靠、測(cè)試效果最好、質(zhì)量最高的方法。價(jià)格較高是該方法的主要限制之一,另一個(gè)限制是用這種方法寫入DNA的速度。如今,科研人員已經(jīng)在測(cè)試新方法和技術(shù),希望通過并行方法提高速度并且降低成本。
? ? ? ?2010年開始,一些研究人員開始探索化學(xué)合成的替代方法。酶合成技術(shù)只使用含水試劑,產(chǎn)生的廢物副產(chǎn)品較少,有助于實(shí)現(xiàn)可持續(xù)發(fā)展;此外,該技術(shù)可以加速合成,實(shí)現(xiàn)更高的通量、增加聚合物長(zhǎng)度和數(shù)據(jù)密度,以降低存儲(chǔ)成本。盡管酶合成技術(shù)尚未進(jìn)入商業(yè)市場(chǎng),但正在快速發(fā)展:2018年已經(jīng)實(shí)現(xiàn)了酶法合成150堿基長(zhǎng)度的寡核苷酸的概念驗(yàn)證,且錯(cuò)誤率低,首批產(chǎn)品計(jì)劃在2021年底完成。
7.2? 合成的連接技術(shù)
? ? ? ?連接技術(shù)主要用于合成DNA長(zhǎng)鏈,基本概念是使用合成技術(shù)創(chuàng)建一個(gè)預(yù)定義的寡核苷酸庫,然后將這些短寡核苷酸連接起來,以可接受的錯(cuò)誤率產(chǎn)生長(zhǎng)鏈的核苷酸。根據(jù)編碼方法的不同,較長(zhǎng)的核苷酸構(gòu)建意味著可以在較大的有效負(fù)載上進(jìn)行糾錯(cuò)、片段重組,且成本更低。
8? 保存用于數(shù)據(jù)存儲(chǔ)的DNA
? ? ? ?一旦DNA被合成并被數(shù)字?jǐn)?shù)據(jù)編碼,介質(zhì)的保存涉及幾個(gè)因素。在DNA數(shù)據(jù)存儲(chǔ)應(yīng)用的整個(gè)環(huán)境中,必須考慮實(shí)際方面,例如容器成本、每個(gè)容器的數(shù)據(jù)量、時(shí)間、打包/解包成本。同樣,物理存儲(chǔ)和檢索的自動(dòng)化也非常重要,包括收集合成輸出、準(zhǔn)備物理存儲(chǔ)的DNA、恢復(fù)材料以服務(wù)讀取請(qǐng)求,以及為讀取過程做準(zhǔn)備。
8.1? DNA衰變機(jī)制
? ? ? ?DNA與一些小的有機(jī)分子、紫外線照射、水、酶、微生物、氧氣、臭氧和其他大氣污染物的相互作用會(huì)出現(xiàn)降解。由于水對(duì)氧化劑或酶的重要作用,水是DNA最主要的降解因素。據(jù)估計(jì),在25℃條件下,埋藏在古代骨骼化石中的DNA半衰期為512年,最佳保護(hù)條件下可長(zhǎng)達(dá)10萬年以上,但暴露在潮濕環(huán)境下的DNA半衰期顯著降低。因此,DNA的存儲(chǔ)策略必須解決與濕度相關(guān)的問題。
8.2? DNA介質(zhì)保護(hù)技術(shù)
? ? ? ?目前一般有兩類保護(hù)策略:分子級(jí)保護(hù)和宏觀保護(hù)。DNA數(shù)據(jù)存儲(chǔ)系統(tǒng)可以將兩者結(jié)合。分子方法,即單個(gè)DNA分子被嵌入一種基質(zhì)材料中,以防止水和氧氣擴(kuò)散到單個(gè)DNA分子(又稱化學(xué)封裝)。由于水在聚合物、有機(jī)分子和水溶性鹽中的相對(duì)高的擴(kuò)散速率,最合適的基質(zhì)是玻璃等無機(jī)材料。宏觀方法,即干燥的DNA樣本在惰性氣體條件下存儲(chǔ)在密封容器中,例如金屬膠囊(又稱物理封裝)。只要確保容器的完整性,控制氧氣和水的擴(kuò)散,就可以避免攜帶DNA分子的數(shù)據(jù)發(fā)生相互作用。
9? DNA測(cè)序的發(fā)展現(xiàn)狀
? ? ? ?20世紀(jì)90年代中期開始,“二代測(cè)序”的快速發(fā)展,拓寬了DNA測(cè)序的應(yīng)用范圍。二代測(cè)序通過大量并行實(shí)現(xiàn)通量、可伸縮性和速度方面的突破。目前商業(yè)上使用的二代測(cè)序包括兩大類:合成測(cè)序和納米孔測(cè)序。
9.1? 合成測(cè)序
? ? ? ?合成測(cè)序是指邊合成邊測(cè)序(Sequencing-by-synthesis,SBS)。Illumina公司(當(dāng)時(shí)的Solexa)在2006年開創(chuàng)了SBS,目前主要的方法包括:
-
Illumina SBS是基于熒光標(biāo)記核苷酸的成像。主要方法是將DNA庫添加到流式細(xì)胞中,然后放大成簇,之后開始合成步驟;通過加入4種熒光標(biāo)記的可逆終止堿基,洗去非合并核苷酸;攝像機(jī)拍攝熒光標(biāo)記的核苷酸圖像;最后,從DNA中去除染料和3'端阻斷劑,開啟下個(gè)周期。
-
Pacific Biosciences公司的SMRT技術(shù)(Pacific Biosciences Single Molecule Realtime Sequencing Technology)是一種利用聚合酶,通過ssDNA模板分子合成熒光標(biāo)記的堿基,并進(jìn)行實(shí)時(shí)成像。該技術(shù)可以產(chǎn)生長(zhǎng)時(shí)間的連續(xù)讀取,單分子分辨率下的平均長(zhǎng)度為15kb(千堿基)。
-
Thermo Fisher Scientific公司的Ion Torrent半導(dǎo)體測(cè)序技術(shù)是將DNA堿基編碼的信息直接轉(zhuǎn)換為半導(dǎo)體芯片上的數(shù)字信息(0和1),而不需要使用任何修飾過的核苷酸或光學(xué)元件。
9.2? 納米孔測(cè)序
? ? ? ?納米孔測(cè)序不同于SBS的底層機(jī)制。在納米孔測(cè)序中,一條DNA鏈可以通過電解質(zhì)膜上的孔,DNA鏈穿過孔便可進(jìn)行記錄,檢測(cè)出原始DNA鏈中的堿基。納米孔DNA測(cè)序可以實(shí)時(shí)進(jìn)行,因此可立即獲得結(jié)果。目前應(yīng)用最廣泛的納米孔DNA測(cè)序解決方案來自O(shè)xford Nanopore Technology公司,他們利用嵌入在脂膜中的生物孔使得傳感更加精確。
10? 總 結(jié)
? ? ? ?今天,我們正處在一個(gè)數(shù)據(jù)存儲(chǔ)變革的風(fēng)口浪尖。通過數(shù)據(jù)中心的服務(wù)器、移動(dòng)設(shè)備和傳感器網(wǎng)絡(luò),大規(guī)模的信息數(shù)字化正在進(jìn)行中。人工智能技術(shù)和數(shù)據(jù)處理能力使挖掘海量數(shù)據(jù)成為可能,然而將這些數(shù)據(jù)轉(zhuǎn)化為知識(shí)加以利用的關(guān)鍵是保證數(shù)據(jù)的長(zhǎng)期存儲(chǔ)。
? ? ? ?傳統(tǒng)存儲(chǔ)解決方案在過去幾年里已經(jīng)得到廣泛擴(kuò)展,但是磁性介質(zhì)(HDD和磁帶)面積密度的增長(zhǎng)正在放緩,數(shù)據(jù)增長(zhǎng)速度超過了目前已有的存儲(chǔ)解決方案,需要一種更密集、更持久、更可持續(xù)、更經(jīng)濟(jì)的新型存儲(chǔ)介質(zhì),以應(yīng)對(duì)存檔數(shù)據(jù)未來的需求。
? ? ? ?據(jù)估計(jì),到2030年,DNA合成成本可能達(dá)到1美元/TB,DNA測(cè)序的成本也可能達(dá)到相近水平。DNA數(shù)據(jù)存儲(chǔ)規(guī)模是前所未有的:同樣的LTO盒式磁帶空間,DNA位的數(shù)量是LTO-9磁帶的10萬倍。DNA的持久性和分子結(jié)構(gòu)的一致性非常適合長(zhǎng)期檔案存儲(chǔ)。此外,DNA在電力、空間和可持續(xù)性方面也是一種對(duì)環(huán)境友好的介質(zhì),這將大大降低生態(tài)系統(tǒng)的負(fù)擔(dān)。
? ? ? ?海量數(shù)據(jù)與合成DNA的結(jié)合,提供了一種新的存儲(chǔ)方式,它能從根本上改變存儲(chǔ)的規(guī)模和時(shí)間,保存我們的數(shù)字遺產(chǎn),也為提取、甚至創(chuàng)造或發(fā)現(xiàn)新知識(shí)提供了更多可能性。
原文公眾號(hào):上海市生物工程學(xué)會(huì)
總結(jié)
以上是生活随笔為你收集整理的《保护我们的数字遗产:DNA数据存储》白皮书发布的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2019第七周作业
- 下一篇: 让PV10000+的秘诀