Google的三篇大数据思想论文
大數(shù)據(jù)
??? 1、什么是大數(shù)據(jù)
??????? 簡單說就是身邊的一切,你看到的是,聽到的是,聞到的感覺到的觸摸到的都是
??? 2、具體一點
??????? 天貓?zhí)詫毜馁徫飻?shù)據(jù),你的聊天記錄,醫(yī)療記錄,看書或者挑東西時候的推薦物品
大數(shù)據(jù)的問題
??? 1、生活中的種種數(shù)據(jù)數(shù)量如此之多,如何存儲
??? 2、要讓數(shù)據(jù)有意義,又該怎么去處理海量的數(shù)據(jù)
Google對大數(shù)據(jù)問題的思想
??? 1、GFS:Google File System
??????????? 對數(shù)據(jù)進行分布式文件系統(tǒng)的存儲,解決的大數(shù)據(jù)的存儲問題
??? 2、MapReduce
??????????? 最初是因為Google要去爬取全球的網(wǎng)頁然后對其進行排名(PageRank)而衍生出的問題,一種用于大數(shù)據(jù)計算的模型,核心思想是大事化小處理,最后在合并結(jié)果,先拆分再合并
??? 3、BigTable
??????????? 采用NoSQL數(shù)據(jù)庫將數(shù)據(jù)存在一張大表之中,通過犧牲存儲的空間來換取性能
實現(xiàn)思想 -> Hadoop
??? 主要結(jié)構(gòu)
??????????? 1、HDFS:Hadoop Distributed File System
??????????????????? 1. 采用主從式的結(jié)構(gòu)
??????????????????? 2. 主節(jié)點: NameNode名稱節(jié)點
??????????????????? 3. 從節(jié)點: DataNode數(shù)據(jù)節(jié)點
??????????????????? 4. SecondaryNameNode: 第二名稱節(jié)點
????????????????? 這里有兩張網(wǎng)上的圖可供參考
????????????? ?
??? ?
??????????????????? 需要注意的是:NameNode 和 SecondaryNameNode 之間沒有關(guān)系,前者管理和維護整個HDFS,后者用來日志的合并,兩者在同一個節(jié)點上(同一個機器),共同的組成了整個HDFS的主從式結(jié)構(gòu),硬盤需要兩個(兩臺機器)所以HDFS環(huán)境至少需要三臺機器
??????????? 2、Yarn:MapReduce 的運行容器
??????????????????? Yarn 的結(jié)構(gòu),NodeMarager和DataNode在一個節(jié)點上,有一個DataNode就有一個NodeMarager
??????????????????? 1. 主從式結(jié)構(gòu)
??????????????????? 2. 主節(jié)點: ResourceManager -> 資源管理器
??????????????????? 3. 從節(jié)點: NodeManager -> 節(jié)點管理器
??????????? 3、HBase: NoSQL數(shù)據(jù)庫(需要單獨安裝)
??????????????????? 1. 主從式結(jié)構(gòu)
??????????????????? 2. 主節(jié)點: HMaster
??????????????????? 3. 從節(jié)點: RegionServer
---------------------
?
總結(jié)
以上是生活随笔為你收集整理的Google的三篇大数据思想论文的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 主流大数据平台及解决方案对比
- 下一篇: 三篇论文之Google MapReduc