[Hadoop in China 2011] 何鹏:Hadoop在海量网页搜索中应用分析
何鵬是即刻搜索研發(fā)部系統(tǒng)平臺組的工程師,即刻搜索是人民網(wǎng)其下的搜索引擎,由人民搜索轉(zhuǎn)變而來,于今年6月20日正式上線。據(jù)何鵬介紹,即刻搜索 目前存放了200億個文件以上,其整個系統(tǒng)架構(gòu)采用Hadoop海量數(shù)據(jù)分析平臺,并針對特定環(huán)境對應(yīng)用程序做了修改。在本次演講中,何鵬工程師將為我們 分析基于Hadoop的海量網(wǎng)頁分析案例。
▲即刻搜索研發(fā)部系統(tǒng)平臺組工程師何鵬
即刻搜索整體架構(gòu)借助了Hadoop整個海量分析平臺,并針對特定環(huán)境增刪修改了部分中間件,改良了部分應(yīng)用程序,以提高性能,下圖所展示的是即刻搜索的整體框架圖:
▲即刻搜索整體架構(gòu)圖
在上圖中,HDFS即為Hadoop海量數(shù)據(jù)處理平臺,其中Hdfs_Bridge為新添加的中間件,并且,JikeSpider為即刻搜索工程師新開發(fā)的應(yīng)用,并對部分程序進(jìn)行了改良。
Hdfs_Bridge為即刻搜索海量數(shù)據(jù)處理平臺的中間件,主要是滿足爬蟲的快速寫,并對文件提供自動Flush sstable功能。其通過將寫轉(zhuǎn)化為內(nèi)存寫,用DFS直接Flush。以此替代HDFS的多次不必要的序列化和反序列化。
▲
并且,即刻還對Hadoop Pipes進(jìn)行了改良。通過修改Hadoop pipse的通信寫u,將單一的路勁輸入輸出改為多路徑輸入輸出。還進(jìn)行本地化調(diào)試,并對部分代碼進(jìn)行了優(yōu)化。
據(jù)何鵬工程師介紹,目前即刻搜索的海量數(shù)據(jù)處理平臺還存在一些不足,正在不斷優(yōu)化。比如在部分大型作業(yè)時,多個task分配到同一臺及其,導(dǎo)致該機(jī)器負(fù)載過大,從而拖慢整個作業(yè)進(jìn)度,甚至在極端狀況下,出現(xiàn)內(nèi)存過慢的情況。何鵬認(rèn)為,其主要原因在于任務(wù)調(diào)度分配不合理,其技術(shù)團(tuán)隊(duì)正在開發(fā)一個中間件,以對集群內(nèi)的機(jī)器任務(wù)進(jìn)行合理分配。
何鵬介紹說,其初步設(shè)想是通過tasktracker對CPU、內(nèi)存、硬盤以及網(wǎng)絡(luò)等信息進(jìn)行搜集,并匯報給jobtracker。調(diào)度器接受到這些信息之后,在調(diào)度任務(wù)時將CPU、內(nèi)存、硬盤以及網(wǎng)絡(luò)等信息納入考慮之中,在進(jìn)行合理的任務(wù)分配。
并且,由于數(shù)據(jù)中心的能耗較大,何鵬希望能夠通過技術(shù)手段來降低數(shù)據(jù)中心的能耗。例如集群能源進(jìn)行管理,當(dāng)CPU、I/O以及磁盤長時間處于idle時,即可整機(jī)進(jìn)入省電模式;甚至還可對idle較長的模塊進(jìn)行關(guān)閉操作。
總結(jié)
以上是生活随笔為你收集整理的[Hadoop in China 2011] 何鹏:Hadoop在海量网页搜索中应用分析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 软件的商业智能
- 下一篇: JQuery Basic Feature