當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

[Hadoop in China 2011] 何鹏：Hadoop在海量网页搜索中应用分析

發(fā)布時間：2025/6/17 编程问答 20 豆豆

生活随笔收集整理的這篇文章主要介紹了 [Hadoop in China 2011] 何鹏：Hadoop在海量网页搜索中应用分析小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

何鵬是即刻搜索研發(fā)部系統(tǒng)平臺組的工程師，即刻搜索是人民網(wǎng)其下的搜索引擎，由人民搜索轉(zhuǎn)變而來，于今年6月20日正式上線。據(jù)何鵬介紹，即刻搜索目前存放了200億個文件以上，其整個系統(tǒng)架構(gòu)采用Hadoop海量數(shù)據(jù)分析平臺，并針對特定環(huán)境對應(yīng)用程序做了修改。在本次演講中，何鵬工程師將為我們分析基于Hadoop的海量網(wǎng)頁分析案例。

▲即刻搜索研發(fā)部系統(tǒng)平臺組工程師何鵬

　　即刻搜索整體架構(gòu)借助了Hadoop整個海量分析平臺，并針對特定環(huán)境增刪修改了部分中間件，改良了部分應(yīng)用程序，以提高性能，下圖所展示的是即刻搜索的整體框架圖：

▲即刻搜索整體架構(gòu)圖

　　在上圖中，HDFS即為Hadoop海量數(shù)據(jù)處理平臺，其中Hdfs_Bridge為新添加的中間件，并且，JikeSpider為即刻搜索工程師新開發(fā)的應(yīng)用，并對部分程序進(jìn)行了改良。

　　Hdfs_Bridge為即刻搜索海量數(shù)據(jù)處理平臺的中間件，主要是滿足爬蟲的快速寫，并對文件提供自動Flush sstable功能。其通過將寫轉(zhuǎn)化為內(nèi)存寫，用DFS直接Flush。以此替代HDFS的多次不必要的序列化和反序列化。

▲

　　并且，即刻還對Hadoop Pipes進(jìn)行了改良。通過修改Hadoop pipse的通信寫u，將單一的路勁輸入輸出改為多路徑輸入輸出。還進(jìn)行本地化調(diào)試，并對部分代碼進(jìn)行了優(yōu)化。

　　據(jù)何鵬工程師介紹，目前即刻搜索的海量數(shù)據(jù)處理平臺還存在一些不足，正在不斷優(yōu)化。比如在部分大型作業(yè)時，多個task分配到同一臺及其，導(dǎo)致該機(jī)器負(fù)載過大，從而拖慢整個作業(yè)進(jìn)度，甚至在極端狀況下，出現(xiàn)內(nèi)存過慢的情況。何鵬認(rèn)為，其主要原因在于任務(wù)調(diào)度分配不合理，其技術(shù)團(tuán)隊(duì)正在開發(fā)一個中間件，以對集群內(nèi)的機(jī)器任務(wù)進(jìn)行合理分配。

　　何鵬介紹說，其初步設(shè)想是通過tasktracker對CPU、內(nèi)存、硬盤以及網(wǎng)絡(luò)等信息進(jìn)行搜集，并匯報給jobtracker。調(diào)度器接受到這些信息之后，在調(diào)度任務(wù)時將CPU、內(nèi)存、硬盤以及網(wǎng)絡(luò)等信息納入考慮之中，在進(jìn)行合理的任務(wù)分配。

　　并且，由于數(shù)據(jù)中心的能耗較大，何鵬希望能夠通過技術(shù)手段來降低數(shù)據(jù)中心的能耗。例如集群能源進(jìn)行管理，當(dāng)CPU、I/O以及磁盤長時間處于idle時，即可整機(jī)進(jìn)入省電模式;甚至還可對idle較長的模塊進(jìn)行關(guān)閉操作。

總結(jié)

以上是生活随笔為你收集整理的[Hadoop in China 2011] 何鹏：Hadoop在海量网页搜索中应用分析的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：软件的商业智能
下一篇： JQuery Basic Feature

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

[Hadoop in China 2011] 何鹏：Hadoop在海量网页搜索中应用分析

總結(jié)