[Hadoop in China 2011] 邵铮:揭秘FaceBook Puma演变及发展
?
http://storage.it168.com/a2011/1202/1283/000001283144.shtml
?
▲FaceBook公司軟件工程師、研發經理邵錚
FaceBook公司自成立以來發展就非常迅猛,時至今日,每天都有數以萬計的人活躍在FaceBook之上,這一龐大的用戶群體吸引了大量的企業的注意力,他們希望通過FaceBook這一平臺對自己的產品或服務進行營銷,以精準找到自己的潛在用戶。要精準找到自己的客戶,必然要對FaceBook網站用戶的實時信息進行分析,FaceBook公司提供的實時數據分析工具就凸顯出重要作用。
?
?
據邵錚工程師介紹,FaceBook公司的實時數據分析平臺是建立在Hadoop 和Hive的基礎之上的,Hadoop Hive集群共有超過3000個節點,共同完成對數據的實時處理分析。如上圖所示,數據流通過程涉及的環節較多,每個環節的延遲都會對數據的分析處理能力產生影響,為了最大地降低延遲,盡最大可能為各個用戶提供實時查詢結果,就要盡可能低地較少每個環節的延遲。
?
邵錚工程師在本次技術課程中分享了兩個關鍵之處,一是Data Freeway,另一個則是Hadoop下的由Facebook公司開發改良的Puma環節。
?
邵錚工程師給我們分享了現在Facebook公司所使用的Scribe,如上圖所示。并重點給我們講解了Puma的演進與未來的發展方向。
?
上圖是邵錚工程師認為的Puma理想工作流程,但實際環境中因為各種因素的制約,實際上不太可能達到這一理想流程。
?
?
上圖為Puma的第二個版本,Puma2的命名是為了方便記憶和說明。但據邵錚工程師介紹,Puma同樣存在一些局限。他說,HBase的寫入速度較快,但讀取速度就相對較慢。
上圖為Puma3的拓撲圖,相對于Puma2,其延遲將大幅降低。據悉,Facebook公司目前對實時數據的處理分析能力在10秒多一點,但在未來將 縮短到5秒甚至更短的時間。因為Facebook公司所具有的特殊性,其在未來將大幅縮短寫性能,初步預期,相比于現在,將縮短25%的總體時間?,F在每個機柜的內存為60GB,但在未來,其將大量部署SSD以替代內存,其內存大小將是現在的十倍,即600GB。
邵錚工程師表示,在未來,將對數據調度提供更好的支持,在這點上,需要對Puma進行簡單的調度,因為連續的工作負載;并且將進行大規模普及,將Hive遷移到日常的報告查詢。并且邵錚工程師透露了一個令人極度興奮的消息,這些即將開源,將免費的開放給其他工程師。
轉載于:https://www.cnblogs.com/licheng/archive/2011/12/05/2276355.html
總結
以上是生活随笔為你收集整理的[Hadoop in China 2011] 邵铮:揭秘FaceBook Puma演变及发展的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 11 单线程+多任务异步协程 爬虫
- 下一篇: [AWS vs Azure] 云计算里A