2021年大数据Hadoop(三):Hadoop国内外应用
2021大數據領域優質創作博客,帶你從入門到精通,該博客每天更新,逐漸完善大數據各個知識體系的文章,幫助大家更高效學習。
有對大數據感興趣的可以關注微信公眾號:三幫大數據
目錄
Hadoop國內外應用
Hadoop在國外應用的部分企業
一、Yahoo
二、Facebook
三、IBM
Hadoop在國內應用的部分企業
一、百度
二、阿里巴巴
三、華為
四、騰訊
Hadoop國內外應用
Hadoop在國外應用的部分企業
一、Yahoo
Yahoo是Hadoop的最大支持者,Yahoo的Hadoop機器總節點數目已經超過42000個,有超過10萬的核心CPU在運行Hadoop。最大的一個單Master節點集群有4500個節點(每個節點雙路4核心CPUboxesw,4×1TB磁盤,16GBRAM)。總的集群存儲容量大于350PB,每月提交的作業數目超過1000萬個。
Yahoo的Hadoop應用主要包括以下幾個方面:
- 支持廣告系統
- 用戶行為分析
- 支持Web搜索
- 反垃圾郵件系統
- 個性化推薦
二、Facebook
主要用于存儲內部日志的拷貝,作為一個源用于處理數據挖掘和日志統計。 主要使用了2個集群:一個由1100臺節點組成的集群,包括8800核CPU(即每臺機器8核),和12000TB的原始存儲(即每臺機器12T硬盤) 一個有300臺節點組成的集群,包括2400核CPU(即每臺機器8核),和3000TB的原始存儲(即每臺機器12T硬盤) 由此基礎上開發了基于SQL語法的項目:HIVE 。
Facebook使用Hadoop集群的機器節點超過1400臺,共計11200個核心CPU,超過15PB原始存儲容量,每個商用機器節點配置了8核CPU,12TB數據存儲,主要使用StreamingAPI和JavaAPI編程接口。Facebook同時在Hadoop基礎上建立了一個名為Hive的高級數據倉庫框架,Hive已經正式成為基于Hadoop的Apache一級項目。
三、IBM
IBM藍云也利用Hadoop來構建云基礎設施。IBM藍云使用的技術包括:Xen和PowerVM虛擬化的Linux操作系統映像及Hadoop并行工作量調度,并發布了自己的Hadoop發行版及大數據解決方案。
Hadoop在國內應用的部分企業
一、百度
Hadoop集群規模達到近十個,單集群超過2800臺機器節點,Hadoop機器總數有上萬臺機器,總的存儲容量超過100PB,已經使用的超過74PB,每天提交的作業數目有數千個之多,每天的輸入數據量已經超過7500TB,輸出超過1700TB。
百度的Hadoop集群為整個公司的數據團隊、大搜索團隊、社區產品團隊、廣告團隊,以及LBS團體提供統一的計算和存儲服務,主要應用包括:
- 數據挖掘與分析
- 日志分析平臺
- 數據倉庫系統
- 推薦引擎系統
- 用戶行為分析系統
二、阿里巴巴
阿里巴巴的Hadoop集群大約有3200臺服務器,大約30000物理CPU核心,總內存100TB,總的存儲容量超過60PB,每天的作業數目超過150000個,每天hive的query查詢大于6000個,每天掃描數據量約為7.5PB,每天掃描文件數約為4億,存儲利用率大約為80%,CPU利用率平均為65%,峰值可以達到80%。
Hadoop集群擁有150個用戶組、4500個集群用戶,為電子商務網絡平臺提供底層的基礎計算和存儲服務,主要應用包括:
數據平臺系統。
搜索支撐。
電子商務數據。
推薦引擎系統。
搜索排行榜。
三、華為
華為對Hadoop做出貢獻的公司之一,排在Google和Cisco的前面,華為對Hadoop的HA方案,以及HBase領域有深入研究,并已經向業界推出了自己的基于Hadoop的大數據解決方案。
四、騰訊
TDW(Tencent distributed Data Warehouse,騰訊分布式數據倉庫)基于開源軟件Hadoop和Hive進行構建,打破了傳統數據倉庫不能線性擴展、可控性差的局限,并且根據騰訊數據量大、計算復雜等特定情況進行了大量優化和改造。
TDW服務覆蓋了騰訊絕大部分業務產品,單集群規模達到4400臺,CPU總核數達到10萬左右,存儲容量達到100PB;每日作業數100多萬,每日計算量4PB,作業并發數2000左右;實際存儲數據量80PB,文件數和塊數達到6億多;存儲利用率83%左右,CPU利用率85%左右。經過四年多的持續投入和建設,TDW已經成為騰訊最大的離線數據處理平臺。TDW的功能模塊主要包括:Hive、MapReduce、HDFS、TDBank、Lhotse等。
- 📢博客主頁:https://lansonli.blog.csdn.net
- 📢歡迎點贊 👍 收藏 ?留言 📝 如有錯誤敬請指正!
- 📢本文由 Lansonli 原創,首發于 CSDN博客🙉
- 📢大數據系列文章會每天更新,停下休息的時候不要忘了別人還在奔跑,希望大家抓緊時間學習,全力奔赴更美好的生活?
總結
以上是生活随笔為你收集整理的2021年大数据Hadoop(三):Hadoop国内外应用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2021年大数据Hadoop(二):Ha
- 下一篇: 2021年大数据Hadoop(四):Ha