Hadoop精华问答 | hadoop能干什么?
Hadoop能夠進行大批量數據的離線處理,但是在實時計算上的表現實在是不盡如人意;而Storm就可以擔當這部分的角色,今天,就讓我們看看關于Storm的精華問答吧。
1
Q:hadoop是什么
A:Hadoop被公認是一套行業大數據標準開源軟件,在分布式環境下提供了海量數據的處理能力。幾乎所有主流廠商都圍繞Hadoop開發工具、開源軟件、商業化工具和技術服務。今年大型IT公司,如EMC、Microsoft、Intel、Teradata、Cisco都明顯增加了Hadoop方面的投入。
2
Q:hadoop能干什么
A:hadoop擅長日志分析,facebook就用Hive來進行日志分析,2009年時facebook就有非編程人員的30%的人使用HiveQL進行數據分析;淘寶搜索中的自定義篩選也使用的Hive;利用Pig還可以做高級的數據處理,包括Twitter、LinkedIn 上用于發現您可能認識的人,可以實現類似Amazon.com的協同過濾的推薦效果。淘寶的商品推薦也是!在Yahoo!的40%的Hadoop作業是用pig運行的,包括垃圾郵件的識別和過濾,還有用戶特征建模。(2012年8月25新更新,天貓的推薦系統是hive,少量嘗試mahout!)
Q:hadoop的核心
A:1.HDFS: Hadoop Distributed File System? 分布式文件系統
2.YARN: Yet Another Resource Negotiator? ?資源管理調度系統
3.Mapreduce:分布式運算框架
Q:HDFS的架構
A:主從結構
??主節點, namenode
??從節點,有很多個: datanode
namenode負責:
??接收用戶操作請求
??維護文件系統的目錄結構
??管理文件與block之間關系,block與datanode之間關系
datanode負責:
? ? ? ? ?存儲文件
? ?文件被分成block存儲在磁盤上
? ?為保證數據安全,文件會有多個副本
Secondary NameNode負責:
? 合并fsimage和edits文件來更新NameNode的metedata
Q:Hadoop的特點
A:擴容能力(Scalable):能可靠地(reliably)存儲和處理千兆字節(PB)數據。
成本低(Economical):可以通過普通機器組成的服務器群來分發以及處理數據。這些服務器群總計可達數千個節點。
高效率(Efficient):通過分發數據,hadoop可以在數據所在的節點上并行地(parallel)處理它們,這使得處理非常的快速。
可靠性(Reliable):hadoop能自動地維護數據的多份副本,并且在任務失敗后能自動地重新部署(redeploy)計算任務。
小伙伴們沖鴨,后臺留言區等著你!
關于Hadoop,今天你學到了什么?還有哪些不懂的?除此還對哪些話題感興趣?快來留言區打卡啦!留言方式:打開第XX天,答:……
同時歡迎大家搜集更多問題,投稿給我們!風里雨里留言區里等你~
福利
1、掃描添加小編微信,備注“姓名+公司職位”,加入【云計算學習交流群】,和志同道合的朋友們共同打卡學習!
2、公眾號后臺回復:白皮書,獲取IDC最新數據白皮書整理資料!
推薦閱讀:
搞不懂SDN?那是因為你沒看這個小故事…
不讓華為收專利費?美議員提案“秀下限”
華為最強自研 NPU 問世,麒麟 810 “拋棄”寒武紀
北郵通信博士萬字長文,帶你秒懂 4G/5G 區別!
LinkedIn最新報告: 區塊鏈成職位需求增長最快領域, 這些地區對區塊鏈人才渴求度最高……
中文NLP的分詞真有必要嗎?李紀為團隊四項任務評測一探究竟 | ACL 2019
6月技術福利限時免費領
真香,朕在看了!
總結
以上是生活随笔為你收集整理的Hadoop精华问答 | hadoop能干什么?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 在旅游城市买房保值还是增值?
- 下一篇: boost::callable_trai