Storm精华问答 | storm与Hadoop区别?
戳藍字“CSDN云計算”關注我們哦!
Apache Storm是一個分布式實時大數據處理系統。Storm設計用于在容錯和水平可擴展方法中處理大量數據。它是一個流數據框架,具有最高的攝取率。今天,我們就挑一些Storm的安裝配置問題來看看吧。
1
? Q:Storm簡介
A:1.Storm是一套分布式的、可靠的,可容錯的用于處理流式數據的系統。?
2.Storm也是基于C/S架構來進行工作的,C負責將數據處理的方式的jar(Topology)發送給S,S解析C發送過來的jar(Topology),并按一定規則jar變成多個Task((Spout/Bolt)),生成相關的進程和線程運行里面的Task。?
Q:storm與Hadoop區別?
A:storm用于實時計算,hadoop用于離線計算
storm處理的數據保存在內存中,源源不斷;hadoop處理的數據保存在文件系統中,一批一批
storm的數據通過網絡傳輸進來的;hadoop的數據保存在磁盤中;
storm與hadoop的編程模型相似
? ? ? ?Q:Storm有哪些特性?
? ? ? ?A:?1.適用場景廣泛:storm可以實時處理消息和更新DB,對一個數據量進行持續的查詢并返回客戶端(持續計算),對一個耗資源的查詢作實時并行化的處理(分布式方法調用,即DRPC),storm的這些基礎API可以滿足大量的場景。
2. 可伸縮性高:? Storm的可伸縮性可以讓storm每秒可以處理的消息量達到很高。擴展一個實時計算任務,你所需要做的就是加機器并且提高這個計算任務的并行度 。Storm使用ZooKeeper來協調集群內的各種配置使得Storm的集群可以很容易的擴展。
3. 保證無數據丟失:實時系統必須保證所有的數據被成功的處理。那些會丟失數據的系統的適用場景非常窄, 而storm保證每一條消息都會被處理, 這一點和S4相比有巨大的反差。
4. 異常健壯:storm集群非常容易管理,輪流重啟節點不影響應用。
5. 容錯性好:在消息處理過程中出現異常, storm會進行重試
6. 語言無關性:Storm的topology和消息處理組件(Bolt)可以用任何語言來定義, 這一點使得任何人都可以使用storm。
Q:Storm的運用場景
A:日志分析:從海量日志中分析出特定的數據,并將分析的結果存入外部存儲器用來輔佐決策;
管道系統:將一個數據從一個系統傳出到另一個系統,比如講數據庫同步到hadoop;
消息轉化器:將接受到的消息按照某種格式進行轉化,存儲到另一個系統如消息中間件。
5
??Q:Storm典型案例
??
? A:淘寶實時分析系統:實時分析用戶的屬性,并反饋給搜索引擎,最初,用戶屬性分析是通過每天在云梯上定時運行的MR job來完成的。為了滿足實時性的要求,希望能夠實時分析用戶的行為日志,將最初的用戶屬性反饋給搜索引擎,能夠為用戶展示最貼近其當前需求的結果
攜程網站性能監控:實時分析系統監控攜程的網站的性能,利用HTML5提供的performance標準獲得可用的指標,并記錄日志。storm集群實時分析日志和入庫。使用DRPC聚合成報表,通過歷史數據對比等判斷規則,觸發預警事件。
阿里媽媽用戶畫像:實時計算用戶的興趣數據,為了更加精準投放廣告,阿里媽媽后臺計算引擎需要維護每個用戶的興趣點(理想狀態是,你對什么感興趣,就向你投放呢類廣告)。用于興趣主要基于用戶的歷史行為、用戶的實時查詢、用戶的實時點擊、用戶的地理信息而得,其中實時查詢、實時點擊等用戶行為都是實時數據。考慮到系統的實時性。阿里媽媽使用storm維護用戶興趣數據,并在此基礎上進行受眾定向的廣告投放。
小伙伴們沖鴨,后臺留言區等著你!
關于Storm,今天你學到了什么?除此還對哪些話題感興趣?快來留言區打卡啦!留言方式:打開第XX天,答:……
同時歡迎大家搜集更多問題,投稿給我們!風里雨里留言區里等你~
福利
掃描添加小編微信,備注“姓名+公司職位”,加入【云計算學習交流群】,和志同道合的朋友們共同打卡學習!
推薦閱讀:
如何高效地準備技術面試?
漫畫:有趣的“帽子問題”
我為什么放棄了 Chrome?
5天破10億的哪吒,為啥這么火,Python來分析
通俗易懂:圖解10大CNN網絡架構
互聯網公司上演反腐風暴;GitHub CEO 對斷供表示無能為力;程序員面試錦集| 開發者周刊
在其他國家被揭穿騙子又盯上非洲? 這幾個騙子公司可把非洲人民坑苦了……
總結
以上是生活随笔為你收集整理的Storm精华问答 | storm与Hadoop区别?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: XEXYMIX适合多大年纪?
- 下一篇: Boost::context模块fibe