Hive精华问答 | Hive和传统数据库有什么不同?
Hive是一個數據倉庫基礎工具,它是建立在Hadoop之上的數據倉庫,在某種程度上可以把它看做用戶編程接口(API),本身也并不存儲和處理數據,依賴于HDFS存儲數據,依賴MR處理數據。它提供了一系列對數據進行提取、轉換、加載的工具。依賴于HDFS存儲數據,依賴MR處理數據。
1
Q:Hive和傳統數據庫有什么不同?各有什么試用場景。
A:1、數據存儲位置。Hive是建立在Hadoop之上的,所有的Hive的數據都是存儲在HDFS中的。而數據庫則可以將數據保存在塊設備或本地文件系統中。
2、數據格式。Hive中沒有定義專門的數據格式,由用戶指定,需要指定三個屬性:列分隔符,行分隔符,以及讀取文件數據的方法。數據庫中,存儲引擎定義了自己的數據格式。所有數據都會按照一定的組織存儲。
3、數據更新。Hive的內容是讀多寫少的,因此,不支持對數據的改寫和刪除,數據都在加載的時候中確定好的。數據庫中的數據通常是需要經常進行修改。
4、執行延遲。Hive在查詢數據的時候,需要掃描整個表(或分區),因此延遲較高,只有在處理大數據是才有優勢。數據庫在處理小數據是執行延遲較低。
5、索引。Hive沒有,數據庫有
6、執行。Hive是MapReduce,數據庫是Executor
7、可擴展性。Hive高,數據庫低
8、數據規模。Hive大,數據庫
Q:Hive有哪些應用場景?
A:1、Data Ingestion (數據攝取)
2、Data Discovery(數據發現)
3、Data analytics(數據分析)
4、Data Visualization & Collaboration(數據可視化和協同開發)
Q:大數據分析與挖掘方法論是哪六步活動?
A:大數據分析與挖掘方法論被稱為CRISP-DM方法,是以數據為中心迭代循環進行的六步活動,它們分別是:商業理解、數據理解、數據準備、建立模型、模型評估、結果部署。
Q:數據分析挖掘方法大致包含哪些組成部分?
A:1.分類 Classification
2.估計Estimation
3.預測Prediction
4. 關聯規則Association Rules
5. 聚類Cluster
6. 描述與可視化Description and Visualization
5
Q:在數據分析與挖掘中對數據的訪問性有哪些要求?
A:交互性訪問、批處理訪問、迭代計算、數據查詢,Hadoop僅僅支持了其中批處理訪問,而Spark則支持所有4種方式
福利
掃描添加小編微信,備注“姓名+公司職位”,加入【云計算學習交流群】,和志同道合的朋友們共同打卡學習!
推薦閱讀:
微博宕機復盤:什么樣的技術架構,可支持80個明星并發出軌?
漫畫 | Kubernetes帶你一帆風順去遠航
Android 告急!
超酷炫!Facebook用深度學習和弱監督學習繪制全球精準道路圖
多地GitHub賬號使用受限;Python之父考慮重構解釋器;62歲程序員埋邏輯炸彈 | 開發者周刊
3個核心差異, 告訴你為什么Libra永遠成不了比特幣!
總結
以上是生活随笔為你收集整理的Hive精华问答 | Hive和传统数据库有什么不同?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Boost:内存限制的测试程序
- 下一篇: 带累计里程表的两轮电动车有哪些品牌?