當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大剑无锋之Hive调优【面试推荐】

發布時間：2024/2/28 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了大剑无锋之Hive调优【面试推荐】小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.Fetch抓取

Fetch抓取是指，Hive中對某些情況的查詢可以不必使用MapReduce計算。例如：SELECT * FROM employees;在這種情況下，Hive可以簡單地讀取employee對應的存儲目錄下的文件，然后輸出查詢結果到控制臺。

2.本地模式

對于大多數這種情況，Hive可以通過本地模式在單臺機器上處理所有的任務。對于小數據集，執行時間可以明顯被縮短。

3.表的優化

? ? 3.1小表、大表Join

將key相對分散，并且數據量小的表放在join的左邊，這樣可以有效減少內存溢出錯誤發生的幾率；再進一步，可以使用map?join讓小的維度表（1000條以下的記錄條數）先進內存。在map端完成reduce。

實際測試發現：新版的hive已經對小表JOIN大表和大表JOIN小表進行了優化。小表放在左邊和右邊已經沒有明顯區別。

? ? 3.2大表Join大表

3.2.1空KEY過濾

有時join超時是因為某些key對應的數據太多，而相同key對應的數據都會發送到相同的reducer上，從而導致內存不夠。此時我們應該仔細分析這些異常的key，很多情況下，這些key對應的數據是異常數據，我們需要在SQL語句中進行過濾。

3.2.2空key轉換

有時雖然某個key為空對應的數據很多，但是相應的數據不是異常數據，必須要包含在join的結果中，此時我們可以表a中key為空的字段賦一個隨機的值，使得數據隨機均勻地分不到不同的reducer上。

4.MapJoin

如果不指定MapJoin或者不符合MapJoin的條件，那么Hive解析器會將Join操作轉換成Common Join，即：在Reduce階段完成join。容易發生數據傾斜。可以用MapJoin把小表全部加載到內存在map端進行join，避免reducer處理。

5.Group By

默認情況下，Map階段同一Key數據分發給一個reduce，當一個key數據過大時就傾斜了。

?并不是所有的聚合操作都需要在Reduce端完成，很多聚合操作都可以先在Map端進行部分聚合，最后在Reduce端得出最終結果。

6.Count(Distinct) 去重統計

數據量小的時候無所謂，數據量大的情況下，由于COUNT DISTINCT操作需要用一個Reduce Task來完成，這一個Reduce需要處理的數據量太大，就會導致整個Job很難完成，一般COUNT DISTINCT使用先GROUP BY再COUNT的方式替換

7.笛卡爾積

盡量避免笛卡爾積，join的時候不加on條件，或者無效的on條件，Hive只能使用1個reducer來完成笛卡爾積。

8.行列過濾

列處理：在SELECT中，只拿需要的列，如果有，盡量使用分區過濾，少用SELECT *。

行處理：在分區剪裁中，當使用外關聯時，如果將副表的過濾條件寫在Where后面，那么就會先全表關聯，之后再過濾

9.動態分區調整

關系型數據庫中，對分區表Insert數據時候，數據庫自動會根據分區字段的值，將數據插入到相應的分區中，Hive中也提供了類似的機制，即動態分區(Dynamic Partition)，只不過，使用Hive的動態分區，需要進行相應的配置。

10.分桶

11.分區

12.數據傾斜

12.1合理設置Map數

12.2小文件進行合并

12.3小文件進行合并

12.4合理設置Reduce數

13.并行執行

某個特定的job可能包含眾多的階段，而這些階段可能并非完全互相依賴的，也就是說有些階段是可以并行執行的，這樣可能使得整個job的執行時間縮短。不過，如果有更多的階段可以并行執行，那么job可能就越快完成。

13.嚴格模式

Hive提供了一個嚴格模式，可以防止用戶執行那些可能意想不到的不好的影響的查詢。

13.1對于分區表，除非where語句中含有分區字段過濾條件來限制范圍，否則不允許執行。

13.2對于使用了order by語句的查詢，要求必須使用limit語句。

13.3限制笛卡爾積的查詢。

14.JVM重用

JVM重用是Hadoop調優參數的內容，其對Hive的性能具有非常大的影響，特別是對于很難避免小文件的場景或task特別多的場景，這類場景大多數執行時間都很短。

15.推測執行

在分布式集群環境下，會出現一些任務拖慢作業的整體執行進度?，為了避免這種情況發生，Hadoop采用了推測執行（Speculative Execution）機制，它根據一定的法則推測出“拖后腿”的任務，并為這樣的任務啟動一個備份任務，讓該任務與原始任務同時處理同一份數據，并最終選用最先成功運行完成任務的計算結果作為最終結果。

16.壓縮

16.1要在Hadoop中啟用壓縮，可以配置如下參數（mapred-site.xml文件中）

16.2開啟map輸出階段壓縮可以減少job中map和Reduce task間數據傳輸量。

16.3當Hive將輸出寫入到表中時，輸出內容同樣可以進行壓縮。

17.執行計劃（Explain）?

超強干貨來襲云風專訪：近40年碼齡，通宵達旦的技術人生

總結

以上是生活随笔為你收集整理的大剑无锋之Hive调优【面试推荐】的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Hbase调优详情
下一篇：大剑无锋之UNION 和 UNION A

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

大剑无锋之Hive调优【面试推荐】

總結