當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

窗口函数和hive优化简记

發(fā)布時(shí)間：2024/8/23 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了窗口函数和hive优化简记小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

窗口函數(shù)：
（1） OVER()：指定分析函數(shù)工作的數(shù)據(jù)窗口大小，這個(gè)數(shù)據(jù)窗口大小可能會(huì)隨著行的變而變化。常用partition by 分區(qū)order by排序。
（2）CURRENT ROW：當(dāng)前行
（3）n PRECEDING：往前n行數(shù)據(jù)
（4） n FOLLOWING：往后n行數(shù)據(jù)
（5）UNBOUNDED：起點(diǎn)，UNBOUNDED PRECEDING 表示從前面的起點(diǎn)， UNBOUNDED FOLLOWING表示到后面的終點(diǎn)
（6） LAG(col,n)：往前第n行數(shù)據(jù)
（7）LEAD(col,n)：往后第n行數(shù)據(jù)
（8） NTILE(n)：把有序分區(qū)中的行分發(fā)到指定數(shù)據(jù)的組中，各個(gè)組有編號，編號從1開始，對于每一行，NTILE返回此行所屬的組的編號。注意：n必須為int類型。

排序函數(shù)：
（1）RANK() 排序相同時(shí)會(huì)重復(fù)，總數(shù)不會(huì)變
（2）DENSE_RANK() 排序相同時(shí)會(huì)重復(fù)，總數(shù)會(huì)減少
（3）ROW_NUMBER() 會(huì)根據(jù)順序計(jì)算

4個(gè)By區(qū)別
1）Sort By：分區(qū)內(nèi)有序；
2）Order By：全局排序，只有一個(gè)Reducer；
3）Distrbute By：類似MR中Partition，進(jìn)行分區(qū)，結(jié)合sort by使用。
4） Cluster By：當(dāng)Distribute by和Sorts by字段相同時(shí)，可以使用Cluster by方式。Cluster by除了具有Distribute by的功能外還兼具Sort by的功能。但是排序只能是升序排序，不能指定排序規(guī)則為ASC或者DESC。

Hive優(yōu)化
1）MapJoin
如果不指定MapJoin或者不符合MapJoin的條件，那么Hive解析器會(huì)將Join操作轉(zhuǎn)換成Common Join，即：在Reduce階段完成join。容易發(fā)生數(shù)據(jù)傾斜?？梢杂肕apJoin把小表全部加載到內(nèi)存在map端進(jìn)行join，避免reducer處理。
2）行列過濾
列處理：在SELECT中，只拿需要的列，如果有，盡量使用分區(qū)過濾，少用SELECT *。
行處理：在分區(qū)剪裁中，當(dāng)使用外關(guān)聯(lián)時(shí)，如果將副表的過濾條件寫在Where后面，那么就會(huì)先全表關(guān)聯(lián)，之后再過濾。
3）采用分桶技術(shù)
4）采用分區(qū)技術(shù)

總結(jié)

以上是生活随笔為你收集整理的窗口函数和hive优化简记的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：【转载保存】MySQL时间、字符串、时间
下一篇：系统设计类问题

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

窗口函数和hive优化简记

總結(jié)