2020年阿里大数据一面面经,看看你还有啥不知道的?
一、PV和UV是怎么計(jì)算的,UV怎么進(jìn)行去重的?不用ES該如何實(shí)現(xiàn)去重?
思路:首先要理解PV、UV的基本概念。去重分兩種,一種是基本的數(shù)據(jù)結(jié)構(gòu)(Hashset等),另外一種是借助框架去實(shí)現(xiàn)(bigmap、hyperloglog等)。
二、說(shuō)說(shuō) flink,spark streaming,storm 的區(qū)別?
三、講一講spark的調(diào)度執(zhí)行邏輯,stage,寬依賴(lài)和窄依賴(lài),容錯(cuò)機(jī)制 ?
這部分由于內(nèi)容太多,只提供部分重點(diǎn)答案。
1.調(diào)度執(zhí)行邏輯:
spark shuffle:因?yàn)榫哂心撤N共同的特征的一類(lèi)數(shù)據(jù)需要最終匯聚 (aggregate)到一個(gè)計(jì)算節(jié)點(diǎn)進(jìn)行計(jì)算 ,這個(gè)數(shù)據(jù)重新打亂然后匯聚到不同節(jié)點(diǎn)的過(guò)程就是 shuffle。
老版本:Hash Base shuffle 產(chǎn)生的臨時(shí)文件數(shù) = MapTask * ResultTask
弊:會(huì)產(chǎn)生過(guò)多的臨時(shí)文件。
新版本:SortBased
總結(jié)
以上是生活随笔為你收集整理的2020年阿里大数据一面面经,看看你还有啥不知道的?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Flink从入门到精通100篇(十一)-
- 下一篇: 2020必知的 10 大顶级 pytho