数据丢失与重复_大数据面试题分享-恭喜这位朋友刚毕业拿到了20K
找工作的同學有福氣啦!真實大數據面試經驗分享系列文章逐步上線,歡迎持續關注!
某網
一位朋友的面經,恭喜他拿到了高薪的 offer。
1、介紹項目
2、redis用過嗎
談談redis吧
鍵值分別是什么,用的什么數據結構
談談redis的三種模式,你們用的什么模式
3、kafka
kafka+sparkstream的兩種模式,有什么區別
direct模式如果偏移量是自己維護嗎,如果來了一批數據還沒有消費完,下一批就來了,如何保證每消費完的那一部分數據不會丟失
你們kafka里面一個topic下面設置了多少個patition,每個patition多少副本
假如讓你設計一個線程安全的kafka消費模型,怎么設置,可以把它放在什么數據結構中
4、hbase
你們region一般設置多少個
假如我要scan一張表,在hbase里面的流程是什么樣的(要注意把region的尋址也說出)
hbase你們一般讀操作多還是寫操作多還是混合操作
5、hive
hive分層
6、spark
spark優化
spark shuffle的種類,分別有什么區別
spark MLlib用過什么庫
spark里面的數據模型
spark中job是怎么回事,是怎么劃分的
spark任務的執行流程
7、storm與sparkstream對比
8、es了解嗎,它比solr好在哪里,底層是什么
9、JVM了解多少
spark統一內存管理中,存儲內存和執行內存占的比例,執行內存占用資源后,存儲內存還可以拿回去嗎
10、java:
spring的aop、ioc
springmvc處理一個請求的流程是什么樣的
springmvc用了什么設計模式
arrayList底層是什么?與linkList對比
線程池用的多嗎?怎么得到一個帶返回值的線程
--------------------------------------------
11、hashmap的原理又被問到了,怎么防止hashmap的碰撞問題
12、寫個冒泡排序?快排是什么樣的
13、說說spark的RDD
14、hdfs有什么結構
15、hive的優化
16、hbase的rowkey設計
17、kafka的數據丟失和重復消費問題
18、jvm中新生代跟老年代的比例
19、線程有什么狀態
20、flume有沒有碰到過收集到重復數據的問題,怎么解決呢
21、sqoop從兩臺不同的服務器拉數據的時候,萬一服務器時間不同步會有什么情況
22、dubbo是干什么用的,怎么用
總結
以上是生活随笔為你收集整理的数据丢失与重复_大数据面试题分享-恭喜这位朋友刚毕业拿到了20K的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 怎么写脚本_直播脚本怎么写|请收下这份攻
- 下一篇: python json转换字典_Pyth