春招快到了,送你一份数据分析常见面试题
找了半年工作,面試了幾個data science的職位,總結了一些常見的問題,在這兒拋磚引玉。
自我介紹
幾乎所有的面試都免不了以自我介紹為開頭。對于考官,通常也會想基于自我介紹發現接下來要問的問題。所以,自我介紹非常重要。我參考的模板:
教育背景:簡單說說哪年在哪里獲得什么學位。
相關經驗:按時間順序講一下2個做過的項目,介紹下用了什么辦法,比如用了什么編程語言,最后的成果是什么。最好有些量化的指標,比如發表了多少論文,被引用了多少次。這些項目最好和面試的職位有關系。實在沒有,也可以看看從中學到的知識或者技能可否擴展到data science. 比如之前做過信號處理,可以講這個項目為data science打下了統計基礎。
最自豪的成就和表態:介紹一下自己最自豪的項目,關鍵是要點出自己的優勢,比如迅速掌握了一個很大的代碼庫,或者在代碼庫中加入了一個很有用的特性,并再次強調一下自己的優勢,結尾說,我希望能在XX公司繼續發揮這些優勢。
被問過的問題總結
機器學習(Machine learning)算法
包括算法對數據的假設,推導,有什么優缺點,何時改用什么算法,怎么選擇算法,很類似P2 student intervention的model選擇問題。
作為入門的參考書:Introduction to Data Mining?(Pang-Ning Tan, Michael Steinbach, Vipin Kumar);
復雜一點兒的:The Elements of Statistical Learning?(Trevor Hastie, Robert Tibshirani , Jerome Friedman)
相關的算法可能包括:
Classification / Regression
SVM:是很多考官的最愛,最好做到可以推導
Neural Networks
Trees & ensemble methods: boosting, bagging
Clustering
K-means/median/medoids
Spectral clustering
Hierarchical
DBSCAN: density based spatial clustering of applications with noise
Self organizing map
Association:?這個在Udacity沒有介紹,但是大數據可能會用到
Apriori 以及它對大數據的衍生
FP growth 并行實現
其他算法問題:
1、Q-learning: 解釋為什么update Q value的時候要用下一個state的max Q,為什么不能用mean?
2、Kalman filter: 在項目中用到了,要求推導
3、Expectation maximization
關于大數據的問題
1、很多職位要求的數據量,要遠遠大于Udacity的項目,所以會牽扯到一些大數據相關的問題
2、參考書:Mining of Massive Datasets?(Jure Leskovec, Anand Rajaraman, Jeff Ullman)?
免費的下載:http://infolab.stanford.edu/~ullman/mmds/book.pdf
3、算法:
Finding similar items
Find frequent itemsets
Recommendation systems
Social graph mining
關于大數據的問題:
用過的數據量有多大
GPU的相關經驗?
Hadoop是怎么讀入很大的數據的? 接受HDFS?
Spark的相關項目,用的什么model和library
Spark: RDD相關的概念
Spark: 如果數據遠遠大于內存,是怎么處理的?
是否遇到過這樣的情景:通過對數據的初步分析,觀察到有趣的現象?
Spark: 舉例說明inner join, outer join, etc.
其他網上看到的常見問題:
Support, confidence, and lift
What is curse of dimensionality?
A/B testing
Precision, recall, F1
How to handle missing data?
來源:優達學城
精彩活動
福利 · 閱讀 | 免費申請讀大數據新書 第23期
推薦閱讀
2017年數據可視化的七大趨勢!?
全球100款大數據工具匯總(前50款)?
論大數據的十大局限
大數據時代的10個重大變革
大數據七大趨勢 第一個趨勢是物聯網
Q:?今年,你準備換工作嗎?
歡迎留言與大家分享
請把這篇文章分享給你的朋友
轉載 / 投稿請聯系:hzzy@hzbook.com
更多精彩文章,請在公眾號后臺點擊“歷史文章”查看
總結
以上是生活随笔為你收集整理的春招快到了,送你一份数据分析常见面试题的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: STM32之RCC原理
- 下一篇: FreeRTOS列表