BAT机器学习面试1000题系列(第1~10题)
1.請簡要介紹下SVM
SVM,全稱是support vector machine,中文名叫支持向量機。SVM是一個面向數據的分類算法,它的目標是為確定一個分類超平面,從而將不同的數據分隔開。
參考:http://blog.csdn.net/qq_36330643/article/details/77574587
2.請簡要介紹下tensorflow的計算圖 ??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????
3.請問GBDT和XGBoost的區別是什么?
xgboost類似于gbdt的優化版,不論是精度還是效率上都有了提升。與gbdt相比,具體的優點有:
1.損失函數是用泰勒展式二項逼近,而不是像gbdt里的就是一階導數;
2.對樹的結構進行了正則化約束,防止模型過度復雜,降低了過擬合的可能性;
3.節點分裂的方式不同,gbdt是用的gini系數,xgboost是經過優化推導后的;
更多詳見:https://xijunlee.github.io/2017/06/03/%E9%9B%86%E6%88%90%E5%AD%A6%E4%B9%A0%E6%80%BB%E7%BB%93/
4.在k-means或kNN,我們是用歐氏距離來計算最近的鄰居之間的距離。為什么不用曼哈頓距離?
曼哈頓距離只計算水平或垂直距離,有維度的限制。另一方面,歐氏距離可用于任何空間的距離計算問題。因為,數據點可以存在于任何空間,歐氏距離是更可行的選擇。例如:想象一下國際象棋棋盤,象或車所做的移動是由曼哈頓距離計算的,因為它們是在各自的水平和垂直方向做的運動。
5.百度2015校招機器學習筆試題百度2015校招機器學習筆試題
http://www.itmian4.com/thread-7042-1-1.html
7.關于LR
把LR從頭到腳都給講一遍。建模,現場數學推導,每種解法的原理,正則化,LR和maxent模型啥關系,lr為啥比線性回歸好。有不少會背答案的人,問邏輯細節就糊涂了。原理都會? 那就問工程,并行化怎么做,有幾種并行化方式,讀過哪些開源的實現。還會,那就準備收了吧,順便逼問LR模型發展歷史。
另外,關于答案這篇文章可以做參考:
http://blog.csdn.net/cyh_24/article/details/50359055.html
http://blog.csdn.net/zouxy09/article/details/20319673
8.overfitting怎么解決
dropout、regularization、batch normalizatin
9.LR和SVM的聯系與區別
????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????
2、兩個方法都可以增加不同的正則化項,如l1、l2等等。所以在很多實驗中,兩種算法的結果是很接近的。?
區別:?
1、LR是參數模型,SVM是非參數模型。?
2、從目標函數來看,區別在于邏輯回歸采用的是logistical loss,SVM采用的是hinge loss.這兩個損失函數的目的都是增加對分類影響較大的數據點的權重,減少與分類關系較小的數據點的權重。?
3、SVM的處理方法是只考慮support vectors,也就是和分類最相關的少數點,去學習分類器。而邏輯回歸通過非線性映射,大大減小了離分類平面較遠的點的權重,相對提升了與分類最相關的數據點的權重。?
4、邏輯回歸相對來說模型更簡單,好理解,特別是大規模線性分類時比較方便。而SVM的理解和優化相對來說復雜一些,SVM轉化為對偶問題后,分類只需要計算與少數幾個支持向量的距離,這個在進行復雜核函數計算時優勢很明顯,能夠大大簡化模型和計算。?
5、logic 能做的 svm能做,但可能在準確率上有問題,svm能做的logic有的做不了。
來源:http://blog.csdn.net/timcompp/article/details/62237986
10.LR與線性回歸的區別與聯系
個人感覺邏輯回歸和線性回歸首先都是廣義的線性回歸,
其次經典線性模型的優化目標函數是最小二乘,而邏輯回歸則是似然函數,
另外線性回歸在整個實數域范圍內進行預測,敏感度一致,而分類范圍,需要在[0,1]。邏輯回歸就是一種減小預測范圍,將預測值限定為[0,1]間的一種回歸模型,因而對于這類問題來說,邏輯回歸的魯棒性比線性回歸的要好。
邏輯回歸的模型本質上是一個線性回歸模型,邏輯回歸都是以線性回歸為理論支持的。但線性回歸模型無法做到sigmoid的非線性形式,sigmoid可以輕松處理0/1分類問題。
總結
以上是生活随笔為你收集整理的BAT机器学习面试1000题系列(第1~10题)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 彻底理解Python中的yield
- 下一篇: kaggle入门-Bike Sharin