知乎上砍手豪关于kaggle的观点(转载)
知乎上的砍手豪的kaggle主頁是:
https://www.kaggle.com/h4211819/competitions
此人以數據挖掘為主,下面是他在知乎上寫的我發現的比較有用的一些觀點.
?
比賽的一開始就有人教大家怎么probing leaderboard,如果用那些被探測到的數據,
自然就很容易在LB混到好名次,所以比賽完了自然要掉名次。
其次跟19%,81%沒啥關系,照說本來就該用local CV的,去過擬合public board的只能說根本還沒入門機器學習。
GBDT對參數其實沒那么敏感,對異常值敏感
就說我參賽的經歷吧,我就發現X236=1的時候全是大數,
然而總共也就只有兩個樣本,
天知道是outlier還是有價值的pattern,
像隨機森林和線性模型基本都會忽略這種聯系,
但是gbdt這種對outlier敏感的會在某些random seed的情況下體現出這個聯系的影響。
用xgboost這類Tree Based model啦
題主也是在做kaggle的俄羅斯房地產題吧
按照我做這個題的經驗,任何企圖填充NaN和outlier的行為都會使xgboost的score下降...
data>model>feature engineering>ensemble(這個不一定對,因為有些數據集就是存在兩種相反的規律,就是需要不同的模型混合)
提到了嫁接學習:
https://github.com/plantsgo/ijcai-2018
下面這個鏈接提到了把數據重新排布下,提高四個萬分位
https://zhuanlan.zhihu.com/p/36580283
愿意分享代碼的其實主要是排名2%~3%的Olivier,andy harless這樣的選手。
提到了對重復樣本的檢測
https://zhuanlan.zhihu.com/p/50203168
kaggle的比賽真的靠ensemble嗎?
所有人談論kaggle的時候都不區分討論tabular比賽和cvnlp 這種nn類比賽,
我覺得nn類比賽確實連簡單的seed average都可以得到不錯的分數提升,
但是在tabular比賽里,xgb和lgb是非常強大穩定的模型,ensemble的提升
在我看來其實是非常有限的。
我個人觀點,除了匿名數據賽外,一個比賽獲勝的重要性是:
好的baseline>業務理解(特征工程+數據清理等等)>模型融合,
xgb/lgb作為tabular比賽強大而穩定的模型,想像nn那樣多跑幾個多樣性上分,
可能收益還不如細微的抖動。
ensemble主要用于將一個互不認識的大團隊成員短期快速整合的手段,
事實上上面很多隊伍還只是簡單線性疊加而已,也不會比ensemble差。
16年及以前,kaggle幾MB甚至幾百kb的小數據匿名賽比例較大,
有靠這個刷到GM的,所以那時候給人一種kaggle要靠大量模型堆疊的感覺。
大佬蛙哥回復表示:
在訓練集和測試機分布不完全一致的時候,pseudo-labelling是殺手锏級別方法。
https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/discussion/52557#300898
(這個方法我試了下,毛病就是非常容易爆內存,本地需要有較好的設備才容易進行)
總結
以上是生活随笔為你收集整理的知乎上砍手豪关于kaggle的观点(转载)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Adam是RmsProp和momentu
- 下一篇: 关于高并发的一些笔记