Toping Kagglers:Bestfitting,目前世界排名第一
Toping Kagglers:Bestfitting,目前世界排名第一
我們?cè)谂判邪裆吓琶谝?- 這是兩年前令人驚訝地加入該平臺(tái)的競(jìng)爭對(duì)手。Shubin Dai,他的朋友們更喜歡Kaggle或賓果游戲,他是一位住在中國長沙的數(shù)據(jù)科學(xué)家和工程經(jīng)理。他目前領(lǐng)導(dǎo)著一家為銀行提供軟件解決方案的公司。在工作之外,在Kaggle之外,戴是一個(gè)狂熱的山地車手,喜歡在大自然中度過時(shí)光。這里是最好的:
你能告訴我們一些你自己和你的背景嗎?
我主修計(jì)算機(jī)科學(xué),擁有超過10年的軟件開發(fā)經(jīng)驗(yàn)。為了工作,我目前領(lǐng)導(dǎo)一個(gè)為銀行提供數(shù)據(jù)處理和分析解決方案的團(tuán)隊(duì)。
從大學(xué)開始,我一直對(duì)使用數(shù)學(xué)來構(gòu)建解決問題的程序感興趣。我不斷閱讀各種計(jì)算機(jī)科學(xué)書籍和論文,很幸運(yùn)能夠跟蹤過去十年中在機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方面取得的進(jìn)展。
你是如何從Kaggle比賽開始的?
如前所述,我一直在閱讀很多關(guān)于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的書籍和論文,但發(fā)現(xiàn)我總是很難將我學(xué)到的算法應(yīng)用到現(xiàn)有的小數(shù)據(jù)集上。所以我發(fā)現(xiàn)Kaggle是一個(gè)很棒的平臺(tái),有各種有趣的數(shù)據(jù)集,內(nèi)核和很棒的討論。我迫不及待想要嘗試一下,并首次進(jìn)入“預(yù)測(cè)紅帽商業(yè)價(jià)值”競(jìng)賽。
在參加新比賽時(shí),你的第一個(gè)行動(dòng)計(jì)劃是什么?
在競(jìng)賽發(fā)布的第一周內(nèi),我創(chuàng)建了一個(gè)解決方案文檔,隨著競(jìng)爭的繼續(xù),我會(huì)跟進(jìn)并更新。要做到這一點(diǎn),我必須首先嘗試了解手頭的數(shù)據(jù)和挑戰(zhàn),然后研究類似的Kaggle比賽和所有相關(guān)論文。
你的迭代周期是什么樣的?
您最喜歡的機(jī)器學(xué)習(xí)算法是什么?
我根據(jù)具體情況選擇算法,但我更喜歡使用簡單的算法,例如在整體時(shí)使用嶺回歸,我總是喜歡從resnet-50開始,或者在深度學(xué)習(xí)競(jìng)賽中設(shè)計(jì)類似的結(jié)構(gòu)。
你最喜歡的機(jī)器學(xué)習(xí)庫是什么?
我非常喜歡計(jì)算機(jī)視覺競(jìng)賽中的pytorch。我在NLP或時(shí)間序列比賽中使用tensorflow或keras。在進(jìn)行分析時(shí),我在scipy家族中使用seaborn和產(chǎn)品。并且,scikit-learn和XGB始終是很好的工具。
您對(duì)超調(diào)整參數(shù)的方法是什么?
我嘗試根據(jù)我對(duì)數(shù)據(jù)的理解和算法背后的理論來調(diào)整參數(shù),如果我無法解釋為什么結(jié)果更好或更差,我將感到不安全。
在深度學(xué)習(xí)競(jìng)賽中,我經(jīng)常搜索相關(guān)論文并試圖找到作者在類似情況下所做的事情。
并且,我將比較參數(shù)更改之前和之后的結(jié)果,例如預(yù)測(cè)分布,受影響的示例等。
您對(duì)實(shí)體交叉驗(yàn)證/最終提交選擇和LB擬合的方法是什么?
良好的簡歷是成功的一半。如果我找不到評(píng)估模型的好方法,我不會(huì)進(jìn)入下一步。
要建立穩(wěn)定的簡歷,您必須充分了解數(shù)據(jù)和面臨的挑戰(zhàn)。我還要檢查并確保驗(yàn)證集具有與訓(xùn)練集和測(cè)試集類似的分布,并且我將嘗試確保我的模型在我的本地簡歷和公共LB上都得到改進(jìn)。
在一些時(shí)間序列比賽中,我將數(shù)據(jù)留出一段時(shí)間作為驗(yàn)證集。
我經(jīng)常以保守的方式選擇我的最終提交,我總是選擇我的安全模型的加權(quán)平均集合并選擇相對(duì)危險(xiǎn)的一個(gè)(在我看來,更多的參數(shù)等同于更多的風(fēng)險(xiǎn))。但是,我從來沒有選擇過我無法解釋的提交,即使公共LB得分很高。
簡而言之,贏得比賽的是什么?
良好的簡歷,從其他比賽中學(xué)習(xí),閱讀相關(guān)論文,紀(jì)律和心理韌性。
你最喜歡的Kaggle比賽是什么?為什么?
自然保護(hù)和醫(yī)療相關(guān)比賽是我最喜歡的。我覺得我應(yīng)該,也許可以做一些事情來改善我們的生活和地球。
您最興奮的機(jī)器學(xué)習(xí)領(lǐng)域是什么?
我對(duì)深度學(xué)習(xí)的各種進(jìn)步感興趣。我想用深度學(xué)習(xí)來解決除了計(jì)算機(jī)視覺或NLP之外的問題,所以我嘗試在我參加的比賽和常規(guī)職業(yè)中使用它們。
在解決數(shù)據(jù)科學(xué)問題時(shí),域?qū)I(yè)知識(shí)對(duì)您有多重要?
坦率地說,我認(rèn)為我們不能從領(lǐng)域?qū)I(yè)知識(shí)中獲益太多,原因如下:
但是,有一些例外。例如,在亞馬遜地球競(jìng)賽中,我確實(shí)從我的個(gè)人雨林經(jīng)歷中獲得了想法,但這些經(jīng)驗(yàn)在技術(shù)上可能不稱為領(lǐng)域?qū)I(yè)知識(shí)。
你認(rèn)為你最有創(chuàng)意的技巧/發(fā)現(xiàn)/方法是什么?
我認(rèn)為這是在一開始就準(zhǔn)備解決方案文檔。我強(qiáng)迫自己制作一份清單,其中包括我們所面臨的挑戰(zhàn),我應(yīng)該閱讀的解決方案和論文,可能的風(fēng)險(xiǎn),可能的簡歷策略,可能的數(shù)據(jù)增加以及添加模型多樣性的方法。而且,我一直在更新文檔。幸運(yùn)的是,這些文件大部分都是我為競(jìng)賽主辦方提供的解決方案。
你目前在工作中如何使用數(shù)據(jù)科學(xué),并且在Kaggle的幫助下進(jìn)行競(jìng)爭?
我們嘗試在銀行業(yè)的各種問題中使用機(jī)器學(xué)習(xí):預(yù)測(cè)銀行網(wǎng)點(diǎn)的訪客,預(yù)測(cè)我們應(yīng)該為ATM準(zhǔn)備的現(xiàn)金,產(chǎn)品推薦,操作風(fēng)險(xiǎn)控制等。
在Kaggle上競(jìng)爭也改變了我的工作方式,當(dāng)我想找到解決問題的解決方案時(shí),我會(huì)嘗試找到類似的Kaggle比賽,因?yàn)樗鼈兪菍氋F的資源,我也建議我的同事研究類似的,獲勝的解決方案,以便我們可以從他們那里收集想法。
您對(duì)高模型復(fù)雜性和培訓(xùn)/測(cè)試運(yùn)行時(shí)之間的權(quán)衡有何看法?
以下是我的意見:
你是如何在Kaggle比賽中變得更好的?
有趣的比賽和Kaggle的優(yōu)秀競(jìng)爭對(duì)手讓我變得更好。
在這里有這么多偉大的競(jìng)爭對(duì)手,贏得比賽是非常困難的,他們把我推到了極限。去年我試圖盡可能多次完成我的比賽獨(dú)奏,我必須猜測(cè)所有其他競(jìng)爭對(duì)手會(huì)做什么。要做到這一點(diǎn),我必須閱讀大量材料并構(gòu)建多功能模型。我在比賽結(jié)束后閱讀了其他競(jìng)爭對(duì)手的所有解決方案。
您是否對(duì)最近或正在進(jìn)行的機(jī)器學(xué)習(xí)研究感到興奮?
我希望今年可以參加Kaggle的強(qiáng)化學(xué)習(xí)比賽。
你在排行榜上升得非常快(僅用了15個(gè)月)。你是怎么做到的?
首先,No.1是衡量我在Kaggle學(xué)到了多少以及我是多么幸運(yùn)。
在我的前幾次比賽中,我試圖將近年來學(xué)到的理論轉(zhuǎn)化為技能,并從其他人那里學(xué)到很多東西。
在我對(duì)Kaggle比賽有所了解之后,我開始考慮如何以系統(tǒng)的方式進(jìn)行競(jìng)爭,因?yàn)槲以谲浖こ谭矫鎿碛卸嗄甑慕?jīng)驗(yàn)。
大約半年后,我獲得了一等獎(jiǎng)和一些信心。我以為我可能會(huì)在一年內(nèi)成為一名大師。在亞馬遜地區(qū)的比賽中,我試圖獲得一枚金牌,所以當(dāng)我發(fā)現(xiàn)自己處于第一位時(shí),我感到很驚訝。
然后我覺得我應(yīng)該繼續(xù)使用我之前提到的策略和方法,并獲得更多的成功。在我贏得了Cdiscount比賽后,我攀升到用戶排名榜首。
我認(rèn)為我從Kaggle平臺(tái)中受益,我從其他人那里學(xué)到了很多東西,Kaggle的等級(jí)系統(tǒng)也在我的進(jìn)步中發(fā)揮了重要作用。我也感到非常幸運(yùn),因?yàn)槲覐奈搭A(yù)料到我能連續(xù)獲得6個(gè)獎(jiǎng)項(xiàng),我的許多比賽的目標(biāo)是前10名或前1%。我不認(rèn)為我可以再次復(fù)制旅程。
但是,我在這里并不是一個(gè)好的排名。我總是將每場(chǎng)比賽視為一次學(xué)習(xí)的機(jī)會(huì),所以我嘗試選擇我不熟悉的領(lǐng)域的比賽,這迫使自己去年閱讀了數(shù)百篇論文。
您之前提到過,您喜歡閱讀過去比賽中得分最高的比賽解決方案。有沒有你會(huì)強(qiáng)調(diào)特別有見地?
我尊重所有獲獎(jiǎng)?wù)吆途实慕鉀Q方案貢獻(xiàn)者,我知道他們付出了多少努力。我總是以令人欽佩的態(tài)度閱讀解決方案。
一些最令人難忘的見解來自2017年數(shù)據(jù)科學(xué)碗:pytorch,醫(yī)學(xué)圖像的3D分割,網(wǎng)絡(luò)流量時(shí)間序列預(yù)測(cè)的解決方案,使用NLP的序列模型來解決時(shí)間序列問題,以及來自Tom的美麗解決方案(https://www.Kaggle.com/tvdwiele)和Heng(https://www.Kaggle.com/hengck23)。
轉(zhuǎn)載于:https://www.cnblogs.com/roygood/p/10404453.html
總結(jié)
以上是生活随笔為你收集整理的Toping Kagglers:Bestfitting,目前世界排名第一的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Hadoop学习(二)——MapRedu
- 下一篇: 影响最大的三位老师