冷启动问题:如何构建你的机器学习组合?
作為即將告別大學(xué)的機(jī)器學(xué)習(xí)畢業(yè)狗的你,會(huì)不會(huì)有種迷茫的感覺?你知道 HR 最看重的是什么嗎?在求職季到來之前,畢業(yè)狗要怎么做,才能受到 HR 的青睞、拿到心儀的 Offer 呢?負(fù)責(zé)幫助應(yīng)屆生找到機(jī)器學(xué)習(xí)工作的 Edouard Harris 給我們分享了他見到的例子和觀點(diǎn),希望對(duì)面臨就業(yè)壓力不斷增大的畢業(yè)狗們有點(diǎn)用!
更多干貨內(nèi)容請(qǐng)關(guān)注微信公眾號(hào)“AI前線”(ID:ai-front)
我是一名物理學(xué)家,在 YC 初創(chuàng)公司工作。我們的工作是幫助應(yīng)屆畢業(yè)生找到他們的第一份機(jī)器學(xué)習(xí)工作。
前段時(shí)間,我曾寫了一篇文章《The cold start problem: how to break into machine learning》(《冷啟動(dòng)問題:如何順利進(jìn)入機(jī)器學(xué)習(xí)》),闡述了為得到第一份機(jī)器學(xué)習(xí)的工作,你應(yīng)該做哪些事情。我在那篇文章中說過,你應(yīng)該做的一件事就是,建立個(gè)人機(jī)器學(xué)習(xí)項(xiàng)目的投資組合。但我漏了這一部分:如何才能做到。因此,在這篇文章中,我將闡述應(yīng)該如何去做這件事。[1]
得益于我們的初創(chuàng)公司所做的事情,我才能看到如此多的個(gè)人項(xiàng)目的例子。這些個(gè)人項(xiàng)目有非常優(yōu)秀的,也有非常槽糕的。讓我給你例舉兩個(gè)非常優(yōu)秀的例子。
押上所有賭注
下面是一則真實(shí)的故事,不過,為了保護(hù)個(gè)人隱私,我使用了化名。
當(dāng)雜貨店需要訂購新庫存時(shí),X 公司就會(huì)使用人工智能來提醒雜貨店。我們有一名學(xué)生,叫 Ron,他非常渴望能夠在 X 公司工作,已經(jīng)急不可耐了。為了確保能夠得到 X 公司的面試機(jī)會(huì),于是,他建立了一個(gè)個(gè)人項(xiàng)目。
通常情況下,我們不會(huì)建議像 Ron 那樣把所有的賭注都押在一家公司。如果你剛開始這樣做的話,是很有風(fēng)險(xiǎn)的。但是,就像我剛才說的,Ron 真的特別想到 X 公司工作,特別特別想。
那么,Ron 做了什么呢?
紅框處表示該處缺少商品。
Ron 用膠帶將他的智能手機(jī)綁在購物車上。然后,他推著購物車在雜貨店的過道來來回回地走,同時(shí)使用手機(jī)的攝像頭記錄下過道的情況。他在不同的雜貨店這樣做了 10~12 次。
回到家后,Ron 就開始構(gòu)建機(jī)器學(xué)習(xí)模型。他的模型識(shí)別出了雜貨店貨架上的空白處,那是貨架上缺少玉米片(或其他商品)的地方。
特別棒的是,Ron 在 GitHub 上實(shí)時(shí)構(gòu)建了他的模型,完全公開。每天,他都會(huì)改進(jìn)他的 repo(提高準(zhǔn)確性,并記錄 repo 自述文件的變更)。
當(dāng) X 公司發(fā)現(xiàn) Ron 正在做這件事時(shí),非常感興趣。不止是好奇,事實(shí)上,X 公司還有點(diǎn)緊張。他們?yōu)槭裁磿?huì)感到緊張呢?因?yàn)?Ron 無意中在幾天內(nèi)復(fù)制了他們的專有技術(shù)棧的一部分。[2]
X 公司的能力很強(qiáng),他們的技術(shù)在行業(yè)中無出其右。盡管如此,4 天之內(nèi),Ron 的項(xiàng)目還是成功吸引了 X 公司 CEO 的注意力。
飛行員項(xiàng)目
這是另一則真實(shí)的故事。
Alex 主修歷史專業(yè),輔修俄語(這是真實(shí)的情況)。不同尋常的是,作為歷史專業(yè)的大學(xué)生,他居然對(duì)機(jī)器學(xué)習(xí)產(chǎn)生了興趣。更不尋常的是,他決定學(xué)習(xí) Python,要知道,他從來沒用 Python 寫過一行代碼。
Alex 選擇了通過構(gòu)建項(xiàng)目進(jìn)行學(xué)習(xí)的方式。他決定構(gòu)建一個(gè)分類器,用于檢測(cè)戰(zhàn)斗機(jī)飛行員在飛機(jī)上是否失去知覺。Alex 想通過觀看飛行員的視頻來發(fā)現(xiàn)是否失去意識(shí)。他知道,人們通過觀察,很容易判斷飛行員是否失去知覺。所以,Alex 覺得機(jī)器也應(yīng)該有可能做到這一點(diǎn)。
以下是 Alex 在幾個(gè)月的時(shí)間里所做的事情:
Alex構(gòu)建的地球引力引發(fā)昏厥探測(cè)器的演示。
Alex 在 YouTube 上下載了從駕駛艙拍攝的駕駛飛機(jī)時(shí)飛行員所有的視頻。(如果你也感到好奇的話,這里有幾十個(gè)這樣的片段。)
接下來他開始標(biāo)記數(shù)據(jù)。Alex 構(gòu)建了一個(gè) UI,讓他能夠滾動(dòng)數(shù)千個(gè)視頻幀,按下一個(gè)按鈕表示 “有知覺”,另一個(gè)按鈕表示 “無知覺”。然后自動(dòng)將該視頻幀保存到正確標(biāo)記的文件夾中。這個(gè)標(biāo)記過程非常非常無聊,花了他好幾天的時(shí)間。
Alex 為這些圖像構(gòu)建了一個(gè)數(shù)據(jù)管道,可以將飛行員從駕駛艙背景中摳出來,這樣分類器就能更容易專注于飛行員。最后,他構(gòu)建了自己的昏厥分類器。
在做這些事的同時(shí),Alex 在社交媒體上向招聘主管展示了他的項(xiàng)目快照。每次
他拿出手機(jī)展示這個(gè)項(xiàng)目時(shí),他們都會(huì)問他是怎么做到的,構(gòu)建的管道是怎么回事,以及怎么收集數(shù)據(jù)的等等。但從來沒有人問過他的模型的準(zhǔn)確度如何,要知道,這個(gè)模型的準(zhǔn)確度就從來沒超過 50%。
當(dāng)然,Alex 早就計(jì)劃提高模型的準(zhǔn)確性,但是在他還沒有實(shí)現(xiàn)這一計(jì)劃時(shí)就已經(jīng)被錄用了。事實(shí)證明,對(duì)企業(yè)而言,他那個(gè)項(xiàng)目呈現(xiàn)出來的視覺沖擊力,以及在數(shù)據(jù)收集方面表現(xiàn)出來的不屈不撓的精神和足智多謀,遠(yuǎn)比他的模型究竟有多好來得更為重要。
我剛才有沒有提到 Alex 是一名主修歷史,輔修俄語的學(xué)生?
他們有何共同之處
是什么讓 Ron 和 Alex 如此成功?以下是他們做對(duì)的四件大事:
Ron 和 Alex 并沒有在建模上耗費(fèi)太多的精力。我知道這聽上去很奇怪,但是對(duì)于現(xiàn)在的許多用例來說,建模是一個(gè)已解決的問題。在實(shí)際工作中,除非你做的是最先進(jìn)的人工智能研究,否則無論如何,你都需要耗費(fèi) 80~90% 的時(shí)間來清理數(shù)據(jù)。為什么你的個(gè)人項(xiàng)目會(huì)有所不同呢?
Ron 和 Alex 都收集了自己的數(shù)據(jù)。正因?yàn)槿绱?#xff0c;他們最終得到的數(shù)據(jù)比 Kaggle 或 UCI 數(shù)據(jù)庫中的數(shù)據(jù)更為混亂。但是處理混亂的數(shù)據(jù)教會(huì)了他們?nèi)绾翁幚磉@種混亂的數(shù)據(jù)。而且也迫使了他們從學(xué)術(shù)服務(wù)器下載數(shù)據(jù)以更好地理解自己的數(shù)據(jù)。
Ron 和 Alex 營造了可視化效果。面試,并不能讓無所不知的面試官能夠客觀地評(píng)估你的技能。面試的本質(zhì)就是將自己推薦給他人。人類是視覺動(dòng)物,因此,如果你掏出手機(jī)給面試官展示你所做的東西,那么,確保你做的東西看上去很有趣是值得的。
Ron 和 Alex 所做的事似乎很瘋狂。這太瘋狂了。因?yàn)橐话闳瞬粫?huì)把他們的智能手機(jī)用膠帶綁在購物車上,也不會(huì)在 YouTube 上耗費(fèi)大量時(shí)間就為了裁剪飛行員的視頻。你知道是什么樣的人才會(huì)這么瘋狂?這樣的人才會(huì)不惜一切代價(jià)去完成工作。公司真的非常、非常愿意雇傭這種人。
Ron 和 Alex 所做的事情,看上去似乎太多了,但實(shí)際上,他們所做的事兒并不比你在實(shí)際工作中所期望的多多少。這就是問題的關(guān)鍵:當(dāng)你沒有做某件事的工作經(jīng)驗(yàn)時(shí),招聘經(jīng)理會(huì)看你做過的類似做某件事的工作經(jīng)驗(yàn)。
幸運(yùn)的是,你只需在這個(gè)級(jí)別上,構(gòu)建一兩個(gè)項(xiàng)目就可以了——Ron 和 Alex 的項(xiàng)目在他們各自所有面試中被反復(fù)使用。
因此,如果讓我必須用一句話來總結(jié)一個(gè)卓越的機(jī)器學(xué)習(xí)項(xiàng)目的秘訣,那就是:用有趣的數(shù)據(jù)集去構(gòu)建項(xiàng)目,這個(gè)數(shù)據(jù)集顯然需要耗費(fèi)大量精力來收集,并使其盡可能有視覺沖擊力。
[1] 如果你想知道為什么這一點(diǎn)非常重要,那是因?yàn)檎衅附?jīng)理會(huì)查看你的業(yè)績(jī)記錄來評(píng)估你的技能。如果你沒有業(yè)績(jī)記錄的話,那么,個(gè)人項(xiàng)目就是最為接近的替代者。
[2] 當(dāng)然,Ron 的嘗試遠(yuǎn)非完美:X 公司為這個(gè)問題投入了比他更多的資源。但情況非常相似,他們很快就要求 Ron 將他的 repo 設(shè)為 private。
原文鏈接:
https://towardsdatascience.com/the-cold-start-problem-how-to-build-your-machine-learning-portfolio-6718b4ae83e9
總結(jié)
以上是生活随笔為你收集整理的冷启动问题:如何构建你的机器学习组合?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【C++】 外传篇 2_函数的异常规格说
- 下一篇: Scrum之 站立例会