AutoML Vision教程:训练模型解决计算机视觉问题,准确率达94.5%
【新智元導(dǎo)讀】只要三張拉面圖,就能識(shí)別出每碗拉面是在41家不同拉面店中的哪家制作出來(lái)。數(shù)據(jù)科學(xué)家Kenji Doi開(kāi)發(fā)了一種拉面專(zhuān)家AI分類(lèi)器,它能辨別出不同拉面之間的細(xì)微差異。這背后,是谷歌AutoML Vision提供的ML模型。
看下面的三碗拉面。你能相信機(jī)器學(xué)習(xí)(ML)模型能以95%的準(zhǔn)確率識(shí)別出每碗拉面是在41家拉面店中的哪家制作的么?數(shù)據(jù)科學(xué)家Kenji Doi開(kāi)發(fā)了一種拉面專(zhuān)家AI分類(lèi)器,它能辨別出不同拉面之間的細(xì)微差異。
拉面Jiro是日本最受歡迎的連鎖餐廳之一,因?yàn)樗呐淞稀⒚鏃l和湯的價(jià)格都很便宜。這個(gè)連鎖餐廳在東京有41家分店,每家店都有基本相同的菜單。
正如你在照片中所看到的,對(duì)于一個(gè)剛剛接觸拉面的人來(lái)說(shuō),幾乎不可能知道每碗面的制作材料是什么,因?yàn)樗鼈兛雌饋?lái)幾乎是一樣的。你不相信自己可以通過(guò)看這些照片來(lái)辨別這些面到底屬于41家餐館的哪一家。
Kenji想知道深度學(xué)習(xí)是否能幫助解決這個(gè)問(wèn)題。他從網(wǎng)絡(luò)上收集了48,244張Jiro做的拉面的圖片。在刪除了不適合進(jìn)行模型訓(xùn)練的照片之后(比如重復(fù)照片或沒(méi)有拉面的照片),他為每個(gè)餐館準(zhǔn)備了大約1,170張照片,也就是48000張帶有商店標(biāo)簽的照片。
AutoML Vision達(dá)到了94.5%的準(zhǔn)確率
當(dāng)Kenji正在研究這個(gè)問(wèn)題時(shí),他了解到Google剛剛發(fā)布了AutoML Vision的alpha版本。
AutoML Vision允許用戶(hù)在不具備設(shè)計(jì)ML模型的專(zhuān)業(yè)知識(shí)的情況下使用自己的圖像定制ML模型。首先,你要做的就是上傳圖像文件進(jìn)行模型訓(xùn)練,并確保上傳數(shù)據(jù)具有正確的標(biāo)簽。一旦完成了定制模型的訓(xùn)練,您就可以輕松地將其應(yīng)用到到可擴(kuò)展的服務(wù)平臺(tái)上,以便通過(guò)自動(dòng)擴(kuò)展擁有的資源來(lái)滿(mǎn)足實(shí)際需求。整個(gè)過(guò)程是為那些不具備專(zhuān)業(yè)ML知識(shí)的非數(shù)據(jù)科學(xué)家設(shè)計(jì)的。
AutoML Vision訓(xùn)練、部署和服務(wù)自定義ML模型的過(guò)程
當(dāng)Kenji獲得了AutoML Vision的alpha版本后,他試了一下。他發(fā)現(xiàn)用帶有商店標(biāo)簽的拉面照片作為數(shù)據(jù)集訓(xùn)練模型時(shí),F值可以達(dá)到94.5%,其中精確率未94.8%,召回率為94.5%。
使用AutoML Vision(高級(jí)模式)的拉面店分類(lèi)器的混淆矩陣
(行=實(shí)際店鋪,欄=預(yù)測(cè)店鋪)
通過(guò)觀(guān)察上圖的混淆矩陣,您可以看到AutoML Vision在每個(gè)測(cè)試樣例中,僅僅對(duì)幾個(gè)樣本做出了錯(cuò)誤的分類(lèi)。
這怎么可能?每個(gè)照片使用AutoML檢測(cè)區(qū)別是什么?Kenji想知道ML模型如何能準(zhǔn)確地識(shí)別出拉面對(duì)應(yīng)的商店。起初,他認(rèn)為模型是在看碗,或桌子的顏色或形狀。但是,正如你在上面的照片中所看到的,即使每個(gè)商店在他們的照片中使用了相同的碗和桌子設(shè)計(jì),這個(gè)模型也非常準(zhǔn)確。Kenji的新理論是,該模型精確地能夠區(qū)分肉塊和澆頭的細(xì)微差別。他計(jì)劃繼續(xù)在AutoML上做實(shí)驗(yàn),看看他的理論是否正確。
數(shù)據(jù)科學(xué)的自動(dòng)化技術(shù)
在嘗試AutoML Vision之前,Kenji花了相當(dāng)多的時(shí)間來(lái)為他的拉面分類(lèi)項(xiàng)目建立自己的ML模型。他仔細(xì)地選擇了一個(gè)通過(guò)Inception,ResNetSE-ResNeXt獲得的一個(gè)集合模型,構(gòu)建了一個(gè)數(shù)據(jù)增強(qiáng)設(shè)置,在超參數(shù)調(diào)優(yōu)上耗費(fèi)了很長(zhǎng)的時(shí)間,如改變學(xué)習(xí)率等,并引入他積累的知識(shí)作為一個(gè)專(zhuān)家知識(shí)。
但是,通過(guò)AutoML Vision,Kenji發(fā)現(xiàn)他唯一需要做的就是上傳圖片并點(diǎn)擊“訓(xùn)練”按鈕,僅此而已。通過(guò)AutoML Vision,他不費(fèi)吹灰之力就能夠訓(xùn)練一個(gè)ML模型。
標(biāo)記圖像集的示例。借助AutoML Vision,您只需上傳帶有標(biāo)簽的圖像即可開(kāi)始使用
當(dāng)使用AutoML Vision訓(xùn)練一個(gè)模型時(shí),有兩種模式任你選擇:基本模式或高級(jí)模式。在基本模式下,AutoML Vision可以在18分鐘之內(nèi)完成Kenji的訓(xùn)練數(shù)據(jù)。在高級(jí)模式下用了將近24個(gè)小時(shí)。在這兩種情況下,他都沒(méi)有執(zhí)行任何超參數(shù)調(diào)優(yōu)、數(shù)據(jù)擴(kuò)充或嘗試不同的ML模型類(lèi)型。一切都是自動(dòng)化處理,不需要擁有相關(guān)的專(zhuān)業(yè)知識(shí)。
據(jù)Kenji說(shuō),“在基本模式下無(wú)法獲得最優(yōu)的準(zhǔn)確性,但是可以在很短的時(shí)間內(nèi)得到一個(gè)粗略的結(jié)果。而高級(jí)模式可以在用戶(hù)不進(jìn)行任何優(yōu)化或具備任何學(xué)習(xí)技能的情況下獲得最優(yōu)的精度。這樣看來(lái),這個(gè)工具肯定會(huì)提高數(shù)據(jù)科學(xué)家的生產(chǎn)力。數(shù)據(jù)科學(xué)家們已經(jīng)為我們的客戶(hù)進(jìn)行了太多的人工智能解答,因此,我們必須盡快將深度學(xué)習(xí)應(yīng)用到PoCs上。有了AutoML Vision,數(shù)據(jù)科學(xué)家就不需要為了獲得最優(yōu)的模型結(jié)果花很長(zhǎng)時(shí)間來(lái)培訓(xùn)和優(yōu)化模型獲。這意味著即使只有擁有限數(shù)量的數(shù)據(jù)科學(xué)家,企業(yè)也可以擴(kuò)大他們的人工智能產(chǎn)業(yè)。”
他喜歡AutoML Vision還有因?yàn)槠淞硗庖粋€(gè)特點(diǎn):“AutoML Vision太酷了,你可以在訓(xùn)練后使用它的在線(xiàn)預(yù)測(cè)功能。而這項(xiàng)任務(wù)對(duì)于數(shù)據(jù)科學(xué)家來(lái)說(shuō)通常是特別耗時(shí)的,因?yàn)楸仨氁獙⒛P筒渴鸬缴a(chǎn)服務(wù)環(huán)境中后,再對(duì)其進(jìn)行管理。”
以90%的準(zhǔn)確率將商品進(jìn)行品牌分類(lèi)
AutoML Vision在另一個(gè)不同的用例中也證明了它的能力:對(duì)產(chǎn)品進(jìn)行品牌分類(lèi)。Mercari是日本最受歡迎的銷(xiāo)售APP之一,它在美國(guó)也受到越來(lái)越多人的青睞,它一直在嘗試通過(guò)閃頻的圖片自動(dòng)識(shí)別其品牌。
Mercari官網(wǎng)
在日本,Mercari推出了一款名為Mercari MAISONZ的新App,用于銷(xiāo)售品牌商品。Mercari在這款應(yīng)用中開(kāi)發(fā)了自己的ML模型,在用戶(hù)的圖片上傳界面中,該模型可以對(duì)12個(gè)主要品牌的商品進(jìn)行分類(lèi)。該模型使用了VGG16在TensorFlow上的遷移學(xué)習(xí),準(zhǔn)確率達(dá)到75%。
正如ML模型預(yù)測(cè)的那樣,用戶(hù)上傳圖片界面顯示了品牌名稱(chēng)
而當(dāng)Mercari在AutoML Vision的高級(jí)模式下嘗試用5000個(gè)訓(xùn)練來(lái)進(jìn)行訓(xùn)練,它達(dá)到了91.3%的準(zhǔn)確率。這比他們現(xiàn)有的模型高出了15%。
Mercari的AutoML Vision模型(高級(jí)模式)的準(zhǔn)確性分?jǐn)?shù)(精確度/召回率)
Mercari的AutoML Vision模型的混淆矩陣(高級(jí)模式)
對(duì)AutoML Vision的近距離觀(guān)察
Mercari的數(shù)據(jù)科學(xué)家Shuhei Fujiwara對(duì)這個(gè)結(jié)果感到非常驚訝,他說(shuō):“我無(wú)法想象谷歌是如何做到如此高精度的!”
用于大規(guī)模圖像分類(lèi)和對(duì)象檢測(cè)的AutoML
高級(jí)模式里面,除了轉(zhuǎn)移學(xué)習(xí)還有什么呢?實(shí)際上,其中還包括谷歌的學(xué)習(xí)技術(shù),特別是NASNet。
NASNet使用ML來(lái)優(yōu)化ML:元級(jí)ML模型試圖為特定的訓(xùn)練數(shù)據(jù)集獲得最佳的深度學(xué)習(xí)模型。這才是高級(jí)模式的秘密,它代表了谷歌的“人工智能”哲學(xué)。這項(xiàng)技術(shù)可以讓用戶(hù)在不用長(zhǎng)時(shí)間學(xué)習(xí)人工智能的情況下,充分地利用最先進(jìn)的深度學(xué)習(xí)能力。
Shuhei還很喜歡這項(xiàng)服務(wù)的用戶(hù)界面。“它很容易使用,你不需要對(duì)超參數(shù)優(yōu)化做任何的人工處理,而且在UI上的一個(gè)混淆矩陣也為用戶(hù)來(lái)帶了方便,因?yàn)樗梢詭椭脩?hù)快速檢查模型的準(zhǔn)確性。該服務(wù)還允許你將最耗時(shí)的人工標(biāo)記工作交給谷歌。因此,我們正在等待公測(cè)版本取代現(xiàn)有的自動(dòng)化版本,這樣就可以將其部署到生產(chǎn)環(huán)境中了。”
望眼未來(lái)
正如我們?cè)谶@兩個(gè)例子中所看到的,AutoML Vision已經(jīng)開(kāi)始在現(xiàn)實(shí)用例中體現(xiàn)它的價(jià)值了。要了解更多信息,請(qǐng)?jiān)L問(wèn)AutoML Vision的產(chǎn)品頁(yè)面:
https://cloud.google.com/automl/
總結(jié)
以上是生活随笔為你收集整理的AutoML Vision教程:训练模型解决计算机视觉问题,准确率达94.5%的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: NNI工具介绍
- 下一篇: Auto_ml与TPOT的区别