论文落地 101:算法工程化的那些坑
筆者就職于泛化智能,一家專注于 AI 落地的計算機視覺公司。三年來,我們服務(wù)了大量需要 AI 的行業(yè),比如電網(wǎng)、醫(yī)院、無人機、機場甚至野生動物保護。在做這些項目的過程中,我們積累了很多經(jīng)驗(踩過很多,也挖過很多坑)。為了避免在工程中重復(fù)犯錯,我們內(nèi)部在做工程項目前,都會根據(jù)下面這個 check list 逐條檢查。這里擴展一下,整理為 AI 落地中的常見問題,分享給大家:
你有顯卡,我有顯卡,但用戶有顯卡嗎?
也許你不相信一個擁有幾百人 IT 團隊的公司會沒有顯卡,不過你真的確定你用戶那里有顯卡嗎?在自己公司或者實驗室內(nèi)部,我們的硬件條件基本都能得到滿足;但到了用戶那里,一切可能都不一樣了。?
有很多項目,必須要在客戶的電腦/服務(wù)器上去運行,而很多環(huán)境下是沒有 GPU 的——或者說,如果你做工程化,GPU 可能是種奢侈品。對于計算機視覺項目來說,假如客戶需要把模型搭載到他特有的硬件上(比如智能制造領(lǐng)域的缺陷檢測設(shè)備),事先與用戶確認硬件配置是至關(guān)重要的。?
一個簡單的判別標準:和客戶交流的時候,客戶知不知道什么是 GPU,絕對是合作難易程度的分水嶺。知道且清楚什么是 GPU 的,合作起來會更簡單;而如果對 GPU 一無所知的,或者只用過 Intel GPU的,項目落地難度就指數(shù)級增加。?
顯卡難求,務(wù)必事先與用戶溝通。? ?
數(shù)據(jù)有了嗎?
我們所有項目,內(nèi)部討論時的第一個問題一定是:這項目有數(shù)據(jù)嗎?
技術(shù)人員復(fù)現(xiàn)論文的時候,往往會有現(xiàn)成的數(shù)據(jù)集,清洗過的數(shù)據(jù)。一旦開始做工程化,取得數(shù)據(jù)集和數(shù)據(jù)集預(yù)處理才是最耗費時間的環(huán)節(jié)。我們接過很多項目,所有商務(wù)細節(jié)都談好了,項目啟動后,技術(shù)人員才發(fā)現(xiàn)客戶沒數(shù)據(jù),或者數(shù)據(jù)不夠。
數(shù)據(jù)有了,你......能看懂嗎?
接著上一個問題,對于絕大部分計算機視覺項目來說,客戶的數(shù)據(jù)我們真不一定能看懂。比如醫(yī)療影像,數(shù)據(jù)標注是醫(yī)生都需要經(jīng)過多年培訓(xùn)才能做好的事情,沒有任何醫(yī)療背景的程序員很難在短時間內(nèi)看懂這些數(shù)據(jù)。年初的時候我們給某工廠做缺陷識別,用什么網(wǎng)絡(luò)什么部署模式都想好了,結(jié)果就是看不懂圖片不能做標注。我們看所有地方都像是壞了,但工廠的質(zhì)檢員就能一眼分辨出來正常和缺陷。這種行業(yè)的 know how 很重要。
▲?心臟造影圖,非醫(yī)務(wù)人員很難看出圖中哪些是對診斷有幫助的血管
你了解對方的預(yù)期嗎?
由于近年來媒體對人工智能行業(yè)夸大其詞的報道,給大家造成了一種印象「人工智能是萬能的」。用戶與技術(shù)人員的信息不對稱性就導(dǎo)致了對項目不同的預(yù)期。面對完全沒接觸過人工智能的用戶,要確保用戶明白以下幾點:
1. 只保證測試集的準確率,但不能保證這個準確率在任何跟訓(xùn)練數(shù)據(jù)相差非常遠的情況下,還能復(fù)現(xiàn);
2. 機器學(xué)習項目不能做到 100% 的準確率;
3. 訓(xùn)練需要時間,不像是買個 Microsoft Office 下載就能用。
最后,工程化最煩的一點是,我們要給客戶做特別多的 demo。任何一個需求都需要先給他們做個 demo 看看。這些 demo 太浪費時間了,但又不能不做。所以我們?yōu)榱斯?jié)省每個計算機視覺項目的時間,制作了 TeguCV——一款可視化計算機視覺以及神經(jīng)網(wǎng)絡(luò)工具。
TeguCV 支持 Windows,純本地運行,目前支持圖像識別、視頻分類、人臉比對和車牌識別,同時包含自動參數(shù)選擇、http server 等功能。十分鐘開始訓(xùn)練計算機視覺模型。很多簡單工作,直接用 TeguCV 就能實現(xiàn)。方便開發(fā)者快速做技術(shù)落地,而且可以把很多簡單工作剝離出來。
▲?TeguCV軟件截圖
比如點擊閱讀原文,就可以看到我們?nèi)绾斡冒胄r內(nèi)的時間,為無人機航拍圖像做識別。
掃描下方二維碼添加客服可以獲得 TeguCV 免費下載鏈接。
?
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 查看案例分享
總結(jié)
以上是生活随笔為你收集整理的论文落地 101:算法工程化的那些坑的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 收下这 16 篇最新论文,周会基本不用愁
- 下一篇: 自然语言处理太难?按这个方式走,就是砍瓜