cv是什么(计算机行业cv是什么)
下面這篇文章來自數據戰斗學校,作者是保羅·波普。
從數據轉到實戰派
作者:保羅·波普(神經實驗室首席執行官)
譯者:張育甲
原文:我們用算法觀察如何破壞計算機視覺:以及合成計算機視覺如何修復它
深度學習的出現帶動了整個機器學習領域的發展,以數據為中心的發展也是如此。
本文將討論主流計算機視覺(CV)的缺陷和未來的發展重點:合成計算機視覺(SCV)。
計算機視覺的現狀
根據Crunchbase的統計,過去8年對1800多家計算機視覺創始公司的投資價值超過150億美元。福布斯數據還表明,現在有20多家估值超過10億美元的CV公司,而且還在增加。
為什么這些公司的價值如此之高?因為它們教會計算機如何看待世界,并自動完成以前通過人類視覺完成的任務。
這種繁榮是2012年計算機視覺領域出現神經網絡技術之后才有的。神經網絡是一種模擬人腦的算法,利用大量的人類標記數據進行訓練。自2012年以來,該算法經過多次穩步改進,在一些視覺任務上的性能與人類相當,如目標計數、唇語識別或癌癥篩查。
在過去的10年里,很多人為計算機視覺的發展做出了貢獻:學術界研究了更好更先進的算法;大公司投資那些試圖給圖像數據集貼標簽的人。有些成果也會開源讓大家受益,比如包含1400萬圖像數據的ImageNet數據集。
然而,當我們將這些系統部署到產品中時,我們會遇到以下問題:
1.現有的標注數據并不可靠。麻省理工學院的一個團隊在系統研究機器學習(ML)數據集時發現,ImageNet數據集中標記錯誤的錯誤率為5.93%,其他數據集的平均錯誤率為3.4%。
2.很少有人去解決數據本身的問題。學術界大多把智慧集中在算法開發上,忽略了對好數據的需求。吳恩達曾經說過,人們99%的注意力都集中在算法上,而只剩下1%的數據。
3.計算機視覺算法不能很好地從一個領域擴展到另一個領域。用于在法國南部檢測車輛的算法使得在白雪覆蓋的挪威檢測車輛變得困難。同樣,在特定相機上訓練的系統很可能在另一個相機制造商或型號上失敗。
早在1946年,艾倫·都靈就提出將國際象棋作為計算機能力的評價標準之一。經過更深入的研究,這個標準得到了很多媒體的認可。
Elo評分系統是一種普遍接受的衡量國際象棋表現的方法,它可以有效地比較每個人的國際象棋技能。下面是世界冠軍和棋牌游戲引擎的分數。過去50年,人類的表現一直徘徊在2800點,但在2010年被計算機超越。
近十年來,人類一直在根據自己能理解的規則設計象棋算法。但是,深度學習革命可以超越人類理解的范圍,帶來像計算機視覺一樣的飛躍。
圖|國際象棋引擎和人類ELO評分
雖然國際象棋游戲引擎在深度學習的技術下取得了不錯的進步,但是已經被下一代國際象棋引擎超越:DeepMind的AlphaZero。更神奇的是,AlphaZero沒有使用任何人類提供的數據。它是在沒有任何國際象棋游戲知識的情況下建造的,也沒有任何關于最佳行走方式的人類指導。AlphaZero既是老師也是學生——通過比賽和自己學習,自學如何更好地下棋。
AlphaZero一局未輸,擊敗了當時最好的Stockfish 8引擎。即使給AlphaZero少一個數量級的考慮時間,這種優勢依然可以保持。
看到AlphaZero取得的顯著成就,人們不禁要問:能否將其在國際象棋上的成功應用于計算機視覺?
以數據為中心的人工智能
以數據為中心的人工智能的目的不是創造更好的算法,而是通過改變數據本身來提高模型性能。即使不考慮圖像數據集的獲取和標注難度,數據質量的問題依然存在:數據是否覆蓋了所有可能的情況?你想報道邊境的情況嗎?
如果要構建以數據為中心的計算機視覺,就必須控制數據的來源。為了使計算機視覺模型更好地學習和理解參數,需要保證數據的平衡。
例如,我們想要控制三個參數:相機角度、光照和遮擋。當你收集這樣一個真實的數據集時,你必須設法控制這三個參數的值,同時收集1000個相關的圖像。但是有了這些真實的數據,任務還是很艱巨的。
在過去的五年中,我們在優化數據收集流程和提高數據標簽質量方面取得了巨大進步。此外,將使用各種數據增強技術來充分利用數據集信息。例如,將一些數學函數應用于數據集中的圖像,以創建更多樣化的數據。
目前,有400多家公司,總市值為1.3萬億美元(略高于臉書),滿足了當今算法的數據需求。
然而,這些方法最終會走進死胡同嗎?算法在人類數據集上達到極限了嗎?就像我們在國際象棋中使用人類數據作為算法的輸入一樣,模型會受到數據集設計的限制,無法超越人類。
在國際象棋中,如果我們停止建立人類的數據,允許機器建立自己的數據來優化學習過程,那么后深度學習將會有所突破。在計算機視覺中,我們還必須允許機器獨立生成能夠促進其學習的數據。
CV:合成計算機視覺
通過虛擬現實引擎,可以更好地創建訓練數據。在精度上,模型的輸出已經達到了現實世界的標準。意味著可以通過模型生成智能數據來指導計算機視覺模型的學習。這種合成數據可以成為以數據為中心的人工智能框架的基礎。
因此,我認為現在有必要廣泛使用可視化合成數據。
虛擬現實引擎有專門的生成合成數據的組件(比如 NVIDIA IsaacSim,Unity Perception),這些合成數據不僅美觀,而且有助于訓練更好的算法。
3D 功能正迅速成為一種必需品——最新的 iPhone 手機就配備了激光雷達(LiDAR)和用于 3D 掃描的應用程序,來達到更好的性能。
元宇宙(Metaverse)的時代即將開始。人們將會漸漸習慣生活在虛擬現實的世界中。比如未來的寶馬制造廠和谷歌的孿生供應鏈,就會應用到數字孿生技術。行業的領頭者已經開始使用虛擬現實技術來改進計算機視覺算法:特斯拉(Tesla)就在利用虛擬現實技術來生成駕駛場景的邊緣情況和更多的新視角。
如果我們有合適的工具來建立數據集,我們就可以省去手動標記數據的繁瑣過程,更好地開發和訓練計算機視覺算法。Gartner認為,未來三年,合成數據將比真實數據更占優勢。
如果我們向前邁一步呢?進入一個計算機視覺不需要人類標記圖像的世界。
通過合成計算機視覺,我們可以在虛擬現實中建立模型,并在現實世界中部署它們。就像在國際象棋比賽中,AlphaZero可以自己學習重要的部分,所以我們用算法來決定模型需要學習什么,才能達到最好的學習效果。
在合成計算機視覺(SCV)中,我們使用虛擬現實引擎來訓練計算機視覺模型,并將訓練好的模型部署到現實世界中。
人眼能看到的遠不如現實世界豐富,所以我們構建的算法只能達到人類能理解和標記的信息范圍。但事實可能并非如此,因此我們可以為傳感器構建算法,以測量人類感知范圍之外的事物。這些算法可以通過虛擬現實中的編程進行有效訓練。
與其建立更大的模型,用更多的計算能力去解決問題,我們還不如獲得更好的對算法學習有幫助的數據。算法的學習不需要相同類型的數據,而是各種不同的數據。
《深度心靈》顯示,AlphaZero只是一個開始,他們已經將同樣的方法應用到圍棋、星際爭霸和蛋白質折疊中。現在我們已經擁有了為計算機視覺構建一個類似AlphaZero的系統的所有必要組件,這樣它就不會受到人類設計輸入的限制,可以自我學習。該系統可以創建和操作虛擬場景,并通過自學解決視覺自動化的任務。
合成計算機視覺是基于合成數據的。前期大概有30家左右的公司開始了可視化合成數據生成的業務。一些公司專注于一個垂直領域的特定用例,而大多數公司同時在多個垂直領域進行。
2021年只是新研究的開始,合成數據只是需要解決的問題的一小部分。
圖|合成數據公司
總結
以上是生活随笔為你收集整理的cv是什么(计算机行业cv是什么)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 去痘印产品排行榜(科颜氏上榜,理肤泉第一
- 下一篇: 沱沱工社(沱沱工社现在状况)