图像识别的工作原理是什么?商业上如何使用它?
圖像識別市場估計將從2016年的159.5億美元增長到2021年的389.2億美元,在2016年至2021年之間的復合年增長率為19.5%。機器學習和高帶寬數據服務的使用進步推動了這項技術的發展。 。電子商務,汽車,醫療保健和游戲等不同領域的公司正在迅速采用圖像識別。根據MarketsandMarkets的報告,圖像識別市場分為硬件,軟件和服務。以智能手機和掃描儀為主的硬件部分可以在圖像識別市場的增長中發揮巨大作用。越來越需要具有創新技術(例如監控攝像頭和面部識別)的安全應用程序和產品。
圖像識別是指識別圖像中的位置,徽標,人物,物體,建筑物以及其他幾個變量的技術。用戶正在通過應用程序,社交網絡和網站共享大量數據。此外,配備攝像頭的移動電話正在導致創建無限的數字圖像和視頻。公司正在使用大量的數字數據向訪問它的人們提供更好,更智能的服務。
圖像識別是計算機視覺的一部分,也是識別和檢測數字視頻或圖像中的對象或屬性的過程。計算機視覺是一個廣義的術語,包括收集,處理和分析來自現實世界的數據的方法。數據是高維數據,并以決策形式產生數字或符號信息。除了圖像識別,計算機視覺還包括事件檢測,對象識別,學習,圖像重建和視頻跟蹤。 ?
圖像識別技術實際上是如何工作的?
Facebook現在可以以98%的準確度執行人臉識別,這與人類的能力不相上下。Facebook只能通過幾張帶標簽的圖片來識別您朋友的臉。該技術的功效取決于對圖像進行分類的能力。分類是與數據進行模式匹配。圖像是二維矩陣形式的數據。實際上,圖像識別將數據歸為一類。一個常見且重要的示例是光學字符識別(OCR)。OCR將鍵入或手寫的文本的圖像轉換為機器編碼的文本。
圖像識別過程的主要步驟是收集和組織數據,建立預測模型并使用它來識別圖像。
收集和整理數據
人眼將圖像感知為一組信號,這些信號由大腦中的視覺皮層處理。這樣可以帶來生動的場景體驗,并與一個人的記憶中記錄的概念和對象相關聯。圖像識別試圖模仿這個過程。計算機將圖像視為光柵圖像或矢量圖像。柵格圖像是一系列像素,這些像素具有離散的顏色數值,而矢量圖像是一組帶有顏色注釋的多邊形。
為了分析圖像,將幾何編碼轉換為描述物理特征和對象的構造。然后可以由計算機對這些構造進行邏輯分析。組織數據涉及分類和特征提取。圖像分類的第一步是通過提取重要信息并忽略其余信息來簡化圖像。例如,在下面的圖像中,如果要從背景提取貓,您會注意到RGB像素值有很大的變化。
但是,通過在圖像上運行邊緣檢測器,我們可以簡化它。您仍然可以輕松地在這些邊緣圖像中辨別臉部和眼睛的圓形形狀,因此我們可以得出結論,邊緣檢測在保留不必要的信息的同時保留了必要的信息。一些著名的特征描述符技術是Viola和Jones引入的類似Haar的特征,定向梯度直方圖(HOG),尺度不變特征變換(SIFT),加速魯棒特征(SURF)等。
建立預測模型
?
在上一步中,我們學習了如何將圖像轉換為特征向量。在本節中,我們將學習分類算法如何將此特征向量作為輸入并輸出類標簽(例如,貓或背景/無貓)。在分類算法發揮作用之前,我們需要通過顯示成千上萬的貓和非貓圖像來訓練它。機器學習算法的一般原理是將特征向量視為高維空間中的點。然后,它嘗試查找將高維空間分隔開的平面或曲面(輪廓),以使特定類的所有示例都位于平面或曲面的一側。
?
為了建立預測模型,我們需要神經網絡。神經網絡是一個類似于我們大腦的硬件和軟件系統,用于估計依賴于大量未知輸入的函數。根據Google Cloud Platform的開發人員倡導者Kaz Sato的說法,“?神經網絡是一種功能,可以從訓練數據集中學習給定輸入的預期輸出”。神經網絡是一組互連的節點。每個處理節點都有自己的一小部分知識范圍,包括其所見所聞以及它最初為自己編寫或開發的規則。神經網絡將需要一種學習算法。用于識別圖像的圖像分類算法很多,例如詞袋,支持向量機(SVM),人臉界標估計(用于人臉識別),K近鄰(KNN),邏輯回歸等。
識別圖像
盡管以上兩個步驟占用了大部分精力,但是識別圖像的這一步驟非常容易。圖像數據,包括訓練和測試,都經過組織。訓練數據與測試數據不同,這也意味著我們刪除了它們之間的重復項(或幾乎重復項)。該數據被輸入到模型中以識別圖像。我們必須在已知圖像數據庫中找到貓的圖像,該圖像的測量值與測試圖像最接近。我們需要做的就是訓練一個分類器,該分類器可以從新的測試圖像中進行測量,并告訴我們與貓最接近的匹配項。運行此分類器需要毫秒。分類器的結果是“貓”或“非貓”。
建立圖像識別模型的主要挑戰是硬件處理能力和輸入數據的清理。大多數圖像可能都是高清晰度的。如果要處理尺寸大于500像素的大圖像,則每個圖像將變為250,000像素(500 X 500)。對于機器學習模型而言,僅1000張圖像的訓練數據就將達到2.5億美元的價值。此外,計算不是簡單的加法或乘法,而是涉及浮點權重和矩陣的復雜導數。
有一些快速的技巧可以克服上述挑戰:
–圖像壓縮工具可在不損失清晰度的情況下減小圖像尺寸
–使用彩色圖像的灰度和漸變版本
–圖形處理器單元(GPU)–訓練包含更少數據的神經網絡時間和較少的計算基礎架構。
如何在您的業務中使用圖像識別?
從業務角度來看,圖像識別的主要應用是面部識別,安全性和監視,視覺地理定位,對象識別,手勢識別,代碼識別,工業自動化,醫療中的圖像分析和駕駛員輔助。這些應用正在許多領域創造增長機會。讓我們看看圖像識別如何在某些業務領域引發一場革命-
電子商務行業
該技術的采用水平在包括搜索和廣告在內的電子商務中是最高的。圖像識別可以將您的智能手機轉變為虛擬陳列室。它在移動應用程序中用于標識特定產品。通過使他們看到的所有內容都可搜索,從而呈現出更加互動的世界觀。
?
圖像識別的一個突出示例是Image Searcher Inc.的CamFind?API。該技術可實現更高水平的移動商務。CamFind識別手表,鞋子,箱包和太陽鏡等物品,并將購買選項返回給用戶。潛在買家無需訪問任何網站即可進行實時產品比較。開發人員可以使用此圖像識別API來構建自己的移動商務應用程序。同樣,ViSenze是一家人工智能公司,通過深度學習和圖像識別解決現實世界中的搜索問題。在線購物者,互聯網零售商和媒體所有者都使用ViSenze?生產的產品來使用產品推薦和廣告定位。
游戲產業
圖像識別和計算機視覺技術將徹底改變游戲世界。實際上,這場革命已經開始。Microsoft Kinect電子游戲擁有吉尼斯世界紀錄,是有史以來銷售最快的消費電子設備。該游戲基于計算機視覺,并實時跟蹤人體。認真的游戲玩家更傾向于在現實世界中遠離設備的角色。圖像識別是生成此類新用戶體驗和用戶界面的關鍵。將結合了地理位置定位和應用內購買的圖像技術相結合,基于搜索的商業或廣告開始向現實世界過渡,為AdWords規模巨大的設備外商機打開了大門。
汽車行業
圖像識別和處理是Google和Uber率先開發的自動駕駛汽車的重要組成部分。未來的汽車有望發現障礙物并警告您靠近護欄和人行道的情況。該技術甚至能夠讀取路標和停車燈。由深度學習驅動的計算機視覺系統使用數千張圖像進行訓練。將不同天氣條件下的路標,人,道路等圖像輸入神經網絡。隨著更多的培訓數據輸入系統,系統變得智能。
您是否認為上述示例針對大型行業,可能不適用于您的業務?相反,圖像識別可以用較小的方法來獲得好處。圖像識別技術主要用于吸引觀眾并推動社交共享。例如,它可以用于優化移動廣告。使用圖像識別,營銷人員可以以較少干擾性和針對性的廣告來提供高度可見的廣告活動。
MARUTI TECHLABS如何為客戶使用圖像識別?
希望首次采用此技術的組織應從特定的業務部門開始。這些細分市場應具有強大的業務規則來指導算法,并具有大量數據來訓練機器。我們已經為汽車行業的客戶集成了圖像識別解決方案。客戶有一個買賣汽車的電子商務平臺。賣方上傳了汽車的圖像以驗證車輛的當前狀態。欺詐賣家上載了令人反感或不相關的內容,以欺騙系統并獲取汽車報價。為了減少此類欺詐案件,組織必須專門安排一些人手動檢查圖像。
我們設計了一種使用Google Vision技術的解決方案,以淘汰不相關的(非汽車)圖像。Vision使用Google圖像搜索功能的強大功能來檢測露骨內容,面部特征,將圖像標記為類別,提取文本等。我??們已使用Vision的安全搜索注釋功能每天處理超過1000張賣方圖像。還可以基于諸如成人,暴力,欺騙和醫療之類的內容來標記圖像。隨著新數據和概念的引入,Google Vision會隨著時間的推移而不斷改進。隨著我們收集更多數據(圖像),我們將使用上述技術實現定制的圖像識別解決方案。
每個公司都很難在這項技術上進行投資,并隨后建立一支計算機視覺工程團隊。即使擁有合適的團隊,要產生結果也可能需要大量工作。在這里,我們的數據科學專家可以幫助您定義結合圖像識別和相關機器學習技術的路線圖。我們通常將圖像識別與現有應用程序集成在一起,或者使用它來為您的業務構建特定功能,這通常是在云端進行管理的。
總結
以上是生活随笔為你收集整理的图像识别的工作原理是什么?商业上如何使用它?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 商品图像识别是什么?如何实现图像识别呢?
- 下一篇: 图像识别深度学习主流方案平台比较