基于小样本学习的图像分类技术综述
基于小樣本學(xué)習(xí)的圖像分類技術(shù)綜述
人工智能技術(shù)與咨詢?昨天
本文來自《自動(dòng)化學(xué)報(bào)》,作者李穎等
關(guān)注微信公眾號(hào):人工智能技術(shù)與咨詢。了解更多咨詢!
圖像分類是一個(gè)經(jīng)典的研究課題, 典型的圖像分類算法涉及兩個(gè)問題, 一是如何對(duì)圖像特征進(jìn)行更好的表示, 二是如何學(xué)習(xí)好的分類參數(shù). 隨著卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks, CNN)的設(shè)計(jì)越來越深層化, 圖像特征的表示能力越來越強(qiáng), 同時(shí)也能對(duì)圖像進(jìn)行自動(dòng)分類. 在CNN提出之前, 人類通過人工設(shè)計(jì)的圖像描述符對(duì)圖像特征進(jìn)行提取, 效果卓有成效, 例如尺度不變特征變換(Scale-invariant feature transform, SIFT)[1]、方向梯度直方圖(Histogram of oriented gradient, HOG)[2], 還有詞袋模型(Bag-of-words, BoW)[3-6]等, 但是人工設(shè)計(jì)特征通常需要花費(fèi)很大精力, 并且不具有普適性. 基于CNN的深度學(xué)習(xí)在2012年的ILSVRC挑戰(zhàn)賽上取得了巨大成功, 同時(shí)由于大數(shù)據(jù)、計(jì)算硬件的發(fā)展以及反向傳播算法[7]的提出, 深度學(xué)習(xí)在圖像分類領(lǐng)域[8]表現(xiàn)出優(yōu)異性能.
深度學(xué)習(xí)的優(yōu)勢(shì)有賴于大數(shù)據(jù), 在大數(shù)據(jù)的驅(qū)動(dòng)下, 機(jī)器能夠進(jìn)行有效學(xué)習(xí), 然而數(shù)據(jù)量不足會(huì)導(dǎo)致模型出現(xiàn)過擬合等問題, 雖然簡(jiǎn)單的數(shù)據(jù)增強(qiáng)(Data augmentation, DA)和正則化技術(shù)可以緩解該問題, 但是該問題并沒有得到完全解決[9], 故針對(duì)小數(shù)據(jù)集的小樣本學(xué)習(xí)成為了解決這類問題的關(guān)鍵技術(shù). 2003年Li等首次提出了One-shot learning問題并利用貝葉斯框架[10-11]對(duì)視覺對(duì)象進(jìn)行學(xué)習(xí), 與之相比, 深度學(xué)習(xí)技術(shù)在小樣本圖像分類任務(wù)上具有更大的潛力. 小樣本學(xué)習(xí)的產(chǎn)生有兩個(gè)因素, 一是訓(xùn)練數(shù)據(jù)量少. 比如在醫(yī)療領(lǐng)域, 醫(yī)學(xué)影像的產(chǎn)生來源于病例, 通常少量的病例并不能夠輔助機(jī)器對(duì)醫(yī)療影像進(jìn)行分析. 二是讓機(jī)器學(xué)會(huì)以人類的方式進(jìn)行學(xué)習(xí), 即類人學(xué)習(xí). 人類能夠在獲取少量樣本的情況下, 對(duì)樣本進(jìn)行分類和識(shí)別, 并且具有快速理解新概念并將其泛化的能力[12], 小樣本學(xué)習(xí)的目的之一就是讓機(jī)器以人類的學(xué)習(xí)方式完成任務(wù). 小樣本學(xué)習(xí)目前在目標(biāo)識(shí)別[13]、圖像分割[14]、圖像分類與檢索[15]等多種圖像處理任務(wù)中都有應(yīng)用, 文獻(xiàn)[16-19]從樣本數(shù)量、帶標(biāo)簽樣本的數(shù)量、先驗(yàn)知識(shí)的作用等不同角度對(duì)小樣本學(xué)習(xí)技術(shù)進(jìn)行了分類討論和分析.
在2010至2015年間, 大量的文獻(xiàn)利用語義遷移來解決訓(xùn)練樣本不足的問題. 例如, Mensink等[20-21]借鑒了聚類和度量學(xué)習(xí)的方法對(duì)ImageNet數(shù)據(jù)集進(jìn)行分類, 并且探索了KNN (K-nearest neighbor)和NCM (Nearest class mean)分類器, 通過對(duì)每個(gè)類的語義描述, 學(xué)習(xí)一個(gè)度量, 使其在訓(xùn)練和測(cè)試類別間共享, 達(dá)到遷移效果; 文獻(xiàn)[22]將語義知識(shí)遷移擴(kuò)展到直推式學(xué)習(xí), 利用已知類別推測(cè)未知類別的表示, 計(jì)算未知類別的樣本相似性, 在構(gòu)建數(shù)據(jù)空間分布關(guān)系時(shí), 將數(shù)據(jù)投影到低維的語義空間, 再進(jìn)一步尋找數(shù)據(jù)的空間分布, 并在AwA (Animals with attributes)[23]、ImageNet[24]以及MPII composites activities[25]數(shù)據(jù)集上取得很好的分類效果; 文獻(xiàn)[26]提出直推式多視圖嵌入框架來解決領(lǐng)域漂移問題, 利用異構(gòu)多視圖標(biāo)簽傳播來解決原型稀疏性問題, 有效利用了不同語義表示提供的互補(bǔ)信息, 并在AwA、CUB (Caltech-UCSD-Birds)[27]、USAA (Unstructured social activity attribute)[28]數(shù)據(jù)集上取得了很好效果; Fu等[28]為解決帶有稀疏和不完整標(biāo)簽的社交媒體數(shù)據(jù)的屬性學(xué)習(xí)問題, 利用零樣本學(xué)習(xí)思想提出了一種學(xué)習(xí)半潛在屬性空間的模型, 它能夠表達(dá)用戶自定義和潛在的屬性信息, 在USAA數(shù)據(jù)集上取得很好的效果. 這些文章針對(duì)的多是零樣本學(xué)習(xí)問題, 本文主要介紹小樣本下的圖像分類算法, 因此綜述算法更集中于Few-shot learning.
近年來現(xiàn)有文獻(xiàn)中基于小樣本學(xué)習(xí)的圖像分類算法都是采用深度學(xué)習(xí). 將深度學(xué)習(xí)中的技術(shù)用于小樣本學(xué)習(xí)中, 比如使用數(shù)據(jù)增強(qiáng)技術(shù)來增加樣本的數(shù)量, 通過注意力機(jī)制和記憶力機(jī)制來對(duì)圖像特征進(jìn)行提取, 設(shè)計(jì)提取特征網(wǎng)絡(luò)和分類器之間的映射關(guān)系, 與此同時(shí), 遷移學(xué)習(xí)、元學(xué)習(xí)、對(duì)偶學(xué)習(xí)、貝葉斯學(xué)習(xí)以及圖神經(jīng)網(wǎng)絡(luò)方法也被用于小樣本圖像分類的任務(wù). 本文的小樣本學(xué)習(xí)算法與其他幾篇小樣本文獻(xiàn)相比較有兩點(diǎn)區(qū)別, 一是本文闡述的小樣本學(xué)習(xí)算法是針對(duì)圖像分類任務(wù), 文獻(xiàn)[16-19]中的小樣本學(xué)習(xí)算法不僅應(yīng)用于圖像分類, 還有識(shí)別、分割等圖像任務(wù)以及小樣本學(xué)習(xí)在語音、視頻中的算法應(yīng)用, 本文集中地對(duì)小樣本圖像分類算法進(jìn)行了分類并歸納總結(jié); 二是本文探索了不同的網(wǎng)絡(luò)建模方式, 將小樣本圖像分類算法分為卷積神經(jīng)網(wǎng)絡(luò)模型和圖神經(jīng)網(wǎng)絡(luò)模型兩大類, 卷積神經(jīng)網(wǎng)絡(luò)模型主要基于CNN對(duì)圖像數(shù)據(jù)建模, 圖神經(jīng)網(wǎng)絡(luò)模型進(jìn)一步將CNN應(yīng)用在圖神經(jīng)網(wǎng)絡(luò)上, 通過圖結(jié)構(gòu)中的節(jié)點(diǎn)和邊來對(duì)圖像數(shù)據(jù)建模.
本文的結(jié)構(gòu)如下, 第1節(jié)介紹了小樣本圖像分類的流程, 小樣本圖像分類數(shù)據(jù)集和實(shí)驗(yàn)評(píng)價(jià)指標(biāo); 第2節(jié)將現(xiàn)有小樣本圖像分類算法按照數(shù)據(jù)結(jié)構(gòu)類型分為卷積神經(jīng)網(wǎng)絡(luò)模型和圖神經(jīng)網(wǎng)絡(luò)模型兩大類并進(jìn)行詳細(xì)介紹; 第3節(jié)通過實(shí)驗(yàn)數(shù)據(jù)對(duì)比分析了各種算法的性能; 第4節(jié)總結(jié)了小樣本圖像分類面臨的技術(shù)挑戰(zhàn)并討論了未來研究趨勢(shì); 第5節(jié)總結(jié)全文.
1.?? 小樣本圖像分類介紹
1.1?? 基于小樣本學(xué)習(xí)的圖像分類算法
小樣本學(xué)習(xí)是指訓(xùn)練類別樣本較少的情況下, 進(jìn)行相關(guān)的學(xué)習(xí)任務(wù), 一般地, 我們也希望機(jī)器通過學(xué)習(xí)大量的基類(Base class)后, 僅僅需要少量樣本就能快速學(xué)習(xí)到新類(New class). 通常情況下, 小樣本學(xué)習(xí)能夠利用類別中的少量樣本, 即一個(gè)或者幾個(gè)樣本進(jìn)行學(xué)習(xí). 類別下的訓(xùn)練樣本只有一個(gè)的情況下, 小樣本學(xué)習(xí)被稱為One-shot learning[10], 類別下的訓(xùn)練樣本有多個(gè)的情況下, 稱為Few-shot learning[29-30], Few-shot learning包含有One-shot learning的情況.
小樣本圖像分類流程如圖1所示, 包括準(zhǔn)備數(shù)據(jù)集、構(gòu)建用于圖像特征提取的網(wǎng)絡(luò)和設(shè)計(jì)分類器三個(gè)步驟. 以下對(duì)建立小樣本圖像分類流程的三個(gè)步驟進(jìn)行具體介紹.
圖?1??小樣本圖像分類流程
Fig.?1??The procedure of small sample image classification
下載:?全尺寸圖片?幻燈片
1.1.1?? 數(shù)據(jù)集處理
本文將處理小樣本圖像數(shù)據(jù)集的方式分為兩種. 一是進(jìn)行數(shù)據(jù)增強(qiáng), 將數(shù)據(jù)集進(jìn)行量級(jí)擴(kuò)增和模式擴(kuò)增, 量級(jí)擴(kuò)增是指針對(duì)數(shù)據(jù)量級(jí)的擴(kuò)大, 模式擴(kuò)增是指在量級(jí)擴(kuò)增的同時(shí), 讓不同的樣本包含更多的語義特性. 訓(xùn)練模型時(shí), 如果每類包含大量的樣本, 且這些樣本包含大量的模式, 則在緩解過擬合問題的同時(shí), 模型會(huì)具有更好的魯棒性和泛化能力. 除了圖像樣本數(shù)目的擴(kuò)增, 圖像特征的增強(qiáng)也是一種數(shù)據(jù)增強(qiáng)的方式[31]; 二是不對(duì)小樣本數(shù)據(jù)集進(jìn)行處理, 在只有少量樣本的情況下, 讓模型適應(yīng)數(shù)據(jù), 針對(duì)數(shù)據(jù)的特點(diǎn)進(jìn)行建模[32]. 對(duì)于小樣本數(shù)據(jù)集, 設(shè)計(jì)用于提取表示能力強(qiáng)的特征的網(wǎng)絡(luò)架構(gòu)往往非常重要.
小樣本圖像數(shù)據(jù)集不足以讓模型捕捉到足夠的數(shù)據(jù)模式, 而應(yīng)用于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)又需要大量帶標(biāo)簽的訓(xùn)練樣本, 因此最直接的解決辦法就是進(jìn)行數(shù)據(jù)增強(qiáng)[33]. 數(shù)據(jù)增強(qiáng)包括三種方式: 一是通過旋轉(zhuǎn)、加噪、裁剪、壓縮等操作[34], 這種數(shù)據(jù)增強(qiáng)的方式在處理樣本不足的問題中都有應(yīng)用; 二是利用生成模型生成新的樣本或者生成新的特征. 例如, Jia等提出使用貝葉斯方法生成新的樣本[35]. 生成對(duì)抗網(wǎng)絡(luò)可為訓(xùn)練樣本提供更多的生成圖像, 增加訓(xùn)練樣本的多樣性. 2017年Mehrotra等提出了生成網(wǎng)絡(luò) + 孿生網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)[36], 生成對(duì)抗網(wǎng)絡(luò)由生成器和判決器組成, 如圖2所示, 利用生成器進(jìn)行數(shù)據(jù)增強(qiáng), 孿生網(wǎng)絡(luò)用于判決器. 孿生網(wǎng)絡(luò)第一次被Bromley等在1993年提出并用來解決一種匹配問題的簽名驗(yàn)證[37]; 三是通過函數(shù)變換, 將圖像中需要關(guān)注的物體本身或者其模式通過某種變換, 達(dá)到增加樣本數(shù)量或者特征數(shù)量的目的. 例如, Dixit等利用含有屬性標(biāo)注的語料庫來生成新的樣本[38]. 如果收集到的數(shù)據(jù)包含少量帶標(biāo)簽的樣本和大量未帶標(biāo)簽的樣本, 可以利用帶標(biāo)簽的樣本去標(biāo)注未帶標(biāo)簽的樣本, 產(chǎn)生的偽樣本也可以作為增加的訓(xùn)練樣本[39].
圖?2??生成對(duì)抗網(wǎng)絡(luò) + 孿生網(wǎng)絡(luò)[36]
Fig.?2??Generative adversarial networks + siamese networks[36]
下載:?全尺寸圖片?幻燈片
1.1.2?? 特征提取
這個(gè)過程主要是為適應(yīng)數(shù)據(jù)分布建立特征提取模型, 該模型能夠提取圖像的有效特征, 圖像特征的有效性可解釋為, 對(duì)于一個(gè)模型, 提取到的圖像特征可以對(duì)圖像進(jìn)行有效表示, 達(dá)到更好的分類效果. 為了提高圖像特征的有效性, 注意力機(jī)制[31]、記憶力機(jī)制[34]等技術(shù)被應(yīng)用于小樣本圖像分類算法中.
1)注意力機(jī)制
注意力機(jī)制是人類視覺所特有的大腦信號(hào)處理機(jī)制, 人類視覺通過快速掃描全局圖像, 獲得重點(diǎn)需要關(guān)注的目標(biāo)區(qū)域, 然后抑制其他無用信息, 極大地提高了視覺信息處理的效率與準(zhǔn)確性. 注意力模型在圖像領(lǐng)域被廣泛使用, 它借鑒了人類的注意力機(jī)制, 在對(duì)圖像的處理過程中, 始終關(guān)注感興趣的部分區(qū)域, 因此在建立提取圖像特征模型的過程時(shí), 注意力機(jī)制扮演著將圖像信息進(jìn)一步提取為有效信息的角色, 學(xué)習(xí)不同局部的重要性.
注意力機(jī)制在數(shù)學(xué)形式上可以理解為加權(quán)求和, 通常情況下使用Softmax形式, 并通過引入新的參數(shù)來彌補(bǔ)模型的擬合能力. 文獻(xiàn)[40]在對(duì)圖像特征提取的過程中使用了單一注意力機(jī)制, 文獻(xiàn)[41]認(rèn)為單一的注意力機(jī)制對(duì)圖像信息的提取不夠充分, 提出利用多注意力機(jī)制將類別標(biāo)簽信息與視覺信息聯(lián)系起來, 減小視覺信息與語義信息之間的鴻溝.
2)記憶力機(jī)制
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network, RNN)解決了短期記憶的問題, 其變體長(zhǎng)短期記憶網(wǎng)絡(luò)(Long short-term memory, LSTM)解決了短期記憶和長(zhǎng)期依賴的問題. 在圖像領(lǐng)域, 基于LSTM的記憶力機(jī)制近年來發(fā)揮著重要作用, 它增強(qiáng)了模型的擬合能力和圖像特征的表示能力. 小樣本圖像分類算法對(duì)于記憶力機(jī)制的應(yīng)用可分為兩類, 一是直接利用LSTM對(duì)圖像進(jìn)行編碼, 提高圖像特征的表示能力[9]; 二是利用讀寫控制器對(duì)記憶信息進(jìn)行寫入和讀出[42].
1.1.3?? 分類器
分類器的設(shè)計(jì)取決于圖像特征的有效性和分類器與圖像特征之間的適應(yīng)性. 分類器與圖像特征之間的適應(yīng)性可解釋為, 在假定圖像特征具有有效性的前提下, 分類器能夠最大程度地區(qū)分不同類別的圖像特征. 通常小樣本圖像分類中所使用的分類器, 大多數(shù)是在卷積神經(jīng)網(wǎng)絡(luò)的最后一層構(gòu)建帶有Softmax的全連接層, 或者對(duì)提取的圖像特征應(yīng)用K近鄰(K-nearest neighbor, KNN)算法, 還有對(duì)分類器的權(quán)重進(jìn)行重新生成, 使模型同時(shí)適用于基類數(shù)據(jù)集和新類數(shù)據(jù)集, 目前現(xiàn)有的元學(xué)習(xí)方法一般不研究將基類和新類一起進(jìn)行分類的問題.
分類器本質(zhì)上是對(duì)特征進(jìn)行相似性度量并對(duì)不同類別進(jìn)行最大程度的區(qū)分. 傳統(tǒng)機(jī)器學(xué)習(xí)中最簡(jiǎn)單的度量方式KNN, 可對(duì)每個(gè)樣本間的距離進(jìn)行度量, 然后進(jìn)行相似性距離排序, 例如, 可以利用1-nearest neighbor, 即1-NN來完成One-shot learning任務(wù), 但實(shí)驗(yàn)表明分類效果并不好[43]. 除此之外, 還可以通過支持向量機(jī)(Support vector machine, SVM)進(jìn)行分類度量[44-46]. 近鄰成分分析(Neighborhood component analysis, NCA)[47]及其非線性方法[48]、基于集合的弱度量方法[49]等都是樣本特征度量工作的范疇. 在小樣本圖像分類任務(wù)中, 也有利用余弦距離和歐氏距離以及點(diǎn)乘方式對(duì)特征距離進(jìn)行度量.
一般地, 當(dāng)模型學(xué)習(xí)到新的類別后, 會(huì)忘記之前學(xué)習(xí)過的類別, 與之前所做工作不同的是, Gidaris等[50]提出了基于注意力機(jī)制的分類器權(quán)重生成器, 通過重新設(shè)計(jì)分類器來適應(yīng)分類器權(quán)重和圖像特征之間的匹配程度, 使模型同時(shí)適用分類基類和新類樣本. 類似于上述工作, Chen等[51]將線性分類器替換為基于距離的分類器, 以比較兩種分類器在不同數(shù)據(jù)集上的優(yōu)劣.
1.2?? 數(shù)據(jù)集及分類指標(biāo)
1.2.1?? 小樣本公用數(shù)據(jù)集介紹
近年來, 現(xiàn)有文獻(xiàn)中的小樣本公用數(shù)據(jù)集主要包括: Omniglot[52]、CIFAR-100[53]、Mini-ImageNet[9]、Tiered-ImageNet[54]和CUB-200[27]. 從數(shù)據(jù)量級(jí)的大小來看, 數(shù)據(jù)集Tiered-ImageNet, 不僅數(shù)據(jù)量級(jí)較大、類別多, 而且每類包含的樣本也多; 量級(jí)較小的數(shù)據(jù)集, 例如Mini-ImageNet數(shù)據(jù)集、CIFAR-100數(shù)據(jù)集、CUB-200數(shù)據(jù)集, 這類數(shù)據(jù)集類別較少、類內(nèi)樣本數(shù)相對(duì)較多; Omniglot數(shù)據(jù)集類別較多, 但是相對(duì)類內(nèi)樣本少. 從數(shù)據(jù)類型的復(fù)雜度來看, Omniglot數(shù)據(jù)集屬于字符類型的圖像, 包含的類型和模式較為簡(jiǎn)單, 對(duì)其進(jìn)行實(shí)驗(yàn)往往分類精度較高; 其他數(shù)據(jù)集都屬于自然圖像, 包含的圖像模式較為復(fù)雜, 對(duì)其進(jìn)行實(shí)驗(yàn)分類精度往往相對(duì)較低.
上述數(shù)據(jù)集的相關(guān)信息如表1和圖3所示. 小樣本圖像分類使用的公用數(shù)據(jù)集圖像類別均達(dá)到或超過100類, 總體數(shù)據(jù)量均超過10000, Tiered-ImageNet數(shù)據(jù)集達(dá)到77多萬, Omniglot數(shù)據(jù)集和CUB-200數(shù)據(jù)集的平均類內(nèi)樣本數(shù)未達(dá)到100, Tiered-ImageNet數(shù)據(jù)集的平均類內(nèi)樣本數(shù)超過1000. 從本文第3節(jié)的實(shí)驗(yàn)分析將看到, 類別越多, 類內(nèi)樣本越多, 越有利于進(jìn)行小樣本圖像分類, 這表明數(shù)據(jù)量級(jí)的大小對(duì)小樣本圖像分類結(jié)果具有一定的影響.
表?1??小樣本公用數(shù)據(jù)集的數(shù)量信息
Table?1??Quantitative information of small sample public data sets
| 數(shù)據(jù)集 | 數(shù)據(jù)數(shù)量 | 類別數(shù)量 | 平均類內(nèi)樣本 |
| Omniglot[52] | 32460 | 1623 | 20 |
| CIFAR-100[53] | 60000 | 100 | 600 |
| Mini-ImageNet[9] | 60000 | 100 | 600 |
| Tiered-ImageNet[54] | 778848 | 608 | 1281 |
| CUB-200[27] | 11788 | 200 | 58 |
下載:?導(dǎo)出CSV?
|?顯示表格
圖?3??小樣本公用數(shù)據(jù)集樣本示例
Fig.?3??Sample examples of small sample public data sets
下載:?全尺寸圖片?幻燈片
1.2.2?? 評(píng)價(jià)指標(biāo)
小樣本圖像分類算法的實(shí)驗(yàn)評(píng)價(jià)指標(biāo)通常稱為N-way?K-shot[9]. 也有使用top-1和top-5來評(píng)價(jià)圖像分類精度[55].?N-way?K-shot: 選取N類圖像樣本, 每類圖像選取K個(gè)樣本或樣本對(duì), 一般地,?N∈{5,10,15,20},K∈{1,5}N∈{5,10,15,20},K∈{1,5}. 模型訓(xùn)練階段, 構(gòu)建好訓(xùn)練模型并在選取的N×K個(gè)樣本或樣本對(duì)上進(jìn)行訓(xùn)練; 在驗(yàn)證階段和測(cè)試階段, 選取N類樣本中的K個(gè)樣本或者樣本對(duì), 執(zhí)行N-way?K-shot分類任務(wù). 根據(jù)預(yù)測(cè)結(jié)果來確定預(yù)測(cè)類別, 預(yù)測(cè)類別與實(shí)際類別相符的準(zhǔn)確率即為評(píng)價(jià)指標(biāo). Top-1: 指預(yù)測(cè)排名第一的類別與實(shí)際結(jié)果相符的準(zhǔn)確率. Top-5: 指預(yù)測(cè)排名前五的類別包含實(shí)際結(jié)果的準(zhǔn)確率.
2.?? 小樣本圖像分類算法
針對(duì)不同類型數(shù)據(jù)的建模方式, 本文將小樣本圖像分類算法分為卷積神經(jīng)網(wǎng)絡(luò)模型和圖神經(jīng)網(wǎng)絡(luò)模型. 根據(jù)學(xué)習(xí)范式, 卷積神經(jīng)網(wǎng)絡(luò)模型可分為遷移學(xué)習(xí)、元學(xué)習(xí)、對(duì)偶學(xué)習(xí)和貝葉斯學(xué)習(xí). 基于遷移學(xué)習(xí)的小樣本圖像分類有三種實(shí)現(xiàn)方式, 基于特征、基于相關(guān)性和基于共享參數(shù); 基于元學(xué)習(xí)的小樣本圖像分類有三種實(shí)現(xiàn)方式, 基于度量、基于優(yōu)化和基于模型; 基于對(duì)偶學(xué)習(xí)的小樣本圖像分類有兩種實(shí)現(xiàn)方式, 一是利用自動(dòng)編碼機(jī), 二是利用生成對(duì)抗網(wǎng)絡(luò). 本節(jié)將對(duì)以上小樣本圖像分類算法進(jìn)行詳細(xì)介紹, 并在Omniglot數(shù)據(jù)集、Mini-ImageNet數(shù)據(jù)集、CIFAR-100數(shù)據(jù)集和CUB-200數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)分析.
2.1?? 遷移學(xué)習(xí)
利用遷移學(xué)習(xí)[56-57]可以減小模型訓(xùn)練的代價(jià), 同時(shí)達(dá)到讓卷積神經(jīng)網(wǎng)絡(luò)適應(yīng)小樣本數(shù)據(jù)的目的. 遷移學(xué)習(xí)的思想是, 相似任務(wù)之間的學(xué)習(xí)是有相同規(guī)律可尋的, 并且學(xué)習(xí)第n個(gè)任務(wù)比第1個(gè)任務(wù)要更為簡(jiǎn)單[58]. 遷移學(xué)習(xí)關(guān)注的是目標(biāo)任務(wù), 給定一個(gè)源域DsDs和一個(gè)學(xué)習(xí)任務(wù)TsTs, 一個(gè)目標(biāo)域DtDt和一個(gè)學(xué)習(xí)任務(wù)TtTt, 遷移學(xué)習(xí)的目的是使用在DsDs和TsTs上的知識(shí)幫助提高在目標(biāo)域DtDt上的預(yù)測(cè)函數(shù)ft(x)ft(x)的學(xué)習(xí), 以更好地執(zhí)行學(xué)習(xí)任務(wù)TtTt, 其中Ds≠DtDs≠Dt或Ts≠TtTs≠Tt. 如果遷移學(xué)習(xí)中的源數(shù)據(jù)和目標(biāo)數(shù)據(jù)不同但是具有相關(guān)性[59], 則需要進(jìn)一步處理. 比如, 使用多源域的決策知識(shí)預(yù)測(cè)目標(biāo)域的樣本標(biāo)簽[60].
如圖4所示, 從小樣本圖像分類的流程來看, 遷移學(xué)習(xí)是在圖像特征提取階段實(shí)現(xiàn)的. 具體的遷移方式可以分為基于特征的遷移、基于共享參數(shù)的遷移和基于關(guān)系的遷移. 如果將基類作為源域數(shù)據(jù), 將新類作為目標(biāo)域數(shù)據(jù), 以基類數(shù)據(jù)到新類數(shù)據(jù)的知識(shí)遷移為例, 基于特征的遷移是找出基類數(shù)據(jù)和新類數(shù)據(jù)之間共同的特征, 通過特征變換的方式將基類數(shù)據(jù)的知識(shí)進(jìn)行遷移, 用于新類數(shù)據(jù)分類. 該方法存在的難點(diǎn)在于, 一是尋找基類數(shù)據(jù)和新類數(shù)據(jù)的共同特征, 二是采用何種方式對(duì)特征進(jìn)行遷移; 基于關(guān)系的遷移是建立基類數(shù)據(jù)和新類數(shù)據(jù)之間相關(guān)知識(shí)的映射, 通過這種關(guān)系映射來進(jìn)行學(xué)習(xí). 該方法的難點(diǎn)在于, 一是如何確定映射關(guān)系, 二是如何建立映射關(guān)系; 基于共享參數(shù)的遷移需要找到基于基類數(shù)據(jù)模型和基于新類數(shù)據(jù)模型之間的共享參數(shù)或者相同的先驗(yàn)分布, 利用這些參數(shù)或者先驗(yàn)分布進(jìn)行知識(shí)遷移. 該方法的難點(diǎn)在于如何尋找共享參數(shù)和確定先驗(yàn)分布. 在尋找源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)的共同特征、知識(shí)映射關(guān)系以及模型的共享參數(shù)和先驗(yàn)分布時(shí), 重要的是搭建能夠有效提取圖像特征的網(wǎng)絡(luò)結(jié)構(gòu)以及適用的知識(shí)遷移方式. 需要建立可持續(xù)學(xué)習(xí)的模型時(shí), 小樣本遷移學(xué)習(xí)不僅需要保證模型對(duì)目標(biāo)域數(shù)據(jù)有效, 而且還要確保模型在源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)都有不錯(cuò)的分類效果.
圖?4??遷移學(xué)習(xí)
Fig.?4??Transfer learning
下載:?全尺寸圖片?幻燈片
2.1.1?? 基于特征的遷移學(xué)習(xí)
Hariharan等[61]利用基類樣本間的模式對(duì)新類樣本進(jìn)行相同變換, 達(dá)到增加訓(xùn)練樣本數(shù)量的目的. 具體來講, 從類A中抽取兩個(gè)樣本, 這兩個(gè)樣本間存在某種變換模式, 再從類B中取出一個(gè)樣本, 對(duì)這個(gè)樣本實(shí)施和類A中兩個(gè)樣本間同樣的變換模式以生成新的樣本. 該方法使用ImageNet1k數(shù)據(jù)集, 將其分為基類數(shù)據(jù)集和新類數(shù)據(jù)集, 基類中含有大量訓(xùn)練樣本, 新類含有少量訓(xùn)練樣本. 訓(xùn)練模型分為兩個(gè)階段, 一是表征學(xué)習(xí)階段, 對(duì)數(shù)據(jù)增強(qiáng)后的基類數(shù)據(jù)進(jìn)行特征提取, 并構(gòu)建分類器; 二是小樣本學(xué)習(xí)階段, 利用基類數(shù)據(jù)和新類數(shù)據(jù)共同訓(xùn)練模型, 以獲取基類數(shù)據(jù)和新類數(shù)據(jù)的共同特征, 并將表征學(xué)習(xí)階段提取的特征用于對(duì)基類和新類進(jìn)行分類. 為了使分類器同時(shí)適應(yīng)基類數(shù)據(jù)和新類數(shù)據(jù), 如式(1)所示, 提出一個(gè)新的損失函數(shù), 用來減小模型
| Loss=minW,?LD(?,W)+λLSGMD(?,W)Loss=minW,?LD(?,W)+λLDSGM(?,W) | (1) |
在基類和新類上學(xué)習(xí)能力的差異, 其中,?LD(?,W)LD(?,W)表示在基類數(shù)據(jù)上的損失, 平方梯度(Squared gradient magnitude, SGM)損失LSGMD(?,W)LDSGM(?,W)表示基類與新類之間的差異所造成的損失, 參數(shù)λλ通過交叉驗(yàn)證確定, 以保證構(gòu)建一個(gè)在基類和新類都適用的分類器. Choi等[62]針對(duì)素描圖像和自然圖像的小樣本學(xué)習(xí)問題提出了一種結(jié)構(gòu)性集合匹配網(wǎng)絡(luò)(Structured set matching networks, SSMN), 利用的是樣本間的相關(guān)性. 該模型在自建的多標(biāo)簽的素描圖像集合、自然圖像集合、素描和自然圖像混合的集合間的三個(gè)數(shù)據(jù)集中都有不錯(cuò)的效果. 它利用圖像的多標(biāo)簽信息進(jìn)行域內(nèi)或跨域遷移, 通過CNN和雙向LSTMs對(duì)基類樣本和新類樣本的局部特征進(jìn)行提取并映射進(jìn)同一空間中, 計(jì)算局部和全局相似度實(shí)現(xiàn)圖像分類.
2.1.2?? 基于關(guān)系的遷移學(xué)習(xí)
將知識(shí)壓縮進(jìn)一個(gè)單一的模型已經(jīng)被Buciluaana等證明是可行的[63], 進(jìn)一步地, 2014年Hinton等首次提出了知識(shí)蒸餾的概念[64], 通過引入相對(duì)復(fù)雜的教師網(wǎng)絡(luò), 來誘導(dǎo)精簡(jiǎn)、低復(fù)雜度的學(xué)生網(wǎng)絡(luò)的訓(xùn)練, 將知識(shí)從教師網(wǎng)絡(luò)中遷移到壓縮的學(xué)生網(wǎng)絡(luò)中[65], 實(shí)現(xiàn)知識(shí)遷移. 學(xué)生網(wǎng)絡(luò)可以通過對(duì)教師網(wǎng)絡(luò)進(jìn)行修剪[66-68]或者壓縮[69-72]得到, 也可以重新設(shè)計(jì)一個(gè)新的網(wǎng)絡(luò)架構(gòu). 知識(shí)蒸餾的目的就是在減少網(wǎng)絡(luò)架構(gòu)的同時(shí)把網(wǎng)絡(luò)的知識(shí)保留下來, 為了達(dá)到這一目的, 提出了一個(gè)新的溫度參數(shù)Tem, 將輸出的概率(硬目標(biāo))進(jìn)行軟化, 如式(2)所示,
| q=exp(ziTem)∑iexp(xiTem)q=exp(ziTem)∑iexp(xiTem) | (2) |
其中zizi是Softmax層的前一層輸出,?qq是軟化后的概率輸出(軟目標(biāo)). 教師網(wǎng)絡(luò)的預(yù)測(cè)輸出除以溫度參數(shù)Tem之后, 做Softmax變換, 可以獲得軟化的概率分布(軟目標(biāo)), 數(shù)值介于0 ~ 1之間, 取值分布較為緩和, 即對(duì)于樣本的所屬類別分別給出一個(gè)或大或小的概率, 而不是確定的0或1.?TemTem數(shù)值越大, 分布越緩和; 而TemTem數(shù)值減小, 容易放大錯(cuò)誤分類的概率, 引入不必要的噪聲. 針對(duì)較困難的分類或檢測(cè)任務(wù),?TemTem通常取1, 確保教師網(wǎng)絡(luò)中正確預(yù)測(cè)的貢獻(xiàn). 硬目標(biāo)則是樣本的真實(shí)標(biāo)注, 可以用One-hot矢量表示. 總體的損失設(shè)計(jì)為軟目標(biāo)與硬目標(biāo)所對(duì)應(yīng)的交叉熵的加權(quán)平均, 其中軟目標(biāo)交叉熵的加權(quán)系數(shù)越大, 表明遷移誘導(dǎo)越依賴教師網(wǎng)絡(luò)的貢獻(xiàn), 這對(duì)訓(xùn)練初期階段是很有必要的, 有助于讓學(xué)生網(wǎng)絡(luò)更輕松地鑒別簡(jiǎn)單樣本, 但訓(xùn)練后期需要適當(dāng)減小軟目標(biāo)的比重, 讓真實(shí)標(biāo)注幫助鑒別困難樣本. 另外, 教師網(wǎng)絡(luò)的推理性能通常要優(yōu)于學(xué)生網(wǎng)絡(luò), 而模型容量則無具體限制, 因此帶有標(biāo)簽的訓(xùn)練數(shù)據(jù)越多, 教師網(wǎng)絡(luò)推理精度越高, 越有利于學(xué)生網(wǎng)絡(luò)的學(xué)習(xí). Kimura等[39]在2018年提出了一種不同于之前的知識(shí)蒸餾方法, 僅僅需要使用少量的訓(xùn)練樣本就可以實(shí)現(xiàn)知識(shí)遷移. 利用少量可得的帶標(biāo)簽的訓(xùn)練樣本訓(xùn)練一個(gè)高斯過程的模型作為教師網(wǎng)絡(luò), 以克服過擬合問題, 接著如同知識(shí)蒸餾一樣, 將模型中的知識(shí)遷移到學(xué)生網(wǎng)絡(luò)模型中, 同時(shí)使用誘導(dǎo)點(diǎn)[73]作為增加的訓(xùn)練樣本, 對(duì)學(xué)生網(wǎng)絡(luò)進(jìn)行訓(xùn)練. 2019年有研究人員提出在學(xué)生網(wǎng)絡(luò)中添加1×1卷積層[74], 實(shí)現(xiàn)知識(shí)蒸餾[75]. 該算法使用預(yù)訓(xùn)練模型VGG或者ResNet等作為教師網(wǎng)絡(luò), 在學(xué)生網(wǎng)絡(luò)中添加1×1卷積層, 進(jìn)一步減少參數(shù)的數(shù)量, 保持特征映射尺度不變的同時(shí)增加網(wǎng)絡(luò)的非線性, 使用最小二乘回歸將其與教師網(wǎng)絡(luò)進(jìn)行對(duì)齊, 即對(duì)學(xué)生網(wǎng)絡(luò)進(jìn)行誘導(dǎo)學(xué)習(xí), 經(jīng)過網(wǎng)絡(luò)訓(xùn)練后得到最終的學(xué)生網(wǎng)絡(luò).
2.1.3?? 基于共享參數(shù)的遷移學(xué)習(xí)
Oquab等[76]采用微調(diào)策略. 該算法中, 對(duì)圖像進(jìn)行多塊分解實(shí)現(xiàn)數(shù)據(jù)增強(qiáng), 加強(qiáng)了模型以局部視角識(shí)別圖像的能力. Oquab等認(rèn)為卷積神經(jīng)網(wǎng)絡(luò)提取的中層特征能夠?qū)D像進(jìn)行很好的表示, 利用在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的模型[8], 對(duì)圖像中層特征進(jìn)行提取, 并重新構(gòu)建分類層, 構(gòu)建新的網(wǎng)絡(luò)對(duì)數(shù)據(jù)集分類.
Qi等[77]提出將遷移學(xué)習(xí)和增量學(xué)習(xí)進(jìn)行結(jié)合, 通過對(duì)分類器的權(quán)重進(jìn)行處理來實(shí)現(xiàn)增量零訓(xùn)練. 該算法利用卷積神經(jīng)網(wǎng)絡(luò)作為特征提取器以共享參數(shù), 對(duì)新樣本進(jìn)行特征提取后, 產(chǎn)生一個(gè)分類權(quán)重向量, 將其擴(kuò)展進(jìn)預(yù)訓(xùn)練的分類器權(quán)重中, 以適應(yīng)對(duì)新樣本的分類任務(wù).
除了將遷移學(xué)習(xí)與增量學(xué)習(xí)進(jìn)行結(jié)合, 也可對(duì)特征提取器與分類器間的映射關(guān)系進(jìn)行獨(dú)立建模. Qiao等[55]在2018年提出直接從激活函數(shù)層預(yù)測(cè)分類參數(shù)的算法(Predicting parameters from activations, PPA), 一般地, 最后一層激活函數(shù)層與分類層間有相應(yīng)的權(quán)重連接, 在激活函數(shù)和分類層之間建立一個(gè)分類參數(shù)預(yù)測(cè)器, 可以更好地對(duì)分類器的參數(shù)進(jìn)行調(diào)整, 匹配圖像特征與分類器.
2.2?? 元學(xué)習(xí)
元學(xué)習(xí)又叫做學(xué)會(huì)學(xué)習(xí), 是機(jī)器學(xué)習(xí)領(lǐng)域一個(gè)重要的研究方向, 它解決的是學(xué)會(huì)如何學(xué)習(xí)的問題. 傳統(tǒng)的機(jī)器學(xué)習(xí)研究模式是: 獲取特定任務(wù)的數(shù)據(jù)集, 每次再利用這些數(shù)據(jù)集從頭開始訓(xùn)練模型. 然而, 人類可以通過獲取以往的經(jīng)驗(yàn), 對(duì)同類型的任務(wù)或有共性的任務(wù)進(jìn)行快速學(xué)習(xí), 這是因?yàn)槿祟惗萌绾螌W(xué)習(xí). 如圖5所示, 如果把特征提取視為機(jī)器在數(shù)據(jù)集上學(xué)習(xí)的過程, 那么元學(xué)習(xí)器就是要評(píng)估這個(gè)學(xué)習(xí)過程, 也就是讓機(jī)器學(xué)習(xí)學(xué)習(xí)的過程, 即通過學(xué)習(xí)獲得學(xué)習(xí)經(jīng)驗(yàn), 利用這些經(jīng)驗(yàn)再去對(duì)最終的目標(biāo)任務(wù)進(jìn)行評(píng)估. 一種常見的元學(xué)習(xí)方式是將學(xué)習(xí)算法編碼進(jìn)卷積神經(jīng)網(wǎng)絡(luò)中, 包括基于距離度量的元學(xué)習(xí)和基于模型的元學(xué)習(xí). 基于距離度量的元學(xué)習(xí)將圖像映射到一個(gè)度量空間并使用某種度量方式計(jì)算不同圖像樣本的差異, 度量方式包括固定距離度量[40]?(歐氏距離、余弦距離或點(diǎn)乘)和非固定距離度量[62]?(例如使用Sigmoid計(jì)算距離得分); 基于模型的元學(xué)習(xí)通過構(gòu)建元模型來獲得經(jīng)驗(yàn)知識(shí)[78], 再利用這些經(jīng)驗(yàn)去評(píng)估最終的分類任務(wù). 另一種元學(xué)習(xí)方式是基于優(yōu)化的元學(xué)習(xí), 基于優(yōu)化的元學(xué)習(xí)目的是使網(wǎng)絡(luò)具有一個(gè)好的初始化[79].
圖?5??元學(xué)習(xí)
Fig.?5??Meta learning
下載:?全尺寸圖片?幻燈片
2.2.1?? 基于度量的元學(xué)習(xí)
采用固定距離度量方式. 2015年Koch等[43]針對(duì)字符識(shí)別提出了深度卷積孿生網(wǎng)絡(luò), 利用全局仿射變換增加訓(xùn)練數(shù)據(jù)集. 該算法訓(xùn)練一個(gè)孿生網(wǎng)絡(luò)對(duì)樣本進(jìn)行相似性判決, 即讓樣本對(duì)通過完全相同的網(wǎng)絡(luò)結(jié)構(gòu), 利用歐氏距離對(duì)從樣本中學(xué)習(xí)到的特征進(jìn)行相似性度量, 根據(jù)學(xué)習(xí)到的特征映射測(cè)試樣本進(jìn)行分類. 雖然該方法提出不依賴先驗(yàn)知識(shí), 易于簡(jiǎn)化模型, 但是缺少先驗(yàn)知識(shí)的輔助信息, 在較為復(fù)雜的數(shù)據(jù)集上進(jìn)行小樣本圖像分類任務(wù)時(shí)難以達(dá)到好的效果. Vinyals等使用余弦距離度量, 設(shè)計(jì)的匹配網(wǎng)絡(luò)(Matching networks, MN)[9]經(jīng)由基于深度特征的度量學(xué)習(xí)和外部存儲(chǔ)器增強(qiáng)的神經(jīng)網(wǎng)絡(luò)啟發(fā), 可以從小數(shù)據(jù)集中快速地學(xué)習(xí)新的概念, 同時(shí)避免微調(diào), 且對(duì)細(xì)粒度圖像分類(Fine-gained image classification)任務(wù)有很好的適應(yīng)性. 匹配網(wǎng)絡(luò)采用“episode” 的形式, 即從原始數(shù)據(jù)中采樣出帶有標(biāo)簽的任務(wù)集合, 然后從任務(wù)集合中獲取支持集和目標(biāo)集構(gòu)成元任務(wù), 通過對(duì)支持集的訓(xùn)練, 來最小化目標(biāo)集上的誤差, 很多元學(xué)習(xí)的文章對(duì)數(shù)據(jù)集都采取“episode” 的形式. 通過使用注意力機(jī)制和用于上下文嵌入的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Long-short term memory, LSTM)[80], 對(duì)圖像特征進(jìn)行充分提取. 計(jì)算測(cè)試樣本標(biāo)簽的數(shù)學(xué)表達(dá)式如式 (3),
| y^=∑i=1ka(x^,xi)yiy^=∑i=1ka(x^,xi)yi | (3) |
其中xi,yixi,yi, 是來自支持集S=(xi,yi)ki=1S=(xi,yi)i=1k的樣本及其對(duì)應(yīng)標(biāo)簽,?x?x^代表測(cè)試樣本. 可以看出測(cè)試樣本標(biāo)簽的輸出是支持集中標(biāo)簽的線性組合,?aa是一個(gè)注意力機(jī)制, 通過在余弦距離上使用Softmax來實(shí)現(xiàn), 可認(rèn)為是對(duì)于標(biāo)簽的加權(quán)系數(shù), 用來衡量支持集中訓(xùn)練樣本和測(cè)試樣本的相關(guān)程度. Bartunov等[40]在2018年提出了一種生成式匹配網(wǎng)絡(luò)(Generative matching networks, GMN), 認(rèn)為新樣本的生成服從某一條件概率分布, 使用該分布生成新樣本來進(jìn)行數(shù)據(jù)增強(qiáng), 增加了樣本的多樣性, 因此不要求訓(xùn)練數(shù)據(jù)本身具有豐富的多樣性, 少量的數(shù)據(jù)即可進(jìn)行小樣本圖像分類任務(wù). 與之前的匹配網(wǎng)絡(luò)不同, 該方法不是針對(duì)樣本進(jìn)行直接匹配, 而是將樣本映射到語義嵌入空間, 在嵌入空間中利用條件似然函數(shù)對(duì)樣本的語義特征向量進(jìn)行匹配, 減小了特征空間和語義空間的鴻溝. Cai等[42]提出了端到端的記憶匹配網(wǎng)絡(luò)(Memory matching networks, MMN), 是一種利用內(nèi)部存儲(chǔ)來進(jìn)行記憶編碼的元學(xué)習(xí)方法, 它將提取到的圖像特征用記憶寫入控制器壓縮進(jìn)記憶間隙, 然后利用上下文學(xué)習(xí)器, 即雙向的LSTM對(duì)記憶間隙進(jìn)行編碼, 不僅提高了圖像特征的表示能力, 而且能夠探索類別之間的關(guān)系, 其輸出為未標(biāo)注樣本的嵌入向量, 記憶讀入控制器通過讀入支持集的嵌入向量, 將兩者點(diǎn)乘作為距離相似度度量, 相比于余弦距離, 計(jì)算復(fù)雜度更加簡(jiǎn)單. Snell等提出的原型網(wǎng)絡(luò)(Prototypical networks, PN)[29]需要計(jì)算類別原型. 通過學(xué)習(xí)一個(gè)度量空間, 在這個(gè)度量空間內(nèi), 分類器可以根據(jù)樣本到類別原型間的距離, 來對(duì)樣本進(jìn)行分類. 每個(gè)類別原型, 可以通過對(duì)每個(gè)類別中所有樣本在度量空間的向量求平均得到, 使用歐氏距離來判斷樣本所屬的類別.
Choi等采用非固定距離度量[62], 針對(duì)素描圖像和自然圖像的小樣本圖像分類問題提出了一種結(jié)構(gòu)性集合匹配網(wǎng)絡(luò)(Structured set matching networks, SSMN), 從執(zhí)行任務(wù)的角度來看該方法屬于元學(xué)習(xí). 該模型利用RNN對(duì)圖像間的所有標(biāo)簽對(duì)應(yīng)的局部信息進(jìn)行局部相似度計(jì)算, 并將局部特征和全局特征進(jìn)行結(jié)合, 利用多標(biāo)簽數(shù)據(jù)增強(qiáng)圖像的解釋性, 但同時(shí)也增加了標(biāo)注數(shù)據(jù)的工作量. 人類在辨別事物的時(shí)候, 習(xí)慣對(duì)不同的事物進(jìn)行比較, 根據(jù)這個(gè)簡(jiǎn)單的思想, Sung等[30]在2018年提出的端到端的相關(guān)網(wǎng)絡(luò)(Relation network, RN), 學(xué)習(xí)一個(gè)深度距離以度量元學(xué)習(xí)任務(wù)的不同樣本. 相關(guān)網(wǎng)絡(luò)由兩個(gè)模塊組成, 嵌入模塊和相關(guān)模塊, 嵌入模塊對(duì)不同的樣本進(jìn)行特征提取, 相關(guān)模塊將不同樣本的特征進(jìn)行拼接進(jìn)而得出不同樣本間的相關(guān)性度量分?jǐn)?shù). Zhou等[81]提出了基于嵌入回歸的視覺類比網(wǎng)絡(luò), 學(xué)習(xí)低維的嵌入空間, 再從嵌入空間中學(xué)習(xí)到分類參數(shù)的線性映射函數(shù), 對(duì)新類分類時(shí), 將新類樣本與學(xué)習(xí)到基類的嵌入特征進(jìn)行相似度度量.
2.2.2?? 基于模型的元學(xué)習(xí)
一般地, 元學(xué)習(xí)分為兩個(gè)階段: 執(zhí)行在不同任務(wù)上的元級(jí)模型的慢速學(xué)習(xí)和執(zhí)行在單個(gè)任務(wù)中的基準(zhǔn)模型的快速學(xué)習(xí)[82-83], 元級(jí)模型的目的是學(xué)習(xí)不同任務(wù)中的通用知識(shí), 然后將其傳遞給基準(zhǔn)模型, 來幫助在單個(gè)任務(wù)上的學(xué)習(xí). Munkhdalai等[78]在2017年使用卷積神經(jīng)網(wǎng)絡(luò)構(gòu)造了一種元網(wǎng)絡(luò)(Meta networks, meta-Nets), 用于跨任務(wù)間的學(xué)習(xí), 遵循之前的工作, 將元學(xué)習(xí)問題分為兩個(gè)階段. 它提出了一種更快的學(xué)習(xí)方法是利用一個(gè)神經(jīng)網(wǎng)絡(luò)去預(yù)測(cè)另一個(gè)神經(jīng)網(wǎng)絡(luò)的參數(shù), 生成的參數(shù)稱為快權(quán)值, 用來加快網(wǎng)絡(luò)的學(xué)習(xí)速度, 普通的基于隨機(jī)梯度下降(Stochastic gradient descent, SGD)等優(yōu)化的參數(shù)被稱為慢權(quán)值. 該模型的訓(xùn)練由元級(jí)模型和基準(zhǔn)模型共同來執(zhí)行, 包括元信息的獲取, 快權(quán)重的產(chǎn)生和慢權(quán)重的更新. 基準(zhǔn)模型使用損失梯度信息作為元信息, 在不同元任務(wù)中獲取元信息并存儲(chǔ)在外部設(shè)備. 元級(jí)模型對(duì)存儲(chǔ)在外部存儲(chǔ)設(shè)備的元信息進(jìn)行獲取, 并通過預(yù)測(cè)產(chǎn)生快權(quán)值來加速網(wǎng)絡(luò)學(xué)習(xí). Zhou等[32]在2018年提出的深度元學(xué)習(xí)模型(Deep meta learning, DML), 能夠在概念空間中進(jìn)行學(xué)習(xí), 而不是在傳統(tǒng)上的視覺空間. 該模型由三個(gè)模塊組成: 概念生成器、元學(xué)習(xí)器和概念判決器. 為了讓元學(xué)習(xí)有一個(gè)好的特征表示, 概念生成器使用深度殘差網(wǎng)絡(luò), 以捕捉高級(jí)語義概念, 然后利用概念判決器進(jìn)行信息反饋和優(yōu)化, 同時(shí)將提取到的特征作為概念用于元學(xué)習(xí)器進(jìn)一步地學(xué)習(xí). 該方法通過在語義概念上的學(xué)習(xí)減少了視覺空間和語義空間的鴻溝, 使用深度殘差網(wǎng)絡(luò)來構(gòu)建更加復(fù)雜的模型, 以適應(yīng)復(fù)雜的數(shù)據(jù)模式. Santoro等[34]提出利用RNN架構(gòu)加外部存儲(chǔ)記憶的方式. 外部存儲(chǔ)的使用使模型精度獲得了提高, 但是同時(shí)也降低了模型的效率并占用了大量的存儲(chǔ)空間. Sun等[84]提出的元 ? 遷移學(xué)習(xí)(Meta-transfer learning, MTL)利用遷移知識(shí)有效減少模型更新的參數(shù), 同時(shí)構(gòu)建更深層次的網(wǎng)絡(luò)增加模型的復(fù)雜度.
元學(xué)習(xí)模型通用方法. 針對(duì)小樣本數(shù)據(jù)量較少的特點(diǎn), Wang等[85]在2018年提出了對(duì)于任何元學(xué)習(xí)模型都適用的數(shù)據(jù)增強(qiáng)方式, 針對(duì)生成模型捕捉的樣本模式不足這一問題, 提出使用生成模型來產(chǎn)生新的樣本, 這些樣本是由真實(shí)的樣本和噪聲向量通過3層帶有Relu非線性激活函數(shù)的多層感知機(jī)(Multi-layer perception, MLP)產(chǎn)生的, 利用生成的樣本和原有的樣本共同對(duì)模型進(jìn)行訓(xùn)練. 該數(shù)據(jù)增強(qiáng)方式能夠結(jié)合任何元學(xué)習(xí)算法進(jìn)行使用, 由于采用生成網(wǎng)絡(luò)產(chǎn)生新樣本, 因此實(shí)驗(yàn)結(jié)果的好壞取決于生成新樣本的質(zhì)量. Wang等[86]提出了一個(gè)模型回歸網(wǎng)絡(luò)(Model regression networks), 利用的是分類器之間的相關(guān)性. 該方法認(rèn)為在小樣本數(shù)據(jù)中學(xué)習(xí)到的分類器和在大樣本數(shù)據(jù)中學(xué)習(xí)到的分類器之間存在一種變換, 可以通過深度回歸網(wǎng)絡(luò)進(jìn)行學(xué)習(xí), 同時(shí)該變換作為一種先驗(yàn)知識(shí)可以幫助在小樣本數(shù)據(jù)上的分類任務(wù).
2019年有研究學(xué)者將增量學(xué)習(xí)與元學(xué)習(xí)進(jìn)行結(jié)合, 提出的注意力吸引網(wǎng)絡(luò)[87]?(Attention attractor networks, AAN)模型不僅在新類上表現(xiàn)良好, 而且不會(huì)遺忘在基類上學(xué)習(xí)到的知識(shí). 如圖6, 訓(xùn)練階段A, 在基類上進(jìn)行預(yù)訓(xùn)練模型, 學(xué)習(xí)分類參數(shù)WaWa, 階段B結(jié)合注意力機(jī)制并利用每次學(xué)習(xí)一個(gè)新任務(wù)的分類參數(shù)WbWb, 階段C將WaWa和WbWb作為基類和新類的分類參數(shù)W?bWb?用來對(duì)元任務(wù)進(jìn)行測(cè)試. 對(duì)于給定的新任務(wù)都會(huì)學(xué)習(xí)一個(gè)參數(shù)WbWb, 代表該任務(wù)在執(zhí)行分類時(shí)的貢獻(xiàn), 使得分類器更加靈活適用, 而且對(duì)單個(gè)新樣本的分類也更加容易.
圖?6??注意力吸引網(wǎng)絡(luò)結(jié)構(gòu)[87]
Fig.?6??Attention attractor networks structure[87]
下載:?全尺寸圖片?幻燈片
2.2.3?? 基于優(yōu)化的元學(xué)習(xí)
針對(duì)小樣本數(shù)據(jù)集的微調(diào)策略, 采用的是將模型在大數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練, 然后在小數(shù)據(jù)集上進(jìn)行簡(jiǎn)單微調(diào). 然而經(jīng)過預(yù)訓(xùn)練的模型并不能保證對(duì)于微調(diào)有一個(gè)很好的初始化參數(shù). 基于優(yōu)化的元學(xué)習(xí)能夠保證網(wǎng)絡(luò)學(xué)習(xí)到一個(gè)好的初始化, 使模型對(duì)新任務(wù)更易于微調(diào).
Finn等[79]在2017年提出了一種與模型無關(guān)(Model-agnostic meta-learning, MAML)的元學(xué)習(xí)算法. 該算法提出的模型無關(guān)性元學(xué)習(xí)算法, 使用少量的梯度迭代步驟就可以學(xué)習(xí)到適用于新任務(wù)的參數(shù), 能夠匹配任何使用梯度下降法訓(xùn)練的模型. 簡(jiǎn)單地講, 如果在模型中加入新的任務(wù), 每個(gè)不同的任務(wù)會(huì)產(chǎn)生不同的損失, 利用模型在該任務(wù)上的損失進(jìn)行參數(shù)優(yōu)化, 使其快速適用于新的分類任務(wù). 然而MAML對(duì)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)非常敏感, 導(dǎo)致訓(xùn)練過程不穩(wěn)定, Antoniou等[88]提出對(duì)MAML進(jìn)行優(yōu)化, 進(jìn)一步提高了系統(tǒng)的泛化性能, 加快了網(wǎng)絡(luò)的收斂速度, 減少了計(jì)算開銷. Nichol等[89]提出的基于優(yōu)化的元學(xué)習(xí)模型Reptile, 也是通過學(xué)習(xí)網(wǎng)絡(luò)參數(shù)的初始化, 與MAML不同的是, Reptile在參數(shù)優(yōu)化時(shí)不要求使用微分. Ravi等[90]提出的基于梯度的優(yōu)化算法, 使用基于LSTM的元學(xué)習(xí)模型去學(xué)習(xí)一個(gè)網(wǎng)絡(luò)的初始化, 它能夠捕捉到單個(gè)任務(wù)的短期知識(shí)和所有任務(wù)的長(zhǎng)期知識(shí), 以便更好地提取特征用于解釋圖像.
2.3?? 對(duì)偶學(xué)習(xí)
為了降低機(jī)器對(duì)大量標(biāo)注樣本的依賴, 以及在強(qiáng)化學(xué)習(xí)中減少機(jī)器與環(huán)境交互的次數(shù), 對(duì)偶學(xué)習(xí)作為一種新的學(xué)習(xí)范式應(yīng)運(yùn)而生. 現(xiàn)實(shí)生活中, 很多有實(shí)用價(jià)值的人工智能任務(wù)往往是成對(duì)出現(xiàn)的, 例如, 在圖像領(lǐng)域, 圖像識(shí)別和圖像生成都有重要的應(yīng)用, 屬于對(duì)偶任務(wù). 如果根據(jù)對(duì)偶任務(wù)來訓(xùn)練模型, 利用任務(wù)到任務(wù)的反饋信息, 就能克服模型對(duì)數(shù)據(jù)的依賴問題[91].
深度神經(jīng)網(wǎng)絡(luò)中的自編碼機(jī)(Auto encoder, AE)就是對(duì)偶學(xué)習(xí)的一個(gè)特例, 包括兩個(gè)部分: 編碼和解碼. 變體算法有降噪自編碼機(jī)[92]、堆疊卷積自編碼機(jī)[93]和變分自編碼機(jī)[94]等, 其應(yīng)用主要為數(shù)據(jù)去噪、數(shù)據(jù)降維以及數(shù)據(jù)生成. 在進(jìn)行小樣本圖像分類的過程中, 由于數(shù)據(jù)量小, 會(huì)進(jìn)行數(shù)據(jù)增強(qiáng)操作, 但是數(shù)據(jù)增強(qiáng)有時(shí)候會(huì)產(chǎn)生噪聲數(shù)據(jù), 對(duì)于樣本數(shù)據(jù)的多樣性表示不足, 可能不會(huì)對(duì)決策邊界產(chǎn)生影響, 需要引入額外的語義知識(shí). 如圖7所示, Chen等[31]在2018年提出語義特征增加的算法(Semantic feature augmentation, SFA) ResNet-18 + 對(duì)偶TriNet網(wǎng)絡(luò), 利用編碼 ? 解碼機(jī)制在圖像特征和語義空間進(jìn)行變換實(shí)現(xiàn)特征增加, 增加的特征能夠豐富圖像的語義多樣性, 引入額外的語義信息. 使用ResNet-18網(wǎng)絡(luò)對(duì)圖像特征進(jìn)行提取, 編碼器Encoder-Trinet將提取的特征映射到語義空間, 在語義空間中, 對(duì)語義特征添加噪聲進(jìn)行高斯擾動(dòng), 假設(shè)語義空間中的特征值的微小變化允許在保持語義信息的同時(shí)形成潛在的類內(nèi)變換, 然后采用解碼器Decoder-Trinet將語義特征映射回多層的ResNet-18特征空間, 即實(shí)現(xiàn)特征增加. 該算法是一個(gè)端到端的網(wǎng)絡(luò)框架, 能夠在多層的圖像特征空間和語義空間中學(xué)習(xí)映射關(guān)系, 適用于多種網(wǎng)絡(luò)結(jié)構(gòu).
圖?7??編碼—解碼機(jī)制[31]
Fig.?7??Coding-decoding mechanism[31]
下載:?全尺寸圖片?幻燈片
2.4?? 貝葉斯學(xué)習(xí)
深度學(xué)習(xí)基于大數(shù)據(jù)通過多層網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)抽象概念的理解, 顯然, 數(shù)據(jù)量越多其效果越好, 假如沒有那么多的大數(shù)據(jù)該如何進(jìn)行抽象概念的理解. 對(duì)人類來說, 即便沒有知識(shí)的積累, 沒有相應(yīng)的專業(yè)知識(shí), 我們也能夠照貓畫虎, 這有點(diǎn)類似貝葉斯學(xué)習(xí)的方式[95]. 貝葉斯學(xué)習(xí)是利用參數(shù)的先驗(yàn)分布, 由小樣本信息得到的后驗(yàn)分布, 直接求出總體分布. 貝葉斯學(xué)習(xí)理論使用概率去表示所有形式的不確定性, 通過概率規(guī)則來實(shí)現(xiàn)學(xué)習(xí)和推理過程. 更具體的來說, 貝葉斯學(xué)習(xí)并不去求解最優(yōu)的參數(shù)值θ,θ,而是假設(shè)參數(shù)θθ本身符合某個(gè)分布, 即先驗(yàn)概率P(θ),P(θ),隨后利用訓(xùn)練樣本得到條件概率分布P(X|θ),P(X|θ),根據(jù)貝葉斯公式我們便能求得樣本的總體分布, 如式(4),
| P(θ|X)=P(θ)P(X|θ)P(X)P(θ|X)=P(θ)P(X|θ)P(X) | (4) |
其中P(X)P(X)為樣本XX服從的分布. 將貝葉斯學(xué)習(xí)與深度學(xué)習(xí)結(jié)合為貝葉斯深度學(xué)習(xí), 此時(shí)網(wǎng)絡(luò)的權(quán)重WiWi和偏置bb由確定的值變成某種分布. Lake等在2011年提出層次貝葉斯程序?qū)W習(xí)(Hierarchical Bayesian program learning, HBPL), 對(duì)觀測(cè)像素進(jìn)行結(jié)構(gòu)解釋, 解決了字符識(shí)別的問題, 但是其參數(shù)空間太大[12], 因此, 又提出了一種基于組合和因果關(guān)系的層次貝葉斯模型[96], 解決了對(duì)大數(shù)據(jù)集的依賴問題. 在2015年的貝葉斯框架中提出了一種新的計(jì)算模型, 用來模擬人類的學(xué)習(xí)能力[52], 同時(shí)加入了元學(xué)習(xí), 可以從現(xiàn)有的字符中抽象出其部件, 再根據(jù)不同部件的因果關(guān)系創(chuàng)造新的字符, 從而形成豐富的概念. 2018年Kim等[97]將貝葉斯方法應(yīng)用在與模型無關(guān)的元學(xué)習(xí)算法中, 將基于梯度的元學(xué)習(xí)與非參數(shù)變量的推理結(jié)合起來, 使用貝葉斯先驗(yàn)防止元學(xué)習(xí)模型過擬合, 但也提升了模型的復(fù)雜度.
2.5?? 圖神經(jīng)網(wǎng)絡(luò)模型
現(xiàn)實(shí)生活中的大量問題都可以被抽象成圖模型[98], 圖G=(V,E)G=(V,E)作為一種數(shù)據(jù)結(jié)構(gòu), 由節(jié)點(diǎn)VV和邊EE的集合組成, 能夠表達(dá)復(fù)雜的數(shù)據(jù)關(guān)系. 傳統(tǒng)的機(jī)器學(xué)習(xí)方法很難處理圖神經(jīng)網(wǎng)絡(luò)信息, 充分挖掘圖中蘊(yùn)含的知識(shí)是一項(xiàng)非常具有挑戰(zhàn)的任務(wù). 在深度學(xué)習(xí)時(shí)代, 將圖與深度學(xué)習(xí)進(jìn)行融合成為了一項(xiàng)重要的工作. 本節(jié)所述的圖神經(jīng)網(wǎng)絡(luò)(Graph neural network, GNN)模型是將CNN用于圖神經(jīng)網(wǎng)絡(luò)上, 并對(duì)歐幾里得小樣本圖像數(shù)據(jù)進(jìn)行分類.
圖神經(jīng)網(wǎng)絡(luò)在2005年首次被Gori等[99]和Scarselli等[100]提出, 用傳統(tǒng)的方法處理圖結(jié)構(gòu)數(shù)據(jù)是將其轉(zhuǎn)換為一組平面向量, 然而以這種方式處理數(shù)據(jù), 重要的拓?fù)湫畔⒖赡軄G失, GNN擴(kuò)展了遞歸神經(jīng)網(wǎng)絡(luò), 使有向圖、無向圖、循環(huán)圖等得以被處理, 作為一種可訓(xùn)練的網(wǎng)絡(luò)其中固定節(jié)點(diǎn)可被分別調(diào)整. Bruna等[101]和Henaff等[102]提出學(xué)習(xí)圖拉普拉斯的光滑譜乘子, 是將CNN泛化到非歐氏空間的一種嘗試, 但是其計(jì)算代價(jià)非常高. Defferrard等[103]和Kipf等[104]通過學(xué)習(xí)圖拉普拉斯的多項(xiàng)式解決了計(jì)算代價(jià)的問題. Li等[105]和Sukhbaatar等[106]進(jìn)一步放寬模型的限制, 對(duì)網(wǎng)絡(luò)層內(nèi)的權(quán)重解耦, 同時(shí)提出門控機(jī)制進(jìn)行非線性更新.
在小樣本學(xué)習(xí)中, 為了將圖神經(jīng)網(wǎng)絡(luò)應(yīng)用于規(guī)則的歐幾里得圖像數(shù)據(jù), Satorras等[107]在2018年提出了一個(gè)端對(duì)端的圖卷積網(wǎng)絡(luò)結(jié)構(gòu)(Graph convolutional network, GCN), 用于捕捉任務(wù)中具有不變性的特征. 圖神經(jīng)網(wǎng)絡(luò)模型由輸入圖片的集合構(gòu)成, 圖神經(jīng)網(wǎng)絡(luò)中的節(jié)點(diǎn)與集合中的圖片信息相關(guān), 邊是一個(gè)可訓(xùn)練的、用來度量相鄰兩個(gè)節(jié)點(diǎn)相似性的參數(shù). 如圖8所示, 將5個(gè)樣本通過式(5)構(gòu)建出圖鄰接矩陣, 接著通過圖卷積得到節(jié)點(diǎn)的嵌入向量, 然后用式(5)依次更新圖, 用圖卷積更新節(jié)點(diǎn)嵌入, 這樣就構(gòu)成了一個(gè)深度的圖卷積神經(jīng)網(wǎng)絡(luò), 最后使用交叉熵?fù)p失函數(shù)計(jì)算圖卷積神經(jīng)網(wǎng)絡(luò)的輸出概率p.φθ?(?)p.φθ~(?)的具體形式為式(6), 使用MLP來計(jì)算圖鄰接矩陣A?(k)i,j.A~i,j(k).其中,?x(k)ixi(k)和x(k)jxj(k)為輸入樣本.?T?表示輸入的學(xué)習(xí)任務(wù).
圖?8??圖卷積神經(jīng)網(wǎng)絡(luò)[107]
Fig.?8??Graph convolution neural network[107]
下載:?全尺寸圖片?幻燈片
| A?(k)i,j=φθ?(x(k)i,x(k)j)A~i,j(k)=φθ~(xi(k),xj(k)) | (5) |
| φθ?(x(k)i,x(k)j)=MLPθ?(abs(x(k)i?x(k)j))φθ~(xi(k),xj(k))=MLPθ~(abs(xi(k)?xj(k))) | (6) |
文獻(xiàn)[107]利用圖節(jié)點(diǎn)的標(biāo)簽信息, 隱式地對(duì)類內(nèi)的相似性和類間的不相似性進(jìn)行建模, 與之相反, Kim等[108]在2019年提出的基于邊標(biāo)簽的圖卷積神經(jīng)網(wǎng)絡(luò)(Edge-labeling graph neural network, EGNN), 將數(shù)據(jù)集分為多個(gè)元任務(wù), 包括支持集和查詢集, 通過直接探索類內(nèi)的相似性和類間的不相似性來迭代地更新邊標(biāo)簽信息, 通過預(yù)測(cè)邊標(biāo)簽對(duì)樣本進(jìn)行顯式聚類. Liu等[109]提出了一種轉(zhuǎn)導(dǎo)式的傳播網(wǎng)絡(luò)(Transductive propagation network, TPN), 該算法利用元學(xué)習(xí)框架和流型假設(shè), 通過對(duì)特征嵌入?yún)?shù)和圖神經(jīng)網(wǎng)絡(luò)構(gòu)建的參數(shù)進(jìn)行聯(lián)合學(xué)習(xí), 將標(biāo)簽從標(biāo)注樣本傳遞到未標(biāo)注樣本, 提高了模型的泛化能力.
3.?? 實(shí)驗(yàn)對(duì)比分析
上文描述的現(xiàn)有基于小樣本學(xué)習(xí)的圖像分類算法被歸納為卷積神經(jīng)網(wǎng)絡(luò)模型和圖神經(jīng)網(wǎng)絡(luò)模型兩大類, 具體如圖9所示.
圖?9??小樣本圖像分類算法概況
Fig.?9??Overview of small sample image classification algorithms
下載:?全尺寸圖片?幻燈片
3.1?? 各種算法在公用數(shù)據(jù)集上的實(shí)驗(yàn)測(cè)試結(jié)果分析
1)三種基于元學(xué)習(xí)的小樣本圖像分類算法各有優(yōu)勢(shì), 此外訓(xùn)練模型時(shí)學(xué)習(xí)的類別越多, 類內(nèi)樣本越少, 分類效果越不好.
Omniglot數(shù)據(jù)集是字符圖像, 背景單一, 內(nèi)容簡(jiǎn)單. 從表2中可以看出, 基于元學(xué)習(xí)的小樣本算法在Omniglot數(shù)據(jù)集上的N-way?K-shot分類結(jié)果非常好. 然而, 學(xué)習(xí)類別越多, 樣本越少, 分類效果越不好, 因此20way-1shot的實(shí)驗(yàn)結(jié)果相對(duì)其他N-way?K-shot分類結(jié)果較低.
表?2??基于元學(xué)習(xí)的Omniglot實(shí)驗(yàn)結(jié)果
Table?2??Experimental results of Omniglot based on meta learning
| Omniglot | |||||
| 5way-1shot | 5way-5shot | 20way-1shot | 20way-5shot | ||
| 基于度量的元學(xué)習(xí) | MN[9] | 98.12 | 99.63 | 94.40 | 98.78 |
| 文獻(xiàn) [40] | 90.80 | 96.70 | 77.00 | 91.00 | |
| MMN[42] | 99.28 | 99.77 | 97.16 | 98.93 | |
| PN[29] | 98.80 | 99.18 | 92.11 | 97.57 | |
| RN[30] | 99.48 | 99.60 | 97.67 | 98.97 | |
| 基于模型的元學(xué)習(xí) | Meta-Nets[78] | 98.00 | 99.60 | 96.90 | 98.50 |
| 基于優(yōu)化的元學(xué)習(xí) | MAML[79] | 98.79 | 99.48 | 93.43 | 95.33 |
| 文獻(xiàn) [88] | — | — | 97.65 | 99.33 | |
| Reptile[89] | 97.50 | 99.87 | 93.75 | 97.68 | |
下載:?導(dǎo)出CSV?
|?顯示表格
小樣本圖像分類算法中, 基于度量的元學(xué)習(xí)算法在Mini-ImageNet數(shù)據(jù)集上學(xué)習(xí)到好的度量空間可提高分類效果. 如表3所示, 基于度量的元學(xué)習(xí)算法中, MMN使用了記憶力機(jī)制, 加強(qiáng)了圖像特征的表示能力, 可以學(xué)習(xí)到一個(gè)好的度量空間.
表?3??基于元學(xué)習(xí)的Mini-ImageNet實(shí)驗(yàn)結(jié)果
Table?3??Experimental results of Mini-ImageNet based on meta learning
| Mini-ImageNet | |||
| 5way-1shot | 5way-5shot | ||
| 基于度量的元學(xué)習(xí) | MN[9] | 44.38 | 57.78 |
| PN[29] | 44.43 | 66.04 | |
| RN[30] | 50.13 | 64.33 | |
| MMN[42] | 53.37 | 66.97 | |
| 基于模型的元學(xué)習(xí) | DML[32] | 58.49 | 71.28 |
| AAN[87] | 54.89 | 62.37 | |
| MTL[84] | 61.20 | 75.50 | |
| 基于優(yōu)化的元學(xué)習(xí) | MAML[79] | 43.09 | 60.63 |
| Reptile[89] | 48.21 | 66.00 | |
| 文獻(xiàn) [90] | 43.44 | 60.00 | |
| 文獻(xiàn) [88] | 52.15 | 68.32 | |
下載:?導(dǎo)出CSV?
|?顯示表格
小樣本圖像分類算法中, 基于模型的元學(xué)習(xí)算法通過學(xué)習(xí)豐富的圖像語義特征幫助在Mini-ImageNet數(shù)據(jù)集上分類. 其中, DML利用深度殘差網(wǎng)絡(luò)作為概念生成器, 可以構(gòu)建表達(dá)能力更大的網(wǎng)絡(luò)結(jié)構(gòu), 產(chǎn)生更好的語義特征.
小樣本圖像分類算法中, 基于優(yōu)化的元學(xué)習(xí)算法具有快速學(xué)習(xí)的能力. 其與基于模型的元學(xué)習(xí)算法相比分類結(jié)果較差, 通過學(xué)習(xí)網(wǎng)絡(luò)參數(shù)的初始化, 模型微調(diào)于新類時(shí)會(huì)更加適應(yīng), 該類算法能夠快速對(duì)新樣本進(jìn)行訓(xùn)練, 其分類效果依賴于優(yōu)化策略以及對(duì)新樣本的適應(yīng).
2)圖卷積網(wǎng)絡(luò)模型中, 對(duì)類內(nèi)樣本的相關(guān)性和類間樣本的不相關(guān)性建模, 在Omniglot和Mini-ImageNet數(shù)據(jù)集上能夠產(chǎn)生更好的分類效果.
如表4所示, GCN、TPN以及EGNN在Omniglot數(shù)據(jù)集上都取得了很好的分類精度, 在更為復(fù)雜的圖像數(shù)據(jù)集Mini-ImageNet上, EGNN的分類效果好于GCN和TPN.
表?4??基于圖卷積網(wǎng)絡(luò)的Mini-ImageNet、Omniglot實(shí)驗(yàn)結(jié)果
Table?4??Experimental results of Mini-ImageNet and Omniglot based on graph convolutional network
| Omniglot | Mini-ImageNet | |||||
| 5way-1shot | 5way-5shot | 20way-1shot | 20way-5shot | 5way-1shot | 5way-5shot | |
| GCN[107] | 99.26 | 99.72 | 97.66 | 99.10 | 53.03 | 64.78 |
| TPN[109] | 99.26 | 99.44 | 96.48 | 98.59 | 54.44 | 67.05 |
| EGNN[108] | 99.75 | 99.77 | 98.62 | 99.62 | 62.34 | 75.77 |
下載:?導(dǎo)出CSV?
|?顯示表格
GCN模型利用樣本間的相關(guān)性建立模型, 但忽略了樣本間存在的差異性. TPN對(duì)模型的建立是利用了樣本間的相關(guān)性和不相關(guān)性. EGNN則利用卷積網(wǎng)絡(luò)對(duì)樣本間的相關(guān)性和不相關(guān)性進(jìn)行學(xué)習(xí), 進(jìn)一步復(fù)雜化了模型, 同時(shí)增強(qiáng)了模型的非線性化, 提高了模型的表達(dá)能力.
3)當(dāng)小樣本圖像分類算法提取到豐富的高層語義特征或者在特征提取和分類器之間設(shè)計(jì)好的映射函數(shù)時(shí), 能產(chǎn)生較好的分類效果.
表5所示, 分別從各類中挑選出的性能最好的算法進(jìn)行比較, 在Mini-ImageNet數(shù)據(jù)集上各算法的5way-1shot分類精度接近于60.0 %, 5way-5shot的分類精度均高于70.0 %, 其中SFA和EGNN達(dá)到了76.0 %, 這四種算法分別是遷移學(xué)習(xí)算法PPA、元學(xué)習(xí)算法DML、對(duì)偶學(xué)習(xí)算法SFA、基于圖卷積神經(jīng)網(wǎng)絡(luò)的算法EGNN, 其中PPA算法通過激活函數(shù)來預(yù)測(cè)分類器中的分類參數(shù), 相當(dāng)于在高層語義特征和分類器之間做一個(gè)映射, 使分類器對(duì)于不同語義特征的選擇更加精確; DML算法利用深度殘差網(wǎng)絡(luò)提取到圖像的高級(jí)語義特征; SFA算法通過編碼—解碼機(jī)制, 對(duì)編碼機(jī)映射到語義空間中的實(shí)例特征擾動(dòng), 再利用解碼機(jī)產(chǎn)生豐富的圖像特征. EGNN算法對(duì)類內(nèi)樣本關(guān)系和類間樣本關(guān)系進(jìn)行建模, 能夠?qū)D像信息進(jìn)行強(qiáng)有力的表示. 可以看出, 通過對(duì)圖像的高層語義特征的利用, 提高了小樣本圖像分類的精度.
表?5??遷移學(xué)習(xí)、元學(xué)習(xí)、對(duì)偶學(xué)習(xí)和圖神經(jīng)網(wǎng)絡(luò)模型實(shí)驗(yàn)結(jié)果
Table?5??Experimental results of transfer learning, meta learning, dual learning and graph neural network model
| Mini-ImageNet | ||
| 5way-1shot | 5way-5shot | |
| 遷移學(xué)習(xí) PPA[55] | 59.60 | 73.74 |
| 元學(xué)習(xí) DML[32] | 58.49 | 71.28 |
| 對(duì)偶學(xué)習(xí) SFA[31] | 57.95 | 76.64 |
| 圖神經(jīng)網(wǎng)絡(luò)模型 EGNN[108] | 62.34 | 75.77 |
下載:?導(dǎo)出CSV?
|?顯示表格
3.2?? 小樣本學(xué)習(xí)算法在輪胎花紋數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
為進(jìn)一步分析現(xiàn)有小樣本圖像分類算法的表現(xiàn), 本節(jié)實(shí)驗(yàn)在西安郵電大學(xué)圖像與信息處理研究所依托與公安部門合作的平臺(tái)所自建的輪胎花紋圖像數(shù)據(jù)集[110]上進(jìn)行.
輪胎花紋分類的研究源于交通肇事及公安案件處理中輪胎花紋匹配的實(shí)際需求. 該數(shù)據(jù)集是目前公開用于學(xué)術(shù)研究的最大的輪胎花紋數(shù)據(jù)集, 包含輪胎表面花紋數(shù)據(jù)和輪胎壓痕花紋數(shù)據(jù)各80類, 每類30張不同亮度不同尺度和不同旋轉(zhuǎn)角度的圖片, 如圖10所示. 實(shí)驗(yàn)測(cè)試分別在表面花紋圖像數(shù)據(jù)、壓痕花紋圖像數(shù)據(jù)、及兩種圖像混合數(shù)據(jù)上進(jìn)行(因?yàn)閷?shí)際需求往往需要進(jìn)行表面花紋和壓痕花紋的比對(duì)). 實(shí)驗(yàn)中46類用于訓(xùn)練, 10類用于驗(yàn)證, 13類用于測(cè)試, 輪胎混合花紋數(shù)據(jù)集包含同樣的類別, 不同的是每類160張圖像.
圖?10??輪胎花紋數(shù)據(jù)集樣本示例
Fig.?10??Sample examples of tire patterns data sets
下載:?全尺寸圖片?幻燈片
為研究基于元學(xué)習(xí)的小樣本學(xué)習(xí)算法、通過編碼—解碼進(jìn)行語義特征增強(qiáng)的小樣本學(xué)習(xí)算法和基于圖神經(jīng)網(wǎng)絡(luò)的小樣本學(xué)習(xí)算法對(duì)輪胎花紋圖像分類的效果, 分別對(duì)以下5個(gè)算法進(jìn)行了實(shí)驗(yàn): 基于優(yōu)化的小樣本元學(xué)習(xí)算法[79], 基于模型的小樣本元學(xué)習(xí)算法[78], 基于度量的小樣本元學(xué)習(xí)算法[30], 基于編碼—解碼結(jié)構(gòu)的小樣本對(duì)偶學(xué)習(xí)算法[31], 基于圖神經(jīng)網(wǎng)絡(luò)的小樣本學(xué)習(xí)算法[107].?表6為實(shí)驗(yàn)測(cè)試結(jié)果, 通過五組實(shí)驗(yàn)對(duì)比可以看出:
表?6??在輪胎花紋數(shù)據(jù)集上的測(cè)試結(jié)果對(duì)比
Table?6??Test results comparison of various algorithms on tire patterns data set
| 算法 | 輪胎數(shù)據(jù)集 | 分類精度 | |
| 5way-1shot | 5way-5shot | ||
| 文獻(xiàn) [79] | 表面 | 67.09 | 85.55 |
| 壓痕 | 77.66 | 87.32 | |
| 混合 | 46.03 | 64.00 | |
| 文獻(xiàn) [78] | 表面 | 53.46 | 78.42 |
| 壓痕 | 66.13 | 80.45 | |
| 混合 | 42.80 | 63.53 | |
| 文獻(xiàn) [107] | 表面 | 77.46 | 89.52 |
| 壓痕 | 77.76 | 92.00 | |
| 混合 | 58.04 | 79.98 | |
| 文獻(xiàn) [31] | 表面 | 72.71 | 91.03 |
| 壓痕 | 76.42 | 91.76 | |
| 混合 | 51.84 | 81.02 | |
| 文獻(xiàn) [30] | 表面 | 63.97 | 81.60 |
| 壓痕 | 73.71 | 84.54 | |
| 混合 | 48.21 | 65.20 | |
下載:?導(dǎo)出CSV?
|?顯示表格
1)通過編碼—解碼結(jié)構(gòu)進(jìn)行的語義特征增強(qiáng)能夠提高分類精度.
2) 5組實(shí)驗(yàn)的分類精度在混合數(shù)據(jù)集上均相對(duì)較低, 這是因?yàn)橥活愝喬セ旌匣y圖像中包含了表面花紋和壓痕花紋兩種既相關(guān)又有差異的數(shù)據(jù), 造成類間相似度降低, 從而分類任務(wù)難度增加.
相比其他算法, 基于圖神經(jīng)網(wǎng)絡(luò)的小樣本學(xué)習(xí)算法在輪胎花紋表面數(shù)據(jù)集和壓痕數(shù)據(jù)集上的分類精度差異最小, 而且在混合花紋數(shù)據(jù)集上的分類精度最高. 這說明基于圖神經(jīng)網(wǎng)絡(luò)的小樣本學(xué)習(xí)算法適用于輪胎花紋數(shù)據(jù)集的分類研究. 下一步工作中, 我們將對(duì)比更多算法, 并進(jìn)行更進(jìn)一步的研究.
3.3?? 不同模型的小樣本圖像分類算法的討論
針對(duì)第3.1節(jié)和第3.2節(jié)的實(shí)驗(yàn)分析結(jié)果, 本節(jié)進(jìn)一步分析了各類算法之間的特點(diǎn), 并分別對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型和圖神經(jīng)網(wǎng)絡(luò)模型進(jìn)行討論.
1)對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型的討論.
如表7所示, 卷積神經(jīng)網(wǎng)絡(luò)模型中的遷移學(xué)習(xí)、元學(xué)習(xí)、對(duì)偶學(xué)習(xí)都可以使用數(shù)據(jù)增強(qiáng)的方式來解決小樣本圖像分類問題, 當(dāng)增強(qiáng)的樣本具有較大的數(shù)量和豐富的語義內(nèi)容時(shí), 小樣本數(shù)據(jù)集的分類結(jié)果會(huì)有所提升.
表?7??小樣本圖像分類算法的對(duì)比
Table?7??Comparison of small sample image classification algorithms
| 算法 | 數(shù)據(jù)增強(qiáng) | 訓(xùn)練策略 | 分類度量方式 | 數(shù)據(jù)集 | |
| 基于特征的遷移學(xué)習(xí) | 文獻(xiàn) [61] | 函數(shù)變換增加訓(xùn)練樣本 | CNN 表示學(xué)習(xí)階段 + 小樣本學(xué)習(xí)階段 | 全連接層 + Softmax | ImageNet |
| SSMN[62] | CNN + LSTM 局部特征度量 + 全局特征度量 | 嵌入向量 + 點(diǎn)乘 | DiPART、PPM、Cross-DiPART-PPM | ||
| 基于關(guān)系的遷移學(xué)習(xí) | 文獻(xiàn) [39] | 采用偽樣本數(shù)據(jù) | CNN 知識(shí)蒸餾 | 全連接層 + Softmax | MNIST |
| 文獻(xiàn) [75] | CNN 1×1卷積核知識(shí)蒸餾 | 全連接層 + Softmax | CIFAR-10、CIFAR-100 | ||
| 基于共享參 數(shù)的遷移 學(xué)習(xí) | 文獻(xiàn) [76] | 裁剪 | CNN 預(yù)訓(xùn)練模型 + 微調(diào) | 全連接層 + Softmax | PASCAL VOC 2007、PASCALVOC 2012 |
| 文獻(xiàn) [77] | CNN 分類權(quán)重嵌入 | 全連接層 + Softmax | CUB-200 | ||
| PPA[55] | CNN 在激活函數(shù)和 Softmax 之間建模, 預(yù)測(cè)類別的分類參數(shù) | 全連接層 + Softmax | Mini-ImageNet | ||
| 基于度量的元學(xué)習(xí) | 文獻(xiàn) [43] | CNN 孿生網(wǎng)絡(luò) + 距離度量 | 嵌入向量 + 歐氏距離 | Omniglot | |
| MN[9] | 仿射變換 | CNN + LSTM 注意力模塊 + 樣本間匹配 | 嵌入向量 + 余弦距離 | Omniglot、Mini-ImageNet | |
| MMN[42] | CNN + bi-LSTM 記憶讀寫控制模塊 + 樣本間匹配 | 嵌入向量 + 點(diǎn)乘 | Omniglot、Mini-ImageNet | ||
| PN[29] | CNN 聚類 + 樣本間原型度量 | 嵌入向量 + 歐氏距離 | Omniglot、Mini-ImageNet | ||
| RN[30] | 旋轉(zhuǎn) | CNN 不同樣本在特征空間比較 | 全連接層 + Softmax | Omniglot、Mini-ImageNet | |
| 文獻(xiàn) [81] | CNN 利用嵌入特征回歸分類參數(shù) + 不同樣本映射到同一嵌入空間進(jìn)行相似性度量 | 全連接層 + Softmax | Omniglot、Mini-ImageNet | ||
| 基于優(yōu)化的元學(xué)習(xí) | MAML[79] | 旋轉(zhuǎn) | 利用基于梯度的學(xué)習(xí)來更新每個(gè)元任務(wù)的參數(shù) | Omniglot、Mini-ImageNet | |
| Reptile[89] | 將梯度下降計(jì)算的參數(shù)與初始化參數(shù)的差用于參數(shù)梯度更新 | Omniglot、Mini-ImageNet | |||
| 文獻(xiàn) [90] | 利用 LSTM 模型學(xué)習(xí)優(yōu)化算法 | Mini-ImageNet | |||
| 基于模型的元學(xué)習(xí) | Meta-Nets[78] | 旋轉(zhuǎn) | CNN + LSTM記憶模塊 + Meta learner + Base learner | 全連接層 + Softmax | Omniglot、Mini-ImageNet |
| DML[32] | CNN 概念生成器 + 概念判決器 + Meta learner | 全連接層 + Softmax | CUB-200、CIFAR-100、Mini-ImageNet | ||
| 文獻(xiàn) [34] | CNN + LSTM對(duì)樣本和標(biāo)簽進(jìn)行綁定編碼使用外部記憶存儲(chǔ)模塊 | 全連接層 + Softmax | Omniglot | ||
| 基于模型的元學(xué)習(xí) | 文獻(xiàn) [85] | 函數(shù)變換增加訓(xùn)練樣本 | CNN 利用數(shù)據(jù)增強(qiáng)提升元學(xué)習(xí) | 全連接層 + Softmax | ImageNet |
| 文獻(xiàn) [86] | CNN 減小大數(shù)據(jù)集和小數(shù)據(jù)集分類器間的差異 | SVM | CUB-200 | ||
| AAN[87] | CNN 注意力模塊 + 增量學(xué)習(xí) + 元學(xué)習(xí)針對(duì)樣本生成相應(yīng)的分類參數(shù) | 全連接層 + Softmax | Mini-ImageNe、Tiered-ImageNet | ||
| 自動(dòng)編碼機(jī) | SFA[31] | 使用編碼 ? 解碼機(jī)制進(jìn)行特征增加 | CNN 通過擾動(dòng)語義空間特征實(shí)現(xiàn)樣本特征增加 | 全連接層 + Softmax | CUB-200、CIFAR-100、Mini-ImageNet |
| 圖卷積神經(jīng)網(wǎng)絡(luò) | GCN[107] | GCN 利用圖節(jié)點(diǎn)標(biāo)簽信息, 隱式地對(duì)類內(nèi)和類間樣本關(guān)系進(jìn)行建模 | 全連接層 + Softmax | Omniglot、Mini-ImageNet | |
| EGNN[108] | GCN 通過預(yù)測(cè)邊標(biāo)簽, 顯式地對(duì)類內(nèi)和類間樣本進(jìn)行建模 | 全連接層 + Softmax | Mini-ImageNet、Tiered-ImageNet | ||
| TPN[109] | GCN 流型假設(shè) + 標(biāo)簽傳播 | 全連接層 + Softmax | Mini-ImageNet、Tiered-ImageNet |
下載:?導(dǎo)出CSV?
|?顯示表格
對(duì)偶學(xué)習(xí)目前在小樣本圖像分類中的主要應(yīng)用是數(shù)據(jù)增強(qiáng), 不同于之前的圖像變換方法, 對(duì)偶學(xué)習(xí)中可以利用自編碼機(jī)在圖像的視覺特征空間和語義特征空間之間相互變換, 它可以和現(xiàn)有的圖像特征提取模型進(jìn)行結(jié)合, 利用自編碼機(jī)尋找好的數(shù)據(jù)增強(qiáng)方式.
相對(duì)于遷移學(xué)習(xí)、元學(xué)習(xí)和對(duì)偶學(xué)習(xí), 貝葉斯學(xué)習(xí)目前在小樣本學(xué)習(xí)中的應(yīng)用較少, 可以更好地應(yīng)用于訓(xùn)練數(shù)據(jù)量較少的情況, 但需要指定參數(shù)的先驗(yàn)分布, 而且對(duì)于樣本的獨(dú)立性要求較高, 但是現(xiàn)實(shí)生活中的樣本和類別都具有一定的相關(guān)性, 因此建模方式存在偏差, 可將其與其他小樣本圖像分類方法相結(jié)合.
目前小樣本圖像分類中應(yīng)用最多的是遷移學(xué)習(xí)和元學(xué)習(xí), 兩種方法都可以借助預(yù)訓(xùn)練模型來進(jìn)一步學(xué)習(xí), 或者借助遷移學(xué)習(xí)思想和元學(xué)習(xí)策略對(duì)小樣本數(shù)據(jù)進(jìn)行訓(xùn)練, 遷移學(xué)習(xí)更多側(cè)重于得到表示性更強(qiáng)的遷移特征, 元學(xué)習(xí)在度量方式、模型設(shè)計(jì)以及初始化策略上都有考量. 同時(shí), 對(duì)傳統(tǒng)機(jī)器學(xué)習(xí)分類器的使用也使得模型的解耦性增強(qiáng), 更好地進(jìn)行網(wǎng)絡(luò)架構(gòu)的設(shè)計(jì), 其中基于歐氏距離、余弦距離和點(diǎn)乘方式度量在基于度量的元學(xué)習(xí)中使用較多.
2)對(duì)圖神經(jīng)網(wǎng)絡(luò)模型的討論.
本文所述的圖神經(jīng)網(wǎng)絡(luò)模型利用CNN對(duì)歐幾里得圖像數(shù)據(jù)進(jìn)行特征提取, 由于圖神經(jīng)網(wǎng)絡(luò)模型的節(jié)點(diǎn)和邊可以表示更多的圖像信息, 因此圖神經(jīng)網(wǎng)絡(luò)對(duì)于樣本間的復(fù)雜關(guān)系有更強(qiáng)的表示能力, 也有助于探索更多潛在于小樣本數(shù)據(jù)集中的信息. EGNN相比較于GCN和TPN其模型的復(fù)雜度更高, 體現(xiàn)在對(duì)圖中相鄰節(jié)點(diǎn)關(guān)系的表示上, EGNN不僅利用了類內(nèi)樣本間的相關(guān)性, 而且也對(duì)類間樣本的不相關(guān)性進(jìn)行建模, 再通過迭代不斷地學(xué)習(xí)類內(nèi)相關(guān)性和類間不相關(guān)性. 從表4中可以發(fā)現(xiàn), 其在Mini-ImageNet數(shù)據(jù)集上的5way-5shot分類精度達(dá)到了75.77 %. 圖神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)的建模方式與卷積神經(jīng)網(wǎng)絡(luò)模型不同, 它能夠?qū)D像間的聯(lián)系以圖連接的形式呈現(xiàn)出來, 圖中的邊可以顯式表達(dá)這種聯(lián)系, 圖模型構(gòu)建以及圖的更新方式目前還有待更多研究.
4.?? 技術(shù)挑戰(zhàn)與未來研究趨勢(shì)
目前, 小樣本圖像分類算法在模式較為簡(jiǎn)單的字符型數(shù)據(jù)集Omniglot上已取得很好的分類結(jié)果, 但是對(duì)于相對(duì)復(fù)雜的數(shù)據(jù)集, 雖然分類結(jié)果不斷提升, 但是仍然不理想. 利用數(shù)據(jù)增強(qiáng)、正則化、對(duì)特征提取過程建模等方式, 可以有效地緩解小樣本帶來的過擬合問題, 也能夠增強(qiáng)圖像特征的表示能力, 但仍然需要在克服過擬合問題和增強(qiáng)圖像的表示能力之間進(jìn)行權(quán)衡. 除此之外, 小樣本圖像分類仍然面臨一些挑戰(zhàn), 本節(jié)將對(duì)此進(jìn)行介紹, 同時(shí)從技術(shù)角度對(duì)小樣本圖像分類未來的研究趨勢(shì)進(jìn)行展望.
4.1?? 小樣本圖像分類面臨的挑戰(zhàn)
1)權(quán)衡過擬合問題和圖像特征表示能力
小樣本圖像分類模型往往需要克服過擬合問題, 同時(shí)又要從少量的樣本中學(xué)習(xí)到能夠表示圖像的有效特征. 遷移學(xué)習(xí)中對(duì)小樣本數(shù)據(jù)集進(jìn)行特征提取[61], 元學(xué)習(xí)中從元任務(wù)中獲取元信息[29]等都需要對(duì)圖像特征進(jìn)行提取, 為了緩解過擬合問題, 通常使用的網(wǎng)絡(luò)結(jié)構(gòu)較為簡(jiǎn)單, 不足以對(duì)圖像中蘊(yùn)含的信息進(jìn)行有效表達(dá), 而Resnet網(wǎng)絡(luò)[87]和其他殘差網(wǎng)絡(luò)[32]能夠加深網(wǎng)絡(luò)的層數(shù), 記憶模塊能夠?qū)v史信息進(jìn)行存取和使用[34,?62,?78,?90], 從而增強(qiáng)了圖像特征的表示能力. 因此, 如何權(quán)衡過擬合問題和圖像特征表示能力是小樣本圖像分類需要面臨的挑戰(zhàn).
2)不同應(yīng)用領(lǐng)域的小樣本圖像分類
從上述的實(shí)驗(yàn)分析中可以看出, 多數(shù)小樣本圖像分類算法, 在模式簡(jiǎn)單、背景單一的字符型數(shù)據(jù)集Omniglot上具有非常好的分類效果[30,?79,?89], 在模式較為復(fù)雜的其他類型的數(shù)據(jù)集, 同一個(gè)小樣本圖像分類算法在不同的小樣本數(shù)據(jù)集上的分類結(jié)果具有一定的差異[31-32]. 針對(duì)不同應(yīng)用領(lǐng)域圖像數(shù)據(jù)內(nèi)容的不同特點(diǎn), 如何設(shè)計(jì)合適的小樣本圖像分類算法, 或者具有一定普適性適應(yīng)不同數(shù)據(jù)集的算法, 這也是小樣本圖像分類目前的難點(diǎn).
4.2?? 小樣本圖像分類未來的研究方向
1)應(yīng)用注意力機(jī)制
小樣本學(xué)習(xí)的訓(xùn)練樣本量較少, 提取到的信息相對(duì)有限, 可以利用注意力機(jī)制在有限的訓(xùn)練樣本下, 提取到對(duì)圖像具有表示性更強(qiáng)的特征, 并且使得該特征能夠顯著影響分類效果. 小樣本學(xué)習(xí)從本質(zhì)上講是想讓機(jī)器學(xué)會(huì)人類的學(xué)習(xí)方式以及泛化能力, 人類能夠在圖像識(shí)別任務(wù)中很好地利用注意力機(jī)制, 此外, 注意力機(jī)制能夠提高神經(jīng)網(wǎng)絡(luò)的可解釋性[111], 軟注意力機(jī)制和硬注意力機(jī)制[112]、自注意力機(jī)制[113]、互注意力機(jī)制[114]等注意力模型, 其直觀性、通用性以及可解釋性能夠?qū)π颖緢D像分類任務(wù)提供重要幫助.
2)將CNN中圖像特征的標(biāo)量表示替換為向量表示
CNN利用卷積核能夠檢測(cè)出相應(yīng)的圖像特征, 但如果樣本不夠豐富, 一些重要信息就會(huì)檢測(cè)不到, 比如位置等信息, 因此, CNN需要更多的樣本來增強(qiáng)它的性能, 提高圖像特征的表示性. 膠囊網(wǎng)絡(luò)通過向量來對(duì)圖像特征進(jìn)行表示, 向量中可以包含任意個(gè)值, 每個(gè)值代表當(dāng)前需要識(shí)別的物體的一個(gè)特征, 而傳統(tǒng)的卷積操作是通過線性加權(quán)求和的結(jié)果, 得到的是標(biāo)量. 膠囊網(wǎng)絡(luò)利用動(dòng)態(tài)路由算法進(jìn)行信息傳遞, 它需要較少的訓(xùn)練數(shù)據(jù), 而且能夠保留圖像特征的位置和姿態(tài)信息, 對(duì)旋轉(zhuǎn)、平移以及其他仿射變換也有很強(qiáng)的魯棒性[115].
5.?? 結(jié)束語
本文針對(duì)當(dāng)前基于小樣本學(xué)習(xí)的圖像分類算法進(jìn)行了歸類總結(jié), 依據(jù)對(duì)不同數(shù)據(jù)類型的建模方式, 將小樣本圖像分類算法分為卷積神經(jīng)網(wǎng)絡(luò)模型和圖神經(jīng)網(wǎng)絡(luò)模型兩大類, 其中, 卷積神經(jīng)網(wǎng)絡(luò)模型又分為遷移學(xué)習(xí)、元學(xué)習(xí)、貝葉斯學(xué)習(xí)和對(duì)偶學(xué)習(xí)四種學(xué)習(xí)范式, 并針對(duì)數(shù)據(jù)集處理、特征提取和分類器設(shè)計(jì)三個(gè)環(huán)節(jié), 對(duì)兩類算法進(jìn)行了詳細(xì)介紹. 遷移學(xué)習(xí)更多側(cè)重于得到表示性更強(qiáng)的遷移特征; 元學(xué)習(xí)在度量方式、模型設(shè)計(jì)以及初始化策略上都有考量; 貝葉斯方法目前難以單獨(dú)應(yīng)用于小樣本圖像分類; 對(duì)偶學(xué)習(xí)應(yīng)用于小樣本圖像分類的是編碼—解碼結(jié)構(gòu), 可進(jìn)行數(shù)據(jù)增強(qiáng); 圖神經(jīng)網(wǎng)絡(luò)可側(cè)重于對(duì)圖像間關(guān)系進(jìn)行建模. 最后針對(duì)目前小樣本圖像分類算法的不足, 分析了小樣本圖像分類面臨的挑戰(zhàn), 同時(shí)從技術(shù)角度探索了小樣本圖像分類的未來研究趨勢(shì).
【轉(zhuǎn)載聲明】轉(zhuǎn)載目的在于傳遞更多信息。如涉及作品版權(quán)和其它問題,請(qǐng)?jiān)?0日內(nèi)與本號(hào)聯(lián)系,我們將在第一時(shí)間刪除!
總結(jié)
以上是生活随笔為你收集整理的基于小样本学习的图像分类技术综述的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Linux下的Tomcat服务器修改se
- 下一篇: 小白学JAVA,与你们感同身受,JAVA