基于决策树的高层次语义图像检索
隨著現代通信技Internet的廣泛普及,數字圖像的數量出現了急劇增長。如何從這些海量的圖像數據中快速有效地找出需要的信息, 是一個非常有理論價值和實際意義的課題。從圖像檢索發展的歷程來看,其主要經歷了兩個階段:基于文本的圖像檢索和基于內容的圖像檢索。而隨著多媒體技術的迅速發展,傳統的基于文本的信息檢索技術已經不能滿足需求。相對于基于文本的圖像檢索技術來說,基于內容的圖像檢索實現了自動化、智能化的圖像檢索和管理,主要利用了圖像中的一些可視化信息,如顏色、形狀、紋理等信息作為檢索的途徑,從而提高了檢索的效率和準確性,因此得到越來越多人的關注。
然而,人們判斷圖像的相似性并非僅僅建立在圖像視覺特征的相似性上。在人的感知系統中,用戶主要根據圖像的含義而不是顏色、紋理、形狀等特征,來直觀地進行分類并判別圖像滿足自己的需要程度。這些圖像的含義就是圖像的高層語義特征,它包含了人對圖像內容的理解,但是這種理解是無法直接從圖像的視覺特征獲得的,也就是數字圖像特征(顏色、形狀、紋理等特征)和人類語言描述(也稱高層特征)之間的“語義鴻溝”(semanticgap)。近年來,專家和學者們為了克服“語義鴻溝”已經提出了許多方法,其中一種是使用機器學習的方法來關聯查詢概念和低水平的圖像特征。本文提出一個基于決策樹的語義圖像檢索方法,該方法使用決策樹算法從圖像的低級特征中提取出語義特征,引入“語義模板“概念以關聯低級特征和語義特征。基于此方法設計的圖像檢索系統支持關鍵字和圖像兩種檢索方式。
關鍵字:圖像檢索,語義鴻溝,決策樹
?
?
?
?
?
?
?
?
?
第一章? 引言
1.1 圖像檢索的研究意義
近年來,隨著網絡和計算機技術的飛速發展,社會進入了以 “大數據”為標志的網絡數據時代,近年來,《Nature》和《Science》等國際頂級刊物相繼出版專刊來探討對“大數據”的研究。對網絡數據的研究對維護社會穩定、推動社會發展、提升行業競爭能力、促生新興戰略性產業及對科學研究的方法論有著重要的作用。
而網絡數據的重要組成部分——圖像,作為包含豐富信息內容的多媒體信息,隨著 Internet的日益普及和網絡技術的不斷發展,越來越成為網絡數據的主流。人類感知外界的信息是多種多樣的,包括視覺、聽覺、嗅覺、觸覺、味覺、力覺和沉浸感等,據統計,其中視覺獲取的信息約占70%[1]。通常情況下,圖像比其它任何媒體所傳遞的信息更加豐富、生動、形象和直觀,正所謂“百聞不如一見”,因此圖像在人們的生活工作學習中扮演著重要角色。近年來,隨著圖像獲取技術的發展,電子產品 (如數碼相機、拍照手機、帶有攝像頭的微型電腦等)的迅速普及,衛星多光譜掃描成像系統、X射線計算機斷層攝影系統(computerized tomography, CT)、超聲成像(ultrasonography)、工業機器人視覺系統等專業領域成像設備的推廣,特別是隨著多媒體技術和網絡技術的快速發展,使得數字圖像等多媒體數據的規模急劇膨脹,海量的圖像數據在帶給人們各種便利的同時,也帶來了極大的問題,如何對這些圖像進行有效地組織、表達和檢索,以使用戶能從浩如煙海的圖像數據中及時、高效地尋找所需要的圖像已成為近年來一個具有突出意義的課題[2]。如何建立高效的圖像檢索模型和方法,根據圖像的底層視覺屬性特征建立起與高層語義信息的有效關聯,給出性能良好的圖像檢索模型與方法,檢索出用戶所需的、滿意的圖像也已愈發的重要。而圖像檢索技術就是解決這一問題的有力工具。
1.2 圖像檢索發展歷程
從20世紀70年代起開始對圖像檢索領域研究到現在,圖像檢索技術經歷了三個發展階段:基于文本、基于內容、基于語義的圖像檢索[3]。
1)基于文本的圖像檢索階段
傳統的圖像檢索方法從本質上來說是一種基于文本的圖像檢索技術,它的歷史可以追溯到20世紀70年代末期。早期基于文本的圖像檢索技術對數據庫中的圖像的描述和表達直接使用關鍵字或自由形式的文本,在匹配階段則借用傳統的文本匹配檢索[4]。這類方法簡單,充分使用和借鑒了數據庫的技術,在對圖像理解的基礎上,采用關鍵字對每幅圖像語義進行人工標注,然后利用傳統數據庫技術或文本信息檢索技術對圖像標注進行存儲、索引和檢索,用戶在查詢圖像的時候只需要輸入關鍵字即可。而在這樣的方式下,文本標注的質量以及準確度直接影響著后續圖像的檢索的高效性。除此之外,因為圖像的涉及范圍比較廣泛,現有的技術根本達不到對圖像自動生成文本描述,因此大多數的TBIR系統依然采用的是人工標注,這樣的技術主要存在著以下的問題[5]:
a) 工作量大。隨著自媒體時代的發展,每個人都是一個圖片的形成終端,因此網絡上圖片的數量較之以前增長迅速,用以前人工標注的方式對每隔圖片進行標注相應的文本幾乎成了一項不可能完成的工作,這樣的繁瑣以及耗時,無疑成為了現在的最主要的問題,但是沒有進行文本標注的圖片是不能被檢索出來,這就使得現有的技術形成了一個相當大的矛盾。
b) 不同的人對一幅圖像有著完全不同的理解,即使是同一個人,換一個工作環境或者心態,也會造成對一幅圖像理解的差異,這就使得在文本標注上的個人主觀性,與工作人員所經歷的事情以及當時環境有著很大的影響,不利于后續的圖像檢索的進行。
c) 圖像所包含的信息是全方位的,所包含的信息也是巨大的,然而文本標注畢竟有限,不能起到一個很好的標注作用,不能起到檢索的關鍵作用。
d) 因為圖片的復雜性以及來源廣泛性,也就伴隨著語言上的差異,世界各地的人用不同的語言上傳的圖像可能不能被其他語種的人很好的檢索,這就給索引的建立以及后續文本的標注和匹配造成了很大的障礙。
2)基于內容的圖像檢索階段
到20世紀90年代初期,隨著圖像信息的不斷增加,基于文本的圖像檢索技術存在的問題變得越來越突出。由于網絡圖像數據量的巨大和結構的異常復雜,這種基于文本的圖像檢索方法已經遠遠不能滿足用戶的需求了。為了克服基于文本方式的圖像檢索所面臨的問題,二十世紀九十年代初期,CBIR(Content Based Image Retrieval)[6]作為一門新技術興起,這種技術的實質就是,用顏色、紋理、形狀、目標的位置、方向、區域等底層圖像內容特征對圖像進行表達和描述,然后用計算機自動提取,建立數據庫中圖像和查詢樣本圖像的特征空間,在特征空間內進行圖像間的相似匹配,進而檢索出與待檢樣本相似的圖像。CBIR的主要特點是利用圖像本身包含的客觀視覺特征 ,圖像相似性體現在視覺相似性上 ,不需要人來解釋 ,也就不需要或者僅需要少量的人工干預 ,尤其是在需要自動化的場合取得了大量應用。系統的關鍵是特征提取、相似匹配和檢索策略。這種方法融合了圖像分割、圖像理解、模式分類、機器學習等技術,克服了傳統基于文本的檢索方法的不足,系統也可將圖像文本信息加入作為檢索的補充,對該技術的研究己經成為當前的研究熱點。
3)基于語義的圖像檢索
然而,人們判斷圖像的相似性并非僅僅建立在圖像視覺特征的相似性上。用戶在進行圖像檢索時總是存在一個大致概念,這個概念建立在圖像所描述的對象、事件以及表達的情感等含義上。理想的狀況下,用戶主要根據圖像的含義,而不是顏色、紋理、形狀等特征,直觀地進行分類并判別圖像滿足自己的需要程度。這些圖像的含義就是圖像的高層語義特征,它包含了人對圖像內容的理解,這種理解是無法直接從圖像的視覺特征獲得的,而要根據人的知識來判斷。人與計算機的本質不同就在于人觀察圖像時結合了日常生活中積累的大量的經驗,觀察圖像的過程同時也是一個利用知識推理圖像語義的過程。
圖像必須附加上包括語義在內的各種內容信息,才能真正支持語義檢索。重要的是要提供建立這些內容信息的過程。利用計算機視覺和機器學習的方法來讓系統對于某些特定情況做出特定反應,是長期以來很多研究者努力的方向,對象識別和場景識別即是其中的一部分。使計算機檢索圖像的能力接近人的理解水平,這就是語義圖像檢索的目的[7]。
語義圖像檢索是更合理的圖像檢索方式。雖然目前CBIR作為一項倍受關注的技術在研究和商業方面都取得了一定成果,但由于它只利用了圖像本身固有的物理信息,因此,它只在特定的應用領域,如指紋識別、商標檢索等方面獲得成功。而要使圖像檢索技術真正滿足用戶個性化的需要,必須把圖像檢索看作一個系統,考慮包括人在內的各種因素對于系統的影響。其中主要的工作和面臨的困難來自3個方面:①必須提供圖像語義的有效描述方式;②必須有提取圖像語義描述的方法;③語義檢索系統的語義處理方法。
?
?
?
?
?
?
?
?
?
?
第二章?圖像檢索的研究現狀
2.1 圖像檢索國內外研究現狀
自20世紀90年代初以來,國外各大研究機構和公司(如:IBM、MIT、Columbia、Stanford、UCSB、UIUC、Microsoft等)紛紛投入大量的資金和人力進行基于內容的圖像檢索技術的研究和開發,取得了一些初步的研究成果,并產生了一些原型系統。例如:IBM公司研制的“基于內容檢索系統QBIC”,美國Virage 公司開發的 VIR 圖像工程系統,麻省理工學院多媒體實驗室開發的Photobook系統,哥倫比亞大學開發的基于視覺特征的搜索引擎VisualSEEK和面向WWW的文本或圖像搜索引擎WebSEEK系統,UCSB開發的Netra系統等等[8,9]。這些系統大多是基于與人的主觀判斷無關的圖像低層特征進行圖像內容描述及相似性匹配的檢索系統,有一定的通用性。然而,這些系統卻又因為評價圖像相似性時主要根據特征的統計特性而忽略了一些諸如空間關系等重要信息,檢索精度差;同時又因缺少高層語義知識的支持,檢索結果與人類視覺感知效果相差甚遠[10]。若要真正實用,在理論上和技術上均有許多問題亟待解決。
從90年代后期我國專家和學者開始致力于CBIR技術的研究,與國外研究成果相比,國內理論和應用的研究相對滯后。但近些年也掀起了研究的高潮,有迎頭趕上的趨勢,并且取得了一定的研究成果。例如中國科學計算機研究所和北京圖書館聯合開發的MIRES系統,清華大學開發的Web上基于內容檢索的原型系統等。此外,上海交通大學、華中科技大學、吉林大學、南京理工大學等一些高校也都在開展這方面的研究工作并取得了一定的成績。
2.2 國內外研究熱點
10多年來,隨著研究的深入,各種系統和方法層出不窮。人們采用了各種特征提取方法和圖像比較策略來描述圖像的內容、比較圖像間的相似性。目前,基于內容的圖像檢索技術的研究熱點可分為四個方面[11]:
1)基于全局特征的圖像檢索
最初的圖像檢索技術實現的基礎是對全局低層視覺特征的計算和比較,研究主要集中于如何利用圖像的低層視覺特征來有效地描述圖像的內容和如何度量圖像之間的相似性,這種檢索技術主要是基于“視覺相似”。然而圖像低層視覺特征的相似性并不完全等同于人們主觀判斷圖像的相似性,用戶在圖像檢索時通常會提出概念性的檢索要求,這樣的概念信息是建立在對圖像內容的語義理解的基礎上,也就是說人們同時也要求圖像“語義相似”。“視覺相似”不等同于“語義相似”的原因在于圖像的低層特征與高層語義之間存在著“鴻溝”,這是造成圖像檢索準確率低的一個非常重要原因。因此如何提取一些更有效的能更好地反映圖像高層語義的圖像特征顯得尤其迫切。目前一些研究機構和團體從事這方面的研究并取得了一些研究成果[12-14]。
2) 基于區域的圖像檢索
用戶查詢圖像時通常更注重圖像中具有一定語義信息的特定目標或區域,而不是背景。利用全局直方圖、顏色矩等全局特征表示和檢索圖像時,雖然計算簡單,對平移和旋轉不敏感,但全局特征無法描述圖像內容在空間上的差異,如目標和背景的空間差異,難以有效地表達用戶的檢索意圖,因此人們開始關注基于區域的圖像檢索。這種檢索方法的思想是把圖像分割為若干區域,然后提取區域的局部特征來描述和檢索圖像[15-17],基于區域的檢索方法在一定程度上實現了物體層次的圖像檢索,其處理圖像檢索的方法和人類理解圖像的方式是吻合的,可以取得比全局特征檢索更好的效果,成為目前圖像檢索系統的主流方法。但這種方法面臨的最大問題是圖像分割問題,由于穩健的自動的圖像分割算法目前很難實現,基于區域的檢索方法往往需要在用戶的輔助下才能完成分割和檢索。為了解決這個問題,研究者們開始研究弱分割,并將現有的圖像分割技術分為兩大類:強分割方法和弱分割方法[18]。前者是指將圖像數據分為若干個區域的算法,是傳統意義上的圖像分割。后者是研究者們根據圖像中不同區域對圖像語義理解所做的貢獻不同,提出一種基于顯著區域的圖像弱分割方法。顯著區域是指圖像中最能引起用戶興趣、最能反映圖像語義內容的關鍵區域[19]。基于顯著區域的圖像檢索方法是從人們認知圖像的角度出發,把人們觀察圖像時注視的區域作為顯著區域,利用該顯著區域的局部顯著特征進行的圖像檢索。由于區分了區域的重要程度,也在一定程度上克服語義鴻溝,因而有效地提高了圖像檢索效率。基于圖像顯著性特征的圖像檢索首先要解決的問題是如何檢測圖像的顯著性區域,研究者們模擬生物體視覺注意機制,建立選擇性注意模型,用來度量人們對圖像的興趣,實現基于顯著區域的圖像檢索,取得了一定的成果[20]。圖像的顯著性分析是目前圖像處理和計算機視覺領域內的熱點問題,在圖像識別、分類、檢索等領域得到了廣泛應用。
3) 基于圖像語義的研究
盡管基于區域的圖像檢索方法和人們理解圖像的方式是吻合的,可以區分區域的重要程度,但圖像的相似性依舊是基于低層視覺特征的相似性來度量的。低層視覺特征無法直接反映出圖像的主題、主體及其屬性等高層語義信息,人們對圖像相似性的判斷并不是僅僅依賴于圖像視覺特征的相似性上,更多的還包含了人們對圖像內容的感知和理解。比如人們理解為“日落”的一幅圖像,視覺特征描述為“紅色或橙色的圓形”,依據視覺特征相似的圖像其語義可能差別很大,這將導致CBIR系統在進行某些查詢時會得到災難性的結果[21]。因此,必須給圖像附加上包含語義在內的更高層的內容信息,才能使圖像檢索系統更符合人類的思維習慣。基于圖像的語義分類和檢索已經成為目前重要的研究熱點,其中如何從圖像的低層特征中自動提取語義特征,成為基于內容的圖像檢索領域的一個難題。目前代表性的研究成果有:文獻[22-24]等通過引入機器學習算法,結合圖像低層特征將圖像歸并到某種語義類,從而在一定程度上獲取了圖像的語義標注信息;文獻[33-38]等利用低層特征與語義信息相結合,并通過相關反饋學習圖像語義。
4) 相關反饋檢索技術的研究
相關反饋(Relevance Feedback,RF)是一種查詢修正技術,起源于文本檢索,隨后被引入到基于內容的圖像檢索領域[25]。RF技術把人的參與引入到檢索過程中,并且根據用戶的反饋信息動態調整系統檢索時采用的特征向量、參與檢索的不同特征的權重系數或者檢索方案,從而將檢索模式從一次進行變成交互式的多次進行,逐步縮小低層特征和高層語義之間的差距,使檢索結果朝用戶需求靠近,進而提高圖像檢索效率與精度。相關反饋技術也是基于內容圖像檢索的一個研究熱點,近年來,人們對相關反饋技術的研究取得了很大進展,并陸續提出了基于距離度量的方法、基于概率框架的方法和機器學習方法等[26-29]。
總的來說,圖像檢索己走過了從簡單到復雜、從低級到高級、從最初的文本信息查詢到基于內容的圖像檢索的發展歷程,但目前仍有許多關鍵技術尚沒有解決或解決措施尚不夠完善,尤其在圖像特征描述、語義鴻溝、系統性能優化和實用化等方面存在問題仍需要深入研究。
2.3 圖像檢索的難點
傳統的基于文本的圖像檢索技術是通過關鍵字或自由文本進行描述,查詢操作是基于該圖像的文本描述進行精確匹配或概率匹配。基于文本的圖像檢索方式簡單、易于理解,但檢索時要指明文本特征。由于人工注釋圖像的主觀性和不準確性等弊端,因此這種傳統的圖像檢索方法并不能滿足用戶的需求[30]。
20世紀90年代初,大規模圖像集不斷涌現,研究者們提出了基于內容的圖像檢索。CBIR的主要特點是利用圖像本身包含的客觀視覺特征,圖像相似性體現在視覺相似性上,不需要人來解釋,也就不需要或者僅需要少量的人工干預,尤其是在需要自動化的場合取得了大量應用。
然而,人們判斷圖像的相似性并非僅僅建立在圖像視覺特征的相似性上,用戶在進行圖像檢索時總是存在一個大致概念,這個概念建立在圖像所描述的對象、事件以及表達的情感等含義上。理想的狀況下,用戶主要根據圖像的含義,而不是顏色、紋理、形狀等特征,直觀地進行分類并判別圖像滿足自己的需要程度。這些圖像的含義就是圖像的高層語義特征,它包含了人對圖像內容的理解,這種理解是無法直接從圖像的視覺特征獲得的,而要根據人的知識來判斷。人與計算機的本質不同就在于人觀察圖像時結合了日常生活中積累的大量的經驗,觀察圖像的過程同時也是一個利用知識推理圖像語義的過程。因此,圖像檢索領域如今面臨的最大難題就是如何克服數字圖像特征(顏色、形狀、紋理等特征)和人類語言描述(也稱高層特征)之間的“語義鴻溝”[7]。
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
第三章 基于決策樹的高層次語義檢索
為了縮小語義鴻溝本文提出一種基于機器學習的圖像檢索方法,即基于決策樹的高層次語義檢索。該方法使用決策樹算法從圖像的低級特征中提取出語義特征,引入“語義模板“概念以將低級特征映射到高級語義特征,并且此方法設計的圖像檢索系統支持關鍵字和圖像兩種檢索方式。
3.1 方案描述
在本方案中系統首先將圖像庫中的每個圖像分割成不同的區域,然后提取每個區域的低級別的顏色和紋理特征。使用由決策樹導出的決策規則,每個區域的低級特征(顏色、紋理特征)與專為該圖像庫定義的高級圖像概念中的其中之一相關聯。在檢索期間,本方案允許用戶提供關鍵字來查詢或提供指定來自查詢圖像的感興趣區域來查詢。對于指定區域的查詢,用戶從查詢圖像中選擇感興趣區域作為查詢區域。該系統計算查詢區域的低級特征和相應的高級概念。然后,從數據庫中返回給用戶包含有個圖像的集合。該集合由包含對應的概念與查詢區域所對應的概念相同的區域的那些圖像組成。而用關鍵字查詢則簡單一些。用戶選擇一個預定義的概念作為關鍵字。然后,系統將返回哪些包含與關鍵字所指定的概念相同的區域的圖像。此外,我們還可以依據返回圖像中包含的“興趣”區域與查詢區域之間的距離來對返回結果進行排序。系統框圖如圖3.1所示。
??????????????????????
?????????????????????? 圖像/關鍵字
查詢
?
?
?
?
?
?
?
圖3.1 系統框圖
在本方案中首先需要對圖片進行分割,圖片分割的方法有很多種,由于圖像分割不是本文研究的重點,這里就不詳細展開。圖片被分割成一個個獨立的區域后對每個區域分別提取其顏色特征和紋理特征,進而創建基于區域顏色和紋理特征向量。這里假設創建的顏色特征向量是維,紋理特征向量是維。為了消除特征向量中數值的大小對實驗結果的影響,在求得特征向量后首先要對其進行歸一化。由于決策樹中針對每個屬性的值都需是離散的,因此在對特征向量歸一化后還要對其進行離散化,這也是本方法的難點。下面將對這兩方面進行詳細的介紹。
3.2特征向量歸一化
在提取到特征向量后,針對圖片中的每個區域我們得到一個維的顏色特征向量和一個維的紋理特征向量。對兩種特征向量中的每一維上的數,使用高斯歸一化方法將其規范到[0,1]范圍內[31]。假設圖像庫內的所有圖片被分割后一共得到個區域。就維的顏色特征向量的第一維(記為)來說,首先計算?的均差和標準差,分別記為和,然后首先通過公式(3.1)被歸一化到[-1,1]。
????????? ???????????????????(3.1)
根據高斯分布理論,屬于[-1,1]的概率是99%[31]。所有超出[-1,1]這個范圍的特征值用公式(3.2)映射到[-1,1]。然后,在用公式(3.3)將轉化至[0,1]范圍內。
?????????? ?????????????(3.2)
?????????? ??????????????????????????(3.3)
3.3特征向量離散化
假設圖像庫中的圖像經分割后所得區域共對應個概念,例如:草地、森林、天空、城堡、海洋等,每個概念對應的區域有個,則。假設概念(i=0,…,18)中的第(j=0,…,29)個樣本區域,它的顏色和紋理特征向量分別為{,}和{,}。以顏色特征向量和紋理特征向量的第一維來說明。由式(3.4)可得出概念基于30個樣本的顏色特征向量和紋理特征向量第一維上的平均值。同理可得出每一個概念基于30個樣本區域的顏色特征向量和紋理特征向量每一維上的平均值,分別記并分別稱其為每一概念的顏色和紋理特征向量的“表征”特征向量。
????????????????????? ???????????????????????????(3.4)
得到每一個概念的“表征”特征向量之后,我們就可以用其來離散化每個圖像區域的低級特征向量。通過分別計算某一區域的顏色(紋理)特征向量與19個概念對應的顏色(紋理)“表征”向量之間的歐幾里得距離,來得到該區域的顏色(紋理)標簽。以獲得顏色標簽為例(紋理標簽的獲得與其類似),其步驟如下:
1)通過式(3.5)計算該區域的顏色特征向量與19個概念對應的顏色(紋理)“表征”向量之間的歐幾里得距離。
????????????????? ?????????????(3.5)
2)找出以上計算結果的最小值。即:。
3)該區域的顏色標簽通過式(3.6)得到。這里是顏色閾值,也即該區域的顏色特征區別于概念對應的顏色模板的最大可接受距離。換句話說,如果>,則就顏色特征來說該區域不屬于19個概念中的任何一個。如果,則可以將該區域的顏色特征看作概念對應的顏色模板。則是屬于概念的30個區域的顏色特征與對應的顏色“表征”向量之間的歐幾里得距離的最大值。
?????????????????????????? ??????????????????????(3.6)
觀察這19個概念不難發現,有些概念(比如太陽),可以用其顏色特征很好的表示。有一些概念用其紋理特征表示則能取得更好的效果,例如;煙花和花朵。然而有些概念則需要結合顏色和紋理特征才能將其有效的表示,例如老虎。為了處理這類情況,我們可以引入顏色-紋理模板,顏色模板的距離測量方法是式(3.7)。也就是區域的顏色特征和紋理特征與指定概念的顏色和紋理“表征”特征向量之間的距離之和。的計算同樣是。
???????????????? ????????????????(3.7)
該區域的顏色-紋理標簽則由式(3.8)決定。
????????????????? ?????????????(3.8)
?
3.4決策樹的創建
整個圖像庫中的所有圖像經分割后得到的個區域,其顏色和紋理特征向量經離散化和映射到高級語義后,每個區域都可得到三個屬性,即顏色()、紋理()、顏色-紋理()。我們將19個概念統一排序并編號為0,1,…,18,這樣每個區域的每個屬性上的值都將是離散的且?{0,1,…,18}。依據每個區域的三個屬性就可以創建決策樹,進而導出決策規則。創建決策樹的框圖如圖3.2所示。
?
?
?
?
?
?
?
?
圖3.2 決策樹創建框圖
?
?
?
?
?
?
?
?
第四章 結論與展望
隨著圖像的急速增長,圖像檢索技術已經變得越來越重要。本文簡述了圖像檢索技術的發展歷程,并指出了圖像檢索技術的重要應用背景。同時,結合國內外在圖像領域的研究現狀表述了現如今該領域的研究熱點,同時指出困擾該領域的難點所在,即低層次的數字圖像特征與高層次的語義描述之間的“語義鴻溝”。為克服“語義鴻溝”,大量的問題已經被研究,也取得了一定的成果。其中一種方法就是利用機器學習的技術關聯圖像的低級數字特征與高級語義,進而縮小“語義鴻溝”。本文就是基于這樣一種思路而提出一種基于決策樹學習的語義圖像檢索方法。該方法使用決策樹算法從圖像的低級特征中提取出語義特征,引入“語義模板“概念以將低級特征映射到高級語義特征,以此由決策樹建立低級數字特征與高級語義之間的聯系,進而導出決策規則。
今后作者將在圖像檢索方面繼續探索,除了使用機器學習的方法以外,還將探索其它的一些方法,例如:使用對象本體定義高級概念、將相關反饋引入檢索回路來不斷學習用戶意向等,以求取得更精確的效果。
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
參考文獻
[1]姚敏.數字圖像處理[M].北京:機械工業出版社,2006.
[2] 莊越挺,潘云鶴,吳飛.網上多媒體信息分析與檢索[M].北京:清華大學出版社,2002.
[3] 魏偉一,基于內容的圖像檢索技術研究. 西北師范大學 碩士研究生畢業論文,2005.
[4] Rocchio J J, Documentretrieval systems-optimization and evaluation[D]. Cambridge: HarvardUniversity,2009.
[5] 趙秋實,注意力驅動的兩階段圖像檢索方法研究. 東北師范大學 碩士研究生畢業論文,2007.
[6] Gudivada V V, Raghavan V V. Content-Based Image RetrievalSystem[J]. IEEE Computer,1995, 9: 18-22.
[7] 王惠鋒 ,孫正興 ,王箭.語義圖像檢索研究進展[J].計算機研究與發展,2002(05):513-523.
[8] 馮松鶴.面向感知的圖像檢索及自動化標注算法研究[D]. 北京交通大學,博士學位論文,2009.
[9] 周明全,耿國華,韋娜.基于內容圖像檢索技術[M].北京:清華大學出版社,2007.
[10]安志勇.基于內容的圖像檢索關鍵技術研究[D]. 西安電子科技大學,博士學位論文,2008.
[11]Zheng D, Peng P, Fan S. A research of dynamic compensation ofcoriolis mass flowmeter based on BP neural networks[J]. Instruments &Experimental Techniques, 2013, 56(3):365-370.
[12] Yue J,Li Z B, Liu L,et a1.Content-based image retrieval using colorand texture fused features[J]. Mathematical and ComputerModelling,2011,54:1121-1127.
[13] Yang N C, Chang W H. A fast MPEG-7 dominant color extraction withnew similarity measure for image retrieval[J]. Journal of Visual Communication& Image Representation . 2008,19(2):92-105.
[14] WangX Y, Yu Y J, Yang H Y. An effective image retrieval scheme using color, textureand shape features [J]. Computer Standards & Interfaces,2011,33:59-68.
[15] Wang H, Dai F, ZhangL, Lu S X.An image retrieval method based on texturefeatures of object region[C].InternationalConference on Electronics and Optoelectronics (ICEOE 2011), 4:83-86.
[16] Zeng Zhiyong,Liu Shigang.A Novel Region-based Image Retrieval Algorithm Using HybridFeature[C].WRI World Congresson Computer Science and Information Engineering.Los Angeles:IEEE Computer Society,2009:416-420.
[17] 王兵,張欣,王苗等.圖像主題區域提取及其在圖像檢索中的應用[J].小型微型計算機系統,2011,32(3):567-571.
[18] Hong, Fu, Zheru,Chi. An efficient algorithm for attention-driven imageinterpretation from segments [J].Pattern Recognition,2009:126-129.
[19] 斯白露,高文,盧漢清等.基于感興趣區域的圖像檢索方法[J].高技術通信,2003,13( 5) : 13-18.
[20] 馮松鶴,郎叢妍,須德.一種融合圖學習與區域顯著性分析的圖像檢索算法[J].電子學報,2011,39(10):2288-2294.
[21] S.C.H. Hoi, R. Jin, J. Zhu, M.R. Lyu.Semisupervised SVM batch modeactive learning with applications to image retrieval[J]. ACM Transactions onInformation Systems,2009,27 (3):1-29.
[22]R.J.Liu, Y.H. Wang, SVM-based active feedback in image retrieval using clustering andunlabeled data[J]. Pattern Recognition,2008, 41 (8): 2645-2655.
[23]M.M.Rahman, B.C. Desai, A framework for medical image retrieval using machine learningand statistical similarity matching techniques with relevance feedback[J], IEEETransactions on Information Technology in Biomedicine,2007,11 (1):58-69.
[24]許相莉,張利彪,劉向東,于哲舟,周春光.基于粒子群的圖像檢索相關反饋算法[J].小型微型計算機系統.2010,38(8):1935-1940.
[25]MiguelArevalillo-Herráez, Francesc J. Ferri, Salvador Moreno-Picot. Distance-based relevancefeedback using a hybrid interactive genetic algorithm for image retrieval[J]. AppliedSoft Computing. 2011,11:1782-1791.
[26]Wu J,Fu Y, Lu M. Bayesian active learning in retrieval feedback for imageretrieval[C].Proceedings of 2nd international symposium on intelligentinformation technology application.China:Inst. Of Elec, 2008.371-375.
[27]Ves E,DomingoJ,et a1.AnovelBayesian framework for relevance feedback in image content-based retrievalsystem [J] . Pattern Recognition,2006,39:1622-1632.
[28]Zhou Z-H.When semi-supervised learning meets ensemble learning [C].Proc Int Workshop Multiple Classifier System.Berfin:Springer,2009,529-538.
[29] Zheng L,WangShaojun, Liu Yan, et a1.Information theoretic regularization forsemi-supervised boosting[C].ACM SIGKDD Conf KnowledgeDiscovery and Data Mining.Paris,France:ACMPress,2009.1017-1026.
[30]蔡琴. 基于內容的圖像檢索綜述[J].考試周刊, 2013(8):120-122.
[31]Y.Rui, T.S. Huang, M. Ortega, S. Mehrotra, Relevance feedback: a power tool forinteractive content-based image retrieval, IEEE Trans. Circuits Video Technol.8 (5) (1998) 644–655.
?
?
?
?
?
?
?
?
?
?
?
?
總結
以上是生活随笔為你收集整理的基于决策树的高层次语义图像检索的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Unity - RenderDoc 抓帧
- 下一篇: static、const、volatil