应用卷积神经网络对乳腺癌组织病理图像进行分类
在這里給大家分享一篇關于用深度學習進行乳腺癌識別的論文(原文地址),翻譯成了中文以便大家快速學習,中間難免有疏忽遺漏的地方,請大家諒解。
深度醫療(2) -乳腺癌診斷識別
1. 介紹
癌癥是世界上一個巨大的公共衛生問題。根據世界衛生組織(世衛組織)的一部分,國際癌癥研究機構(IARC)的數據,2012年有820萬人死于癌癥,預計到2030年將有2700萬新的癌癥病例發生。在癌癥類型中,乳腺癌(BC)是女性第二常見的癌癥(皮膚癌除外)。此外,與其他類型的癌癥相比,BC的死亡率非常高。即使面對對BC進展的分子生物學的理解和新的相關分子標記的發現方面的最新進展,組織病理學分析仍然是BC診斷最廣泛使用的方法。盡管診斷成像技術取得了重大進展,但病理學家還是通過在顯微鏡下對組織學樣本進行目視檢查,從而進行最終的BC診斷(包括分級和分期)。
圖像處理和機器學習技術的最新進展可通過計算機進行輔助檢測/診斷(CAD/CADX)系統,以幫助病理學家從客觀性和一致性上提高診斷的效率。組織病理學圖像分類包含不同的組織病理學模式,與被分析組織的非癌或癌狀態相對應,癌癥自動輔助診斷是圖像分析系統的首要目標。這類系統的主要挑戰是處理組織病理學圖像固有的復雜性。
癌癥診斷的自動成像處理作為一個研究課題已經探索了40多年,但由于要分析的圖像的復雜性,仍然具有挑戰性。例如,Kowal等人比較和測試不同的核分割算法,這些算法在500張圖像的數據集上將病例分為良性或惡性,最終的精確度范圍從96%到100%。Filipczuk等人提出了一種基于細針活檢細胞學圖像分析的BC診斷系統,以區分良惡性。使用四種不同的分類器,用25維特征向量訓練,他們在737張圖像上達到了98%的性能。George等人提出了一種基于細胞學圖像核分割的BC診斷系統。使用不同的機器學習模型,如神經網絡和支持向量機,他們在92幅圖像的數據集的準確率從76%到94%。另外還有提出帶拒絕選項的級聯方法。在級聯的第一級中,作者希望解決容易的情況,而硬的情況則發送到第二級,在第二級中使用更復雜的模式分類系統。他們在以色列理工學院(Israel Institute of Technology)提出的數據庫上評估了所提議的方法,該數據庫由361張圖像,達到97%的可靠性結果。
最近大多數與BC分類相關的工作都集中在整體滑動成像(WSI)上。然而,廣泛采用WSI和其他形式的數字病理學仍然面臨著一些障礙,如實施和操作該技術的成本高、大量臨床程序的生產力不足、與技術相關的固有問題、未解決的監管問題以及病理學家的“文化阻力”。
大多數關于BC組織病理學圖像分析的工作都是在小型數據集上進行的,而這些數據集通常是科學界無法獲得的。為了緩解這種差距,斯潘諾爾等人介紹了一個由對82名患者采集的7909個乳腺組織病理學圖像組成的數據集。在同一項研究中,作者評估了六種不同的紋理描述符和不同的分類器,并報告了一系列實驗,根據圖像放大系數的不同,準確率在80%到85%之間。不可否認的是,紋理描述符可以為訓練分類器提供良好的表現。然而,一些研究人員主張,當前機器學習方法的主要弱點恰恰在于這一特征工程步驟。對他們來說,機器學習算法應該通過能夠從數據中提取和組織識別信息來減少對特征工程的依賴,換句話說,應該能夠表示學習。
表示學習的概念并不新鮮,但由于圖形處理單元(GPU)的出現和普及,它最近才作為一種可行的替代方案出現,后者能夠以相對較低的成本提供較高的計算吞吐量,這是通過其大規模并行架構實現的。在不同的方法中,卷積神經網絡(CNN)在不同的模式識別問題中得到了廣泛的應用,以獲得最先進的結果。在紋理分類的情況下,沒有不同。Hafemann等人已經表明,對于微觀和宏觀紋理的圖像,CNN能夠超越傳統的紋理描述符。此外,傳統的病理圖像分類任務特征提取方法需要大量的努力和有效的專家領域知識,經常導致高度定制的解決方案,針對這個問題,在其他情況下幾乎不適用。
在此基礎上,我們對BC組織病理圖像分類問題進行了深入的研究。除了評估不同的CNN架構外,我們還研究了不同的處理高分辨率紋理圖像的方法,而不改變用于低分辨率圖像的CNN架構。對提出的Breakhis數據集進行的一系列綜合實驗表明,CNN比能獲得的最佳結果還能獲得更好的結果。同時,通過使用簡單的融合規則(如max、product和sum)組合不同的CNN,可以獲得更好的性能。
本文第二部分簡要介紹了breakhis數據庫。第三節簡要介紹了使用CNN進行深入學習。第四節描述了我們實驗中使用的CNN的架構。第五節報告我們的實驗并討論我們的結果。最后,第六部分總結了本文的工作,為進一步的研究提供了一些見解。
2. BREAKHISDATABASE
Breakhis數據庫包含良性和惡性乳腺腫瘤的顯微活檢圖像。通過2014年1月至2014年12月的臨床研究收集圖像。在這段時間內,臨床癥狀為BC所有患者都被邀請到巴西P&D實驗室參與研究。機構審查委員會批準了這項研究,所有患者都給予了書面知情同意。所有的數據都是匿名的。
樣本來自乳腺組織活檢幻燈片,用蘇木精和伊紅(HE)染色。樣本通過外科(開放式)活檢(SOB)采集,能用于組織學研究,并由P&D實驗室的病理學家標記。本工作中使用的制備程序是標準石蠟工藝,廣泛應用于臨床常規。主要目的是保存原始組織結構和分子組成,以便在光學顯微鏡下觀察。完整的制備程序包括固定、脫水、清除、滲透、嵌入和修剪等步驟。為了安裝在載玻片上,使用切片機切割約3微米的部分。染色后,用玻璃蓋玻片覆蓋各部分。然后解剖病理學家通過顯微鏡下組織切片的視覺分析來識別每張載玻片中的腫瘤區域。每個病例的最終診斷由經驗豐富的病理學家作出,并通過免疫組化(IHC)分析等補充檢查予以確認。
采用奧林巴斯BX-50系統顯微鏡,將放大倍率為3.3倍的中繼透鏡與三星數碼彩色相機SCC-131AN耦合,從乳腺組織切片中獲取數字化圖像。圖像是在3通道RGB(紅-綠-藍)真彩(24位色深,每個色通道8位)色空間中使用放大系數40X,100 X,200 X,400 X獲得的,對應于物鏡4 X,10 X,20 X,40 X。
圖1顯示了從含有惡性腫瘤(乳腺癌)的乳腺組織的單張載玻片上獲取的四張圖像,放大倍數分別為(a)40倍,(b)100倍,(c)200倍和(d)400倍。突出顯示的矩形(僅為說明目的而手動添加)是病理學家選擇的感興趣的區域,將在下一個更高的放大倍率中詳細說明。迄今為止,該數據庫由7909張圖像組成,分為良性和惡性腫瘤。表一總結了圖像分布。
3. CNN用深度學習方法
基于視覺內容的圖像分類,尤其是組織病理切片的顯微圖像,是一項具有挑戰性的任務,面臨著諸如通常大量的層間變異、結構形態多樣性導致的豐富的幾何結構和復雜的紋理等問題。圖2顯示了組織病理學圖像中的典型復雜紋理。深度學習探索了直接從輸入數據中學習功能的可能性,避免了手工制作的功能。深入學習的關鍵概念是發現多個層次的表示,目的是更高層次的特征表示更抽象的數據語義。卷積神經網絡作為一種特殊的深度學習技術,在圖像分類問題上取得了成功,包括醫學圖像分析。總之,CNN由堆疊在一起的多個可訓練層級組成,隨后是一個監督分類器,一組名為特征映射的數組表示每個階段的輸入和輸出。輸入可以是圖像、音頻和視頻等信號。例如,考慮到彩色圖像,在輸入端,每個特征映射都是一個二維數組,存儲輸入圖像的顏色通道。輸出由一個集合數組組成,其中每個特征映射表示在相關輸入位置提取的特定特征。
一個深網是通過輸入信息并讓它一層一層地計算,以生成最終的輸出結果,與正確的答案進行比較來訓練的。在計算輸出的錯誤之后,這個錯誤通過反向傳播向后流過網絡。在每后退一步時,模型參數都會調整到一個試圖減少誤差的方向。這個過程會掃過改進模型的數據。通常情況下,training是一個迭代過程,需要多次傳遞輸入數據,直到模型收斂。
用于構建CNN體系結構的層主要有三種類型:卷積層、池層和全連接層。通常,一個完整的CNN體系結構是通過堆疊其中的幾個層獲得的。圖3顯示了典型的CNN體系結構的一個例子,它有兩個特征階段。
在CNN中,關鍵的計算是特征檢測器與輸入信號的卷積。卷積層計算連接到輸入中局部區域的神經元的輸出,每個神經元計算其權重和輸入體積中連接的區域之間的點積。與輸入卷積的權值集稱為濾波器或內核。每個過濾器在空間上都很小(寬度和高度),但會延伸到輸入卷的整個深度。對于圖像等輸入,典型的濾波器是小區域(例如,3×3、5×5或8×8),每個神經元只連接到前一層的這個區域。權重在神經元之間共享,從而引導過濾器學習圖像任何部分中出現的頻繁模式。過濾器應用之間的距離稱為跨距。是否跨步超參數小于濾波器大小,卷積應用于重疊窗口。
像圖6中的學習過濾器(也稱為功能圖或激活圖)一樣,對一組過濾器進行卷積可以改進表示:在CNN的第一層,功能從單個像素變成簡單的原語,如水平和垂直的線、圓和顏色塊。與傳統的單通道圖像處理過濾器不同,這些CNN過濾器是通過所有輸入通道計算的。由于其平移不變性,卷積濾波器在任何檢測到特征的地方都會產生高響應。
通常在兩個連續的卷積層之間插入池(子采樣)層。這一實踐的主要目的是逐步減少空間大小的表示。因此,減少網絡所需的參數和計算的數量有助于在過度裝配控制中。池化層在空間上對卷進行采樣,獨立于輸入卷的每個深度切片。因此,pool操作符會沿寬度和高度調整輸入的大小,從而放棄激活。在實踐中,將窗口函數應用于輸入補丁并計算該鄰域中的最大值的max pooling函數得到了更好的結果。但是,池化單元可以執行其他功能,如歸一化或平均池。
在一個全連接的層中,神經元與前一層中的所有激活都有完全連接,它們的激活可以通過矩陣乘法和偏差偏移來計算。這種類型的層在常規神經網絡中是標準的。最后一個全連接的層保持凈輸出,它是一個概率分布。
4. 運用目前存在的深度神經網絡架構
為了從breakhis數據集中對圖像進行分類,我們評估了一些以前存在的深度神經網絡結構。我們從Lenet開始,它屬于CNN的一種,擅長數字分類任務。然而,在所評估的組織病理學圖像上,Lenet分類性能明顯低于我們文章開頭提到的分類性能結果,達到約72%的準確性。因此,我們選擇了一個更為復雜的模型,專門設計用于對彩色圖像進行分類。在一些測試中,表現出最佳性能的模型是基于Alexnet的變體。Alex Krizevsky提出了最初的Alexnet,以準確地分類來自CIFAR-10 1的圖像,該數據集由10個相互排斥的類(卡車類、飛機類、貓類、狗類、鳥類等)中的60000個32×32彩色圖像(50000個用于訓練,10000個用于測試)組成,每類6000個圖像。該體系結構由多層卷積、匯集、校正線性單元(relu)非線性和局部對比度歸一化(在其上使用線性分類器)組成,如圖4所示。
本文提出的方法旨在處理組織病理學BC分類中常用的高分辨率圖像。將現有的深度神經網絡模型用于更大的圖像可能會導致更復雜的體系結構,具有更大的參數集(越來越大的層),從而大大增加模型的復雜性。因此,微調和培訓架構參數所需的時間可能會變得非常長。為了解決這個問題,本文提出的方法是基于隨機抽取的用于訓練的補丁,以及用于識別的這些補丁的組合。
為了了解前一節中描述的CNN參數,只使用圖像的小補丁進行培訓。主要的想法是從高分辨率圖像補丁中提取尺寸接近于CIFAR數據集的補丁。既然我們要處理紋理,主要前提是
這些補丁可以包含足夠的信息來訓練模型,前提是從每個圖像中提取一組合適的補丁。
基于Hafemann等人報告的結果。通過減小圖像的維數來獲得最佳效果,在這項工作中,原始的700×460圖像被減少到350×230,使用像素面積關系重新采樣。之后,我們用兩個不同的策略。在第一個例子中,我們使用了一個50%重疊的滑動窗口,而在第二個例子中,補丁是隨機抽取的,補丁之間沒有重疊控制。此外,根據報告的結果,我們評估了兩種不同的圖像補丁大小(32×32和64×64)。圖5顯示了調整大小的圖像以及32×32圖像補丁
在實踐中,該方法將翻譯不變性引入(a)(b)圖5。(a)放大40倍獲得的乳腺惡性腫瘤和(b)32×32貼片圖像。該模型起到了規范化的作用,防止了模型對訓練集的過度擬合。滑動窗口策略允許32×32和32×32的補丁之間50%的重疊,從而分別產生260和54個圖像補丁。另一方面,考慮到隨機抽取策略,對于兩個補丁大小,我們已經固定了從每個輸入圖像中抽取任意數量的1000個補丁。表3總結了我們在工作中評估的補丁程序圖像策略。
這里使用監督型的訓練模式,在實際的語音和圖像識別系統中很常見。在監督模式下,隨機梯度下降(SGD)方法與反向傳播法(用于計算梯度)和最小批量大小為1,用于更新網絡參數,從10-6的學習率開始,結合0.9的動量項和4-5的權重衰減。CNN接受了8萬次重復訓練。
以提取的斑塊作為輸入對模型進行訓練。然而,所采用的架構假定一個標準的預處理來降低輸入圖像的亮度(為了亮度標準化),要么減去確定的平均圖像,要么減去每個通道的平均像素值。因此,我們用放大因子計算了所有提取斑塊的平均圖像。最后,我們從每個輸入補丁中減去這個平均圖像,然后再將其輸入CNN。
由于模型是在圖像的補丁上訓練的,所以我們需要一種策略,將原始測試圖像分割成補丁,運行它們通過模型并結合結果。通過從圖像中提取所有可能的補丁,可以獲得最佳結果,但這一點計算量太大。相反,我們選擇提取圖像的網格補丁,即所有不重疊的補丁集,這在實踐中證明了分類性能和計算成本之間的合理平衡。
運行模型時,每個補丁輸出給定補丁圖像的每個可能類的概率。為了結合給定測試圖像的所有補丁的結果,我們測試了三種不同的融合規則,并獲得了最佳結果。換句話說,對一個給定的測試圖像的預測是一個類,它最大化了圖像所有補丁的概率之和。
5. 實驗結果
Breakhis數據集分為訓練集(70%)和測試集(30%)兩組。為了保證分類器對未知患者的通用性,對數據集進行了拆分,以便用于構建訓練集的患者不用于測試集。這項研究的結果是五次試驗的平均值。該協議獨立應用于四種可用放大倍數中的每一種。在討論醫學圖像時,有兩種方法可以報告結果。在第一種情況下,決策是基于患者的,因此,識別率是在患者級別計算的。設n p為患者p的癌癥圖像數。對于每個患者,如果n rec癌癥圖像被正確分類,可以將患者評分定義為:
在第二種情況下,識別率是在圖像級別計算的(即不考慮患者信息),因此提供了一種方法來單獨估計CNN模型的圖像分類精度。讓n都是測試集的癌癥圖像數。如果系統正確分類n個rec癌癥圖像,則圖像級別的識別率為:
識別精度
總結
以上是生活随笔為你收集整理的应用卷积神经网络对乳腺癌组织病理图像进行分类的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Qt - WPS文本编辑器(WPS字体格
- 下一篇: 简单漫画读懂联邦学习