摘要:摘要背景深度學(xué)習(xí)是一種表示學(xué)習(xí)方法,非常適合用來處理數(shù)字病理學(xué)中的圖像分析問題。優(yōu)質(zhì)的注釋樣本是深度學(xué)習(xí)重要的先決條件,但是處理數(shù)字病理學(xué)中最大的挑戰(zhàn)就是獲取高質(zhì)量的注釋樣本。本文使用的深度學(xué)習(xí)主要由四個模塊組成。
Deep learning for digital pathology image analysis: A comprehensive tutorial with selected use cases
Deep learning for digital pathology image analysis: A comprehensive tutorial with selected use cases
Andrew Janowczyk, Anant Madabhushi
背景: 深度學(xué)習(xí)(deep learning, DL)是一種表示學(xué)習(xí)方法,非常適合用來處理數(shù)字病理學(xué)(digital pathology, DP)中的圖像分析問題。DP中有各種圖像分析任務(wù),包括檢測和計(jì)數(shù)(例如有絲分裂)、分割(例如細(xì)胞核)、組織分類(例如癌/非癌)等等。但是由于產(chǎn)生數(shù)字病理學(xué)圖像的過程(制片、著色、掃描)和供應(yīng)商平臺的不統(tǒng)一,以及生物差異(如不同等級疾病有不同表現(xiàn)),DP中的圖像分析任務(wù)特別具有挑戰(zhàn)性。傳統(tǒng)方法在特定領(lǐng)域人為設(shè)計(jì)任務(wù)相關(guān)的handcrafted特征,這需要大量的微調(diào)以適應(yīng)這些差異;而深度學(xué)習(xí)是一種相對來說領(lǐng)域無關(guān)的方法,它將特征的發(fā)現(xiàn)與實(shí)現(xiàn)相結(jié)合,最大化感興趣的類別間的差異。雖然DL在部分DP圖像分析任務(wù)中表現(xiàn)優(yōu)異,但是當(dāng)前并沒有開源的工具或教程提供這方面的指導(dǎo),比如:(a)選擇合適的放大倍數(shù),(b)控制訓(xùn)練集中的注釋錯誤,(c)確定一個合適的包含豐富信息樣本的訓(xùn)練集,這些是將DL成功應(yīng)用于DP任務(wù)中所必須的基本概念。
目標(biāo): 本文有7個獨(dú)立的DP任務(wù),用來探索DL應(yīng)用于不同DP領(lǐng)域所需要的技巧。
結(jié)果: 本文展示了如何使用深度學(xué)習(xí)解決以下問題:
● (a)細(xì)胞核分割(nuclei segmentation),F(xiàn)?score of 0.83 across 12,000 nuclei
● (b)上皮細(xì)胞分割(epithelium segmentation),F(xiàn)?score of 0.84 across 1735 regions
● (c)細(xì)管分割(tubule segmentation),F(xiàn)?score of 0.83 from 795 tubules
● (d)淋巴細(xì)胞檢測(lymphocyte detection),F(xiàn)?score of 0.90 across 3064 lymphocytes
● (e)有絲分裂檢測(mitosis detection),F(xiàn)?score of 0.53 across 550 mitotic events
● (f)浸潤性導(dǎo)管癌檢測(invasive ductal carcinoma detection),F(xiàn)?score of 0.7648 on 50 k testing patches
● (g)淋巴瘤分類(lymphoma classification),classification?accuracy?of?0.97?across 374 images
結(jié)論: 本文對深度學(xué)習(xí)方法在數(shù)字病理學(xué)領(lǐng)域的應(yīng)用進(jìn)行了迄今為止最大范圍的綜合研究,在評估中使用了超過1200張數(shù)字病理學(xué)圖像。
數(shù)字病理學(xué)(digital pathology, DP)是指將組織切片數(shù)字化,以生成高分辨率的圖像,這樣就可以使用圖像分析技術(shù)來處理DP領(lǐng)域中的檢測、分割、分類等任務(wù)。很多DP領(lǐng)域的圖像分析都涉及到量化(如細(xì)胞或有絲分裂計(jì)數(shù))或者組織分級(分類)。如圖1中所示,這些任務(wù)都需要識別組織基元(histologic primitive),例如細(xì)胞核、有絲分裂、細(xì)管、上皮組織細(xì)胞等。
現(xiàn)有方法主要有兩個缺點(diǎn):(1)任務(wù)相關(guān)方法的開發(fā)需要很長時間的研究及開發(fā)周期,對某個特定數(shù)據(jù)集性能良好的處理參數(shù)一般不能直接應(yīng)用于另一個獨(dú)立的數(shù)據(jù)集,還需要額外的參數(shù)進(jìn)行調(diào)整;(2)如何尋找或調(diào)整最優(yōu)參數(shù)一般只能依靠算法的開發(fā)者,對其他人來說無法直觀理解。深度學(xué)習(xí)沒有任務(wù)或者數(shù)據(jù)相關(guān)的先驗(yàn)假設(shè),完全由數(shù)據(jù)驅(qū)動生成合適的特征空間,這是DL的關(guān)鍵特性,使得訓(xùn)練得到的特征可以泛化應(yīng)用到其他獨(dú)立的測試集上。
3 DIGITAL?PATHOLOGY?TASKS?ADDRESSED表1展示了本文處理的7個任務(wù)。
分割任務(wù)要描繪出組織基元(例如細(xì)胞核、有絲分裂、細(xì)管、浸潤性導(dǎo)管癌IDC)的精確邊界,所以需要提取精確的形態(tài)特征。檢測任務(wù)(例如檢測淋巴細(xì)胞和有絲分裂)一般只是確定基元的中心而不需要描繪出輪廓,所以分割要比檢測更具有挑戰(zhàn)性,尤其是基元存在多個可能形態(tài)時。
3.2 Tissue?Based Classification Task本文處理的另一類實(shí)例屬于組織級別分類。使用DL方法可以直接學(xué)習(xí)到組織類別的特征表示,而不需要定義單個組織基元以通過相關(guān)組織基元的特定特征來進(jìn)行預(yù)測。DL的方法不需要定義基元,在不了解相關(guān)領(lǐng)域的基元的前提下也可以直接對組織類別進(jìn)行預(yù)測。DL方法只需要標(biāo)示了類別的圖像塊(patch)就可以學(xué)習(xí)到具有較強(qiáng)類別區(qū)分性的表示。
3.3 Manual Annotation for Ground Truth Generation優(yōu)質(zhì)的注釋樣本是深度學(xué)習(xí)重要的先決條件,但是處理數(shù)字病理學(xué)中最大的挑戰(zhàn)就是獲取高質(zhì)量的注釋樣本。有文章顯示在組織分類器的在更高分辨率上會發(fā)生退化,主要是因?yàn)獒t(yī)學(xué)專家注釋的并沒有那么精細(xì)(圖5是一種類似情況)。
病理學(xué)家一般不會耗費(fèi)精力來標(biāo)注高分辨率病理圖像,所以(a)很少有精確到像素級的標(biāo)注;(b)一般標(biāo)注較低分辨率圖像;(c)標(biāo)注樣本包含大量的假陽/陰區(qū)域。
4 DEEP?LEARNING?METHODS 4.1 Overview of Deep Learning Workflows本文使用的深度學(xué)習(xí)主要由四個模塊組成。
Casting
設(shè)計(jì)一個適當(dāng)?shù)木W(wǎng)絡(luò)一般需要確定很多問題,比如:輸入圖像塊的尺寸、網(wǎng)絡(luò)層的數(shù)量、卷積的屬性等。本文使用現(xiàn)有的AlexNet,因?yàn)榘l(fā)現(xiàn)一個成功的網(wǎng)絡(luò)架構(gòu)也是比較困難的,本文實(shí)現(xiàn)框架為Caffe。
Patch generation
一旦確定了網(wǎng)絡(luò)結(jié)構(gòu),那么輸入尺寸也就確定了,接下來就是生成圖像塊來構(gòu)成訓(xùn)練/驗(yàn)證集。這個階段需要一定的相關(guān)領(lǐng)域知識,以確定生成的訓(xùn)練集包含多樣性的表示。本文選定的網(wǎng)絡(luò)性能一般,雖然可以減輕過擬合的問題,但樣本的選取會很大程度的影響最終的效果。這個問題在病理學(xué)領(lǐng)域尤為顯著,因?yàn)橥活悇e中也存在很大的差異。
Training
使用固定batch size的隨機(jī)梯度下降(SGD)方法,(a)將預(yù)處理的圖像塊輸入網(wǎng)絡(luò);(b)計(jì)算誤差導(dǎo)數(shù);(c)反向傳播更新網(wǎng)絡(luò)參數(shù)。學(xué)習(xí)率隨訓(xùn)練時間減小,以確定收斂到局部最小。保存訓(xùn)練得到的參數(shù)(也就是模型)用于測試。
Testing
使用訓(xùn)練好的模型對測試集數(shù)據(jù)進(jìn)行預(yù)測。
Convolutional layer 略
Pooling layer 略
Inner product (fully connected) 略
Activation layer 略
Dropout layer 略
Softmax layer 略
網(wǎng)絡(luò)結(jié)構(gòu)見表2,超參數(shù)設(shè)置見表3,輸入圖像尺寸為32x32。
注:對于文中醫(yī)學(xué)相關(guān)的名詞翻譯可能不準(zhǔn)確,如有異議請指正。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://m.hztianpu.com/yun/19649.html
摘要:折交叉驗(yàn)證集,每折包含約張訓(xùn)練圖像和張測試圖像,正樣本邊界負(fù)樣本其他負(fù)樣本,訓(xùn)練集中共圖像塊。浸潤性導(dǎo)管癌是乳腺癌中最長出現(xiàn)的亞種。 Deep learning for digital pathology image analysis: A comprehensive tutorial with selected use cases Deep learning for digital ...
摘要:淋巴細(xì)胞是白細(xì)胞的一個亞種,在免疫系統(tǒng)中很重要?;疾』蛴挟愇锏膮^(qū)域淋巴細(xì)胞數(shù)量會極大增加,所以通過確認(rèn)和定量淋巴細(xì)胞的密度和位置有助于評估疾病。本節(jié)目標(biāo)是確定淋巴細(xì)胞的中心,是一個檢測任務(wù)。常見的假陽性和真實(shí)正例見圖。 Deep learning for digital pathology image analysis: A comprehensive tutorial with se...
摘要:貢獻(xiàn)者飛龍版本最近總是有人問我,把這些資料看完一遍要用多長時間,如果你一本書一本書看的話,的確要用很長時間。為了方便大家,我就把每本書的章節(jié)拆開,再按照知識點(diǎn)合并,手動整理了這個知識樹。 Special Sponsors showImg(https://segmentfault.com/img/remote/1460000018907426?w=1760&h=200); 貢獻(xiàn)者:飛龍版...
閱讀 1224·2021-11-22 15:22
閱讀 3927·2021-10-19 13:13
閱讀 3701·2021-10-08 10:05
閱讀 3365·2021-09-26 10:20
閱讀 3081·2019-08-29 14:21
閱讀 2267·2019-08-27 10:55
閱讀 1925·2019-08-26 10:31
閱讀 2646·2019-08-23 16:47