汪華登,王雪馨,黎兵兵,劉志鵬,許浩,潘細朋,藍如師,羅笑南
1.廣西圖像圖形與智能處理重點實驗室,桂林 541004;2.桂林電子科技大學計算機與信息安全學院,桂林 541004;3.廣東省人民醫院贛州醫院,贛州市立醫院病理科,贛州 341000
乳腺癌是目前最常見的惡性腫瘤之一,是中國女性最常見的惡性腫瘤,發病率也在逐年上升。降低乳腺癌死亡率的關鍵是早期診斷和治療。乳腺癌病理組織切片結果是乳腺癌診斷的金標準。目前,蘇木精和伊紅(hematoxylin and eosin staining,H&E)在大多數國家被廣泛用于病理切片的染色。H&E染色的組織病理學圖像可以直觀地顯示細胞成分和組織結構。同時,諾丁漢分級系統是乳腺癌分級診斷中使用最廣泛的標準,它采用組織學切片中的3 個形態學特征,包括小管形成、核多形性和有絲分裂細胞核的數量。其中,有絲分裂細胞核的數量是乳腺癌分級和診斷的一個重要指標,用于評估腫瘤的增殖和侵襲性,對準確診斷、患者的預后和治療具有重要意義。
有絲分裂細胞核的計數取決于全視野數字切片(whole slide images,WSIs)中有絲分裂細胞核的正確識別。使用光學顯微鏡對有絲分裂細胞進行視覺評估是一個耗時和困難的過程,且依賴于病理學家的經驗。這是因為病理學家通常必須手動提取凋亡細胞、變形細胞核和淋巴細胞等形態特征,以區分病理圖像中的有絲分裂和非有絲分裂細胞。但由于存在較高的復雜性和偽影性,檢測和識別容易出錯。正常有絲分裂的階段包括前期、中期、后期和末期,每個階段各有不同的形態學特征,如圖1 所示,并且在載玻片中觀察到的有絲分裂也可能處于階段之間的過渡狀態(Wang等,2024)。細胞分裂過程中的異??蓪е屡c正常有絲分裂不同的形態學表現,稱為非典型有絲分裂(例如,三極有絲分裂象)。
圖1 有絲分裂演變的4個階段Fig.1 The four stages of mitosis evolution
在病理學家的視覺評估中,需要將有絲分裂和非典型有絲分裂的形態學特征與非有絲分裂區分開來。然而,有絲分裂細胞核與非有絲分裂細胞核極易混淆。如圖2 和圖3 所示,在組織切片中,不同種類的細胞核之間的差異不大,并且一些凋亡細胞通常具有與有絲分裂相似的形態學外觀。病理學家通常很難做出這種區分,因此研究人員已經開發了一些基于人工智能的計算機輔助系統,來規避有絲分裂檢測和識別過程中的主觀性和困難。
圖2 有絲分裂細胞核Fig.2 Mitosis nuclei
圖3 非有絲分裂細胞核Fig.3 Non-mitosis nuclei
到目前為止,已經誕生了許多自動檢測有絲分裂細胞核的競賽,在這些競賽中研究人員共享了幾個有絲分裂數據集,例如:TUPAC 16(tumor proliferation assessment challenge 2016)挑戰賽(Veta 等,2019)、MITOS-ATYPIA-2014(mitotic atypia)挑戰賽(Frédérique,2014)和MIDOG 2021(mitosis domain generalization 2021)挑戰賽(Aubreville等,2023)。研究人員也提出了許多自動檢測方法,并在這些公開數據集上進行了實驗測試,本文按照數據集劃分整理了一些典型的有絲分裂檢測與分割方法,如圖4所示。
圖4 有絲分裂公開數據集上的代表方法Fig.4 Typical methods on mitosis public dataset
盡管這些公開數據集在有絲分裂細胞核自動檢測識別方法的研究中取得了進展,但其仍存在一些局限性。1)標本制備和染色技術的不同。在乳腺組織病理圖像切片的制作過程中,對于不同病理實驗室使用的不同型號掃描儀,采用的不同技術的H&E染色病理圖像的不同深度對檢測結果都有較大的影響。2)WSI的質量?,F有的有絲分裂數據集包含許多困難樣本,檢測模型很難準確分類。3)可用數據集中的有絲分裂樣本數量有限。4)有絲分裂中的正負樣本不平衡問題。在單個高倍鏡視野(high power field,HPF)中的有絲分裂密度非常低,導致數據集中陽性樣本數量很少,陰性樣本數量很多,難以提取有效特征。5)缺乏可用的完整的有絲分裂數據集。目前有關有絲分裂檢測的數據集并不充足,現有的公開數據集多來自一些學術會議競賽,圖像質量高于直接來自醫院的數據,且不能覆蓋所有的病理類型,導致所提出的模型泛化能力差,實際應用困難。這些因素嚴重影響了有絲分裂檢測中的特征提取和準確識別,以及相關研究和應用的進展。
如上所述,基于深度學習的的自動檢測方法依賴于巨大的數據集來支持模型訓練的準確性,且現有的公開數據集圖像質量普遍偏高,不能完全反映模型的性能。因此,構建大規模且具有準確標注的、直接來自臨床環境的乳腺癌病理圖像數據集,對于開展本領域相關研究具有重要意義。為此,本文提出了一個新的用于有絲分裂細胞核檢測的數據集GZMH(該名稱源自數據集來源單位贛州市立醫院的英文名稱Ganzhou Municipal Hospital),并基于該數據集驗證了一些經典的基于深度學習的檢測模型和分割模型的效果。該數據集包含來自22例患者的55幅WSI,并由專業病理醫師提供了用于目標檢測和語義分割研究的兩類精細注釋,且由2 名高年資病理醫師進行了復核,保證了數據的真實性和準確性。此外,本數據集在構造過程中充分考慮到了占用內存大、細胞核碎片等問題,通過4 個方案版本的不斷優化,形成了最終可用的數據集。本文提出的數據集的在線發布地址為:https://doi.org/10.57760/sciencedb.08547。
本數據集中的病理圖像數據均來自江西贛州市立醫院,并經過專業醫師對核分裂象的輪廓進行了精細標注,且經過二次復核。所有數據利用數字切片掃描儀(江豐數字切片掃描儀,KF-PRO120)將H&E 染色切片進行掃描,掃描倍數為40 倍,分辨率為0.25 um/pixel,輸出格式為SVS(aperio scanscope virtual slide)格式的WSI,接著進行腫瘤細胞的核分裂象的人工標注。乳腺癌腫瘤細胞核分裂象人工標記數據采用多級醫生復核制進行確定核分裂象,由3 名病理醫生標注(1 名住院醫生、2 名主治醫生;工作經驗均在5 年以上),2 名高年資病理醫生復核(2 名主任醫生;工作經驗均在10 年以上)。如標記復核結果不同,則由5 名病理醫生共同復片確定是否為核分裂象。該數據集共包含了來自22 位病人的55 幅WSI。數據集分為訓練集與測試集兩部分,其中訓練集包含來自20位病人的 48幅WSI,測試集包含來自2位病人的7幅WSI。具體形式為1 534幅分辨率為2 084 × 2 084 像素的RGB 通道電子圖像,及其對應的單通道黑白二值標簽。訓練集包含1 192幅HPF圖像,共1 832個有絲分裂區域;測試集包括342 幅HPF 圖像,共523 個有絲分裂區域,并且訓練集和測試集均來自不同病人,彼此之間無交叉。圖5顯示了GZMH數據集的一些示例圖像。
圖5 來自GZMH數據集的示例圖像Fig.5 Sample images from the GZMH dataset
在處理GZMH 數據集的原始數據時,經過數據挑選和數據處理兩個并行階段的多次迭代,以避免類別不平衡和細胞核碎片問題。
在數據挑選階段,數據集選取了贛醫有精細標注(即較為精細地勾畫細胞核輪廓,使其精度可用于語義分割)的109 幅WSI,然后又從中選取了來自同一醫院的55 幅WSI 作為GZMH 的原始數據;期間經過多次驗證,盡管這55 幅WSI 中的部分WSI 效果更好,但是考慮到數據規模和實際情況,仍使用了全部55幅WSI,并按病人劃分成訓練集和測試集,彼此無交叉。
在數據處理階段,由于考慮到內存、細胞核碎片等問題,經過至少4次技術路線的重大調整。
初始時考慮遍歷XML(extensible markup language)文件中的坐標信息對每一個核分裂象裁剪出2 048 × 2 048 像素的HPF,但是該方式會造成相近區域的大量重復裁剪,并且無法避免位于HPF 之間邊界區域細胞核碎片的產生,因此該方案被否決,此為數據處理的方案1。
為了減少細胞核碎片及避免重復裁剪,使用遍歷和細胞核邊界位置的判斷方法,此時窗口由2 048 × 2 048像素改為2 084 × 2 084像素,目的是與ICPR 2012 公開數據集保持一致。此方案為使用窗口在WSI 上滑動,當遇到有絲分裂細胞核時檢測該標記區域的最小外接矩形是否完全容納在當前HPF中,若不能,則放棄該細胞核。此方案避免了相鄰有絲分裂細胞核背景區域的重復裁剪,并且有效減少了裁剪導致的細胞核碎片。但是邊界位置檢測操作復雜,因此該方案被否決,此為方案2。
為了簡化操作,在方案2 上去除邊界檢測,直接用滑動窗口在WSI 上裁剪XML 文件中對應區域有標記的HPF,但是該方法會帶來更多的細胞核碎片。因此該方案仍被否決,此為方案3。
出于簡化操作和減少細胞核碎片的目的,仍然使用滑動窗口在WSI 上進行裁剪,但是從XML 文件標記的有絲分裂細胞核區域中獲取該細胞核所在的HPF 位置,并僅在細胞核外接矩形的中心處于當前HPF 范圍內時才進行唯一一次裁剪,即如果當前HPF包含多個核分裂象,也僅裁剪一次,當遍歷到該HPF 的其他細胞核時由于已經裁剪過,因此直接跳過。為了避免過多細胞核碎片,只保留細胞核外接矩形中心點所在的網格。如圖6 所示,黑色細胞核完整,紅色細胞核保留右側,綠色細胞核保留右下角。該方案極大降低了對計算機內存的要求,其核心僅需要支持生成HPF 和讀取WSI 對應位置的內存大小,并且有效減少了細胞核碎片。因此該方案為最終方案,稱為方案4。
針對上述4 個版本的數據處理方式,究其原因,主要是受到以下3方面問題的影響:
1)內存問題。由于WSI 圖像體積極大,單幅圖像的物理內存大小一般為500 MB~2 GB之間,分辨率可達到百億像素(100 000 × 100 000 級別),因此方案1 和方案2 在生成預定義的全尺寸全0 標簽時物理內存需要至少8 GB 隨機存取存儲器(random access memory,RAM)才能進行正常操作,但其仍不能滿足部分更大的WSI 的處理需求,并且此時處理速度極慢,因為有絲分裂細胞核的稀疏性,絕大部分計算時間都是無效計算。而改進后的方案3 和方案4 僅在檢測到需要裁剪HPF 時才申請預定義的2 084 × 2 084 像素大小的標簽所需的內存,這兩個方案幾乎不存在內存瓶頸,足以匹配內存更小的計算機的處理能力。
2)細胞核碎片問題。在裁剪HPF 時處于交界位置的有絲分裂細胞核會被裁剪到多幅HPF 中,產生了一定數量的細胞核碎片,而目前在至少ICPR 2012 和ICPR 2014 兩個公開數據集中都發現了有位于邊界區域不完整的有絲分裂細胞核,因此在GZMH 中也有少量細胞核碎片。但要注意的是,細胞核碎片的產生并不是期望的結果,而是使用滑動窗口統一尺寸裁剪時不能完全避免的。從方案1 到方案4,細胞核碎片的數量是逐漸降低的,最終的細胞核碎片數量在訓練集和測試集中均只有幾個,說明這些方案改進是非常有效的。此時裁剪生成的HPF 和標簽構成了GZMH 數據集,而標記區域的最小外接矩形的坐標和質心坐標則是因為在HPF 和對應標簽的基礎之上額外檢測生成的,因此也包含了上述幾個細胞核碎片。
3)數據格式問題。SVS 格式和TIFF(tag image file format)格式一樣都是金字塔式數據結構,同時將不同分辨率或清晰度的圖像疊加在一起,在放大或縮小時展示的是不同分辨率的圖像,其容量巨大,但是相應的處理操作和存儲、傳輸較為困難。而對于SVS 格式的WSI,在處理時可以使用Python 3.5 版本以上的OpenSlide??紤]到數據讀取速度和圖像質量,一開始使用的為BMP 格式,但是為了減少存儲和傳輸壓力,最終數據格式為JPG格式。
GZMH 數據集包括像素級語義分割標簽和用于目標檢測的標簽(核分裂象區域最小外接矩形坐標及質心坐標)。其中像素級分割標簽為黑白二值標簽,如圖7 所示;而外接矩形坐標及質心坐標構成的目標檢測標簽則為TXT(text)文件。其中,用于目標檢測的核分裂象區域最小外接矩形坐標及質心坐標文件格式如圖8,紅色方框標記為 HPF 文件名,藍色方框標記為當前 HPF 中包含的標記區域個數,綠色方框標記為標記區域的最小外接矩形的坐標(min_row,min_col,max_row,max_col),黃色方框標記為質心坐標(row,col)。標記結果如圖9,紅色矩形框標記的即為圖7中所記錄的位置。
圖7 HPF圖像及其對應像素級語義分割標簽Fig.7 HPF image and its corresponding pixel-level semantic segmentation label((a)HPF image;(b)black and white binary label)
圖8 HPF圖像的標記區域的坐標記錄Fig.8 Coordinate record of marked area of HPF image
圖9 HPF圖像的標注結果Fig.9 Annotation results of HPF images
目前,有6 個公開的數據集通常用于乳腺癌的有絲分裂檢測研究。它們是2012 MITOS(International Conference on Pattern Recognition 2012 dataset)、AMIDA13(assessment of mitosis detection algorithms 2013)、MITOS-ATYPIA-14(mitotic atypia)、TUPAC16(tumor proliferation assessment challenge 2016)、CCMCT2019(canine cutaneous mast cell tumor)和MIDOG 2021(mitosis domain generalization 2021)。這些數據集為世界各地感興趣的學者提供了一個統一的和可用的標準。公開數據集的發布,使得不同方法的實驗結果的比較和討論分析,可以有一個統一的評價標準。
2.1.1 2012 MITOS
2012 MITOS 數據集(Roux 等,2013)是ICPR(IEEE International Conference on Pattern Recognition)在2012 年舉辦的有絲分裂競賽的公共數據集。該數據集由Frédérique Capron 和Catherine Genestie 提供。2012 MITOS數據集是第1個可用于有絲分裂檢測的公開數據集。該數據集共包含5 個經H&E 染色的乳腺癌活檢切片。在每幅WSI 中,病理學家選擇了10 個40 倍放大的高倍鏡視野(HPF)圖像。數據集有50 個HPF,其中包含300 多個有絲分裂細胞核。采用Aperio XT 掃描儀(掃描儀A)、Hamamatsu NanoZoomer 掃描儀(掃描儀H)和10 波段多光譜顯微鏡(M)對載玻片進行掃描而來。每個HPF 的有絲分裂像都由病理學家進行了標注。此外,還給出了每個有絲分裂細胞核的質心坐標。
2.1.2 AMIDA13
AMIDA13 數據集(Veta 等,2015)于2013 年由MICCAI 有絲分裂挑戰賽發布。由于在數據集中選擇的載玻片是在不同的時間制備的,所以它包含了不同的因素,如組織變異性和染色變異性。這樣,數據集就更接近臨床情況。由于該數據集的標注整合了多個病理學家的意見,減少了不同的觀察者造成的差異。由23 例乳腺癌病例經掃描顯微鏡XT 掃描儀放大40 倍數字化后,以每幅圖像2 000 × 2 000 像素的分辨率劃分為HPF。在整個數據集中,共標注了1 157 個有絲分裂細胞核。在這23 個病例中,有12個病例的數據集用于訓練,11個用于測試。
2.1.3 MITOS-ATYPIA-14
MITOS-ATYPIA-14 數據集由Frédérique Capron團隊提供。該數據集用于有絲分裂的檢測和核異型性的評估兩項任務,在每幅病理切片中,經掃描儀放大20 倍數字化后用于核異型性評估任務;經掃描儀放大40 倍數字化后用于有絲分裂檢測任務。同時,該數據集結合了多個病理學家的意見。MITOSATYPIA-14 給出了3 種標注,分別是真正的有絲分裂、疑似有絲分裂和非有絲分裂。病理切片經H&E染色,經Aperio Scanscope XT 和Hamamatsu Nanozoomer 2.0-HT掃描而來。
2.1.4 TUPAC 16
除了上述3 個較常用的數據集外,2016 年在腫瘤增殖挑戰賽中發布了帶標注的有絲分裂數據集,可供相關方使用。在這個數據集中,有來自3 個不同病理中心的73例病例。其中,前23例病例的數據取自AMIDA 第13次挑戰。新添加的50幅切片則分別為用Leica SCN400 掃描儀掃描的HPF 圖像,每幅圖像的尺寸為5 657 × 5 657像素。
2.1.5 CCMCT 2019
CCMCT 數據集(Bertram 等,2019)是一個用于顯微鏡細胞注釋的大規模數據集,經專家手動注釋,提供了完整的WSI 標簽。此外,手動注釋中可能遺漏的有絲分裂數字由深度神經網絡檢測到,隨后由兩名專家進行評估,從而提出算法輔助數據集,其顯著特征是在WSI水平上使用算法輔助注釋和專家的共識可獲得完整的有絲分裂圖注釋。數據經ScanScope CS2 掃描儀放大400 倍數字化,包括32 幅犬皮膚肥大細胞腫瘤的全切片(WSI)圖像,包含不同級別的病例。切片標注包括:有絲分裂、瘤肥大細胞、炎性粒細胞和疑似有絲分裂像。共有262 481 個標注,其中44 880個代表有絲分裂細胞核。
2.1.6 MIDOG 2021
此數據集由使用4 種不同的全玻片圖像掃描儀采集的人類乳腺癌組織樣本組成:Hamamatsu XR nanozoomer 2.0、Hamamatsu S360(0.5 NA)、Aperio ScanScope CS2 和Leica GT450。數據集包括200 幅WSI,病理學家從每個WSI 中選擇2 mm2 的區域,對應于大約10 個HPF。訓練集包含1 721 個有絲分裂圖和2 714 個困難樣本(非有絲分裂圖)。測試集包含以與訓練集中相同的方式獲取,但來自不同的腫瘤病例的圖像。
表1 介紹了乳腺癌有絲分裂檢測中常用的公開數據集和本文所提出的GZMH 數據集。其中,前3 個數據集更常為研究人員使用。最常用的數據集是在ICPR 舉辦的比賽中提供的2012 MITOS 數據集和MITOS-ATYPIA-14數據集。
表1 乳腺癌有絲分裂檢測的數據集Table 1 Datasets for the detection of mitosis in breast cancer
2.2.1 傳統方法
在傳統的方法中,為了檢測H&E 染色的乳腺癌病理切片中的有絲分裂細胞核,采用的是圖像處理技術,通過手工設計和選擇特征來實現自動檢測。所選擇的特征用于訓練分類器在病理切片中區分非有絲分裂細胞核和有絲分裂細胞核。整個過程一般分為兩步:分割和分類。在第1 步中,選擇候選區域并進行分割,將檢測范圍縮小到固定的候選區域。這一步是為了實現細胞核區域的篩選和分割,因為有絲分裂主要發生在細胞核內。第2 步是分類,它涉及到提取用于訓練分類器的候選單元特征。然后,通過訓練好的分類器將候選樣本分為有絲分裂和其他部分。
傳統的有絲分裂檢測方法主要是對病理切片進行人工閱片。在對候選區域分割之前,對圖像進行預處理,并手工設計要提取的特征。為了平衡數據或突出顯示特性,需要進行一系列的預處理操作。在傳統方法的第1 步中,通常通過最大似然估計(maximum likelihood estimation,MLE)、閾值分割和分水嶺分割來實現候選區域提取。對于特征提取,傳統的方法通?;谙闰灪吞囟I域知識設計特征。然后,進行進一步特征選擇和融合,選擇最合適的特征和組合模式來代表有絲分裂細胞核的特征。
在ICPR 2012 MITOS、AMIDA 2013 和ICPR MITOS-ATYPIA-2014 數據集上,傳統方法雖然也取得了具有競爭力的性能。然而,這種方法并不能很好地適用于大規模的數據集,主要是因為對有絲分裂細胞核的手動標注費時費力,并且不能很好地推廣應用到新的數據集。
2.2.2 深度學習方法
深度學習方法在ImageNet大規模視覺識別挑戰(ILSVRC 2012)(Russakovsky 等,2015)中的出色表現推動了計算機視覺領域的巨大發展。它使用卷積神經網絡(convolutional neural network,CNN)從訓練圖像中學習重要的特征。這種基于CNN 的方法極大地提高了計算機視覺任務的效果,如圖像分類、目標檢測和圖像分割。由于深度學習具有較強的特征提取和自學習能力,神經網絡在醫學圖像處理(Litjens 等,2017)中也得到了廣泛研究和應用。神經網絡越來越多地應用于醫學圖像處理,如有絲分裂檢測、細胞核分割和組織分類等。CasNN(cascaded neural network)(Chen 等,2016)使用兩階段方法進行有絲分裂檢測,第1 階段是一個語義分割網絡,通過設計一個基于全卷積神經網絡的粗檢索模型,對候選細胞進行初步定位,然后將定位的候選細胞輸入精細識別模型,以區分有絲分裂細胞核和不可識別的細胞核。Deepmitosis(Li等,2018)將第1階段的檢測算法從語義分割轉變為目標檢測,從而獲得了顯著的性能提升。MitosisNet(mitosis network)(Alom等,2020)則在第1階段采用多任務學習方法。深度學習方法雖然已經取得了重大進展,但基準測試主要是在小規模數據集上執行的。
由于GZMH 數據集在圖像標注時,提供了像素級語義分割標注和用于目標檢測的檢測框坐標標注,所以為了對GZMH數據集進行驗證評估,采用了語義分割和目標檢測兩種方法。
檢測方法中,使用目標檢測任務中有較大影響的YOLOv3(you only look once version 3)(Redmon 和Farhadi,2018)、FSAF(feature selective anchor-free)(Zhu 等,2019)、RetinaNet(Lin 等,2017)、Faster RCNN(faster region convolutional neural networks)(Ren 等,2017)和SSD(single shot multibox detector)(Liu 等,2016)檢測模型進行測試。其中,Faster RCNN 結 合RPN(region proposed network)結構和Fast RCNN,提高了檢測性能;SSD 利用多尺度特征圖,自然地處理各種尺寸的目標,而且與其他單階段方法相比,即使輸入圖像尺寸較小,SSD 也具有更高的精度;YOLO 系列采用了直接回歸的方式獲取目標檢測的具體位置信息和類別分類信息,極大地降低了計算量,顯著提升了檢測的速度;FSAF 通過嵌入anchor-free 分支來指導acnhor-based 算法訓練;RetinaNet 結合 Focal loss 使得單階段檢測器在精度上能夠達到甚至超過兩階段檢測器。
語義分割方法中,使用經典的U-Net(U-shaped network)(Ronneberger 等,2015)、SegNet(semantic pixel-wise segmentation network)(Badrinarayanan 等,2017)、R2U-Net(recurrent residual convolutional neural network based on U-Net)(Alom 等,2018)、LinkNet34(Chaurasia 和Culurciello,2017)、Deep-LabV3+(Chen 等,2018)這5 個分割方法進行測試。其中,U-Net在醫學圖像分割中無疑是最成功的方法之一,它采用的編碼器—解碼器結構和跳躍連接是一種非常經典的設計方法,且在ISBI(International Symposium on Biomedical Imaging)分割挑戰上超越了當時最好的方法;SegNet 可以對圖像中的物體所在區域進行分割,例如車、馬路和行人等,并且精確到像素級別;R2U-Net是基于U-Net架構的循環卷積神經網絡,將UNet、殘差網絡和RCNN的優勢結合到了一起;LinkNet34的主要貢獻是在不影響處理時間的條件下得到較高分割準確率;DeepLabV3+利用新的編碼器—解碼器結構,在提升分割效果的同時,還關注了邊界的信息。
實驗環境是2 塊Intel X4210R、2.40 GHz、10 核20 線程的CPU,256 GB 內存和兩個NVIDIA RTX 3090 GPU,以及Ubuntu 16.04操作系統。
檢測乳腺癌病理組織切片中有絲分裂的主要目的是顯示每張載玻片上的有絲分裂細胞核并計數。一般來說,使用精度pre、查全率re和F1 分數等指標來評估模型的性能,其中精度表示正確預測部分在所有被判斷為有絲分裂的細胞核中的比例。查全率表示所有被檢測到的有絲分裂細胞核的比例。有時,某些方案的檢測在精度和查全率之間有很大的差異,可以通過F1分數指標進行評估。F1分數是對精度和查全率的加權綜合考慮。因此,在上述常用的指標中,F1分數指標的參考值最多。
由于GZMH 數據集首次發布,所以在此為GZMH 數據集上有絲分裂檢測任務與分割任務分別提供一個基線。
檢測任務中,選擇了一些經典的檢測網絡進行對比,比較結果如表2 和圖10 所示。其中,Faster RCNN 是兩階段目標檢測網絡的佼佼者,其檢測精度在ImageNet 上超過大部分網絡,但在此任務中表現并不是很好。Yolo 和RetinaNet 是單階段目標檢測網絡,前者工業應用廣泛,后者提出的Focal loss很好地解決了正負樣本不均衡問題,同樣二者在本數據集中分別只達到0.436 和0.476 的F1 分數。FSAF 是RetinaNet 的改進版本,其性能也相似。SSD也是一種單階段網絡,特點是模型小、訓練速度快,在工業應用中十分廣泛,達到了0.511 的F1 分數,超過了大部分其他網絡。
表2 經典檢測方法在GZMH數據集上的性能對比Table 2 Comparison of classical detection methods on GZMH
圖10 GZMH上經典檢測方法的性能比較Fig.10 Performance comparison of classical detection methods on GZMH
分割任務中,同樣選擇了幾種典型的語義分割方法進行比較,如表3 和圖11 所示。在訓練過程中使用了AdamW 優化器,初始學習率為1E-4,衰減比例為0.1。U-Net、SegNet 等雖然是經典的語義分割模型,但由于GZMH 數據集規模遠超公開的ICPR 2012 等數據集,且GZMH 數據集中的數據來自臨床數據,病理類型復雜,包含的有絲分裂細胞核總數、病例數量和HPF 總數更多,有絲分裂細胞核的分布更為稀疏,復雜程度更高,因而這些分割方法在GZMH數據集上表現不是很好。其中,R2U-Net取得了最佳性能,F1分數為0.430。
表3 經典分割方法在GZMH數據集上的性能對比Table 3 Comparison of classical segmentation methods on GZMH
圖11 GZMH上經典分割方法的性能比較Fig.11 Performance comparison of classical segmentation methods on GZMH
此外,還將同樣的方法在公開數據集MIDOG 2021上進行實驗,進一步對比公開數據集和本文提出的數據集的差異。由于MIDOG 2021的測試集是不可見的,采取將3個掃描儀的圖像作為域外驗證集,將訓練集劃分為一個單獨的驗證集。表4和圖12展示了5個檢測方法和5個分割方法在MIDOG 2021數據集的實驗結果。其中,SSD 單階段檢測網絡取得了最佳效果,Recall 為0.720,F1 分數為0.699。比較模型在公開數據集和GZMH 數據集上的性能,究其原因,在于來自臨床數據的GZMH 數據集提供的病理數據總量更大,具有更豐富的病理數據類型,而且由于直接來自醫院的病理數據包含更多的噪聲和復雜性,更接近實際的應用場景,這也將更有利于有絲分裂技術在計算機檢測中的實際應用。
表4 經典方法在MIDOG 2021數據集上的性能對比Table 4 Comparison of classical methods on MIDOG 2021
圖12 MIDOG 2021上經典方法的性能比較Fig.12 Performance comparison of classical methods on MIDOG 2021
根據目標檢測方法和語義分割方法在GZMH 數據集上的訓練和測試結果,可以看出,在規模更大的臨床數據集上進行的乳腺癌有絲分裂細胞核檢測任務和分割任務,都是十分具有挑戰性的。
本文提出了一個來自醫院臨床環境的應用于乳腺癌病理圖像有絲分裂檢測和分割的數據集GZMH,共包含55 幅WSI、2 355 個有絲分裂像。其主要特點是:病例數據數量大、類型豐富,數據特征更加接近實際的應用場景,從而更有利于面向臨床應用的有絲分裂檢測與分割研究。采用RetinaNet、SSD、U-Net 和R2U-Net 等經典模型對GZMH 數據集進行了實驗,結果表明構建的數據集能夠用于有絲分裂細胞檢測與分割模型的驗證,但也從中看出,在大規模的臨床乳腺癌病理圖像數據中進行有絲分裂細胞核的檢測與分割是一項極具挑戰性的任務。這主要是由于GZMH數據集中有絲分裂細胞核分布稀疏、復雜程度更高、對模型的泛化能力挑戰性更大等。目前,乳腺癌病理圖像有絲分裂細胞核自動檢測是一項非常具有挑戰的任務,現有的乳腺癌有絲分裂檢測算法仍不能用于臨床應用,相關研究仍有待進一步推進。
致謝:GZMH 數據集的構建得到了中國江西贛州市立醫院的支持,在此表示感謝。