?

基于層一致性平均教師模型的半監督巖石薄片圖像分類

2024-02-18 13:46嚴子杰
應用科學學報 2024年1期
關鍵詞:薄片一致性巖石

嚴子杰,王 楊,陳 雁,張 翀

西南石油大學計算機科學學院,四川 成都 610500

巖性識別是地質學、資源勘查、巖土勘察、巖石力學與工程等領域非常重要而基礎的問題[1-2]。巖石薄片識別是地質學中應用最早且較為普遍的巖石巖性鑒定方法之一,它利用顯微照相技術,對巖石薄片中有代表性、具有顯著意義的區域進行多物鏡、多光性、多視域的拍攝成像,然后通過觀察不同巖石薄片圖像的礦物形態和內部結構來識別巖性[3]。深度學習方法可以自動挖掘巖石薄片圖像的復雜特征,學習到比傳統圖像分類方法更大的特征量,從而得到更高的分類準確度和更良好的泛化能力。其自主學習的特點更好地發揮了大數據的優勢,更符合當前地質工作智能化的發展趨勢[4]。

構建用于分類的巖石薄片圖像數據集往往需要花費大量的人工標記成本,且依賴于標記人員的經驗和能力[4]?;诒O督學習的深度學習方法本身就限制在各自的數據集中,若想擴展到其他數據集中,則需要大量重復性工作[5]。半監督學習方法可以通過標記樣本的空間分布,確定未標記樣本的所屬類別,增強數據集并提升訓練模型的準確度和泛化能力[6]。但半監督學習方法在巖石薄片圖像分類中還沒有較多的應用,目前僅有的研究都是使用簡單的偽標記方法對標記數據集進行增強[7],尚未探索更多更有效的半監督巖石薄片圖像分類方法。

本文使用層一致性正則化方法改進了平均教師(mean teacher,MT)模型,通過設計分層無監督一致性組件約束了師生網絡的層次結構,以實現對未標記數據信息的有效利用。實驗結果表明:層一致性平均教師(hierarchy consistency mean teacher,HCMT)模型增強了對未標記數據中有效信息的提取能力,使其擁有了與全監督方法相似的分類能力;半監督學習算法展現出了通過大量未標記巖石薄片圖像數據增強模型分類性能的潛力。

1 相關研究

目前,針對巖石薄片圖像的自動化分類方法主要有兩種:基于特征的分類方法和基于圖像的分類方法?;谔卣鞯姆诸惙椒ǖ谋举|是構造和提取出能夠定量描述目標獨特性和穩定性的圖像特征,并基于這些圖像特征進行自動分類[8]?;趫D像的分類方法的思想是利用計算機分析圖像特點自動提取圖像特征,然后進行分類,其中最常用的是以卷積神經網絡為代表的深度學習方法。卷積神經網絡使用二維圖像卷積運算作為圖像特征提取的通用模板,以數據驅動的方式,在訓練樣本的指引下自動尋找到有效的卷積濾波器(即圖像特征提取器),從而使傳統的數字圖像分析模式由人工特征工程轉變為自動特征工程[9]。但上述監督學習方法依賴于大量有標記的巖石薄片圖像,往往需要花費大量的人工標記成本,且依賴于標記人員的經驗和能力[4]。

半監督學習方法只依靠少量人工標注的數據對模型迭代式自訓練,通過不斷增強數據集數量最終將其擴展到整個數據集,從而建立整個數據集的分類模型。半監督學習方法主要包括:自訓練方法[6]、生成式方法[7]、一致性訓練[10-12]、熵最小化[13]、深度學習方法[14-15]等,并已在醫療診斷[11]、遙感地物識別[12]、語音識別[15]等領域進行了大量的應用。但巖石薄片圖像具有極少的背景信息、極復雜的目標信息、斑塊尺度差異大、成分不穩定等特點[4],因此常規的半監督學習方法在半標記巖石薄片圖像中無法取得滿意的分類效果。目前,基于半監督學習的巖石薄片圖像分類使用簡單的偽標記方法對標記數據集進行增強[7],仍需探索更多可應用的半監督學習方法以解決巖石薄片圖像可擴展式預測的問題。

針對上述問題,本文提出HCMT 模型,用以解決模型可擴展式預測的問題并增強模型的泛化能力。本文的研究思路為:1)構建開放多元巖石薄片圖像數據集;2)使用層一致性正則化方法改進MT 模型,通過設計分層無監督一致性組件,鼓勵師生網絡在分層特征空間中的預測一致性,旨在提升其對未標記數據有效信息的利用;3)通過消融實驗和對比試驗證明層一致性方法的分類能力。

2 方法

2.1 MT 模型

近年來,MT 模型[9]在半監督分類中取得了巨大的成功,該模型在學生模型和教學模型之間加強了不同擾動輸入下學生模型和教師模型結果預測的一致性,從而提高了模型的魯棒性。MT 模型的核心思想是將模型分為師生模型,其中教師模型用來生成學生模型的學習目標,學生模型用教師模型提供的目標進行學習,教師模型的權重是通過學生模型時間記憶的加權平均得到的。MT 算法結構如圖1 所示,算法流程描述如下:

圖1 MT 模型結構Figure 1 MT model structure

步驟1定義有標簽樣本x1、標簽y1、無標簽樣本x2,分別對x1和x2添加噪聲,以下x1和x2均是已經添加噪聲的數據;

步驟2將有標簽樣本x1輸入至學生模型,并計算與標簽y1之間的交叉熵損失Ls;

步驟3將無標簽樣本x2輸入至學生模型,得到學生模型輸出label1,同時將無標簽樣本x2輸入至教師模型,得到教師模型輸出的目標label2,通過計算兩個輸出的均方誤差值得到label1與label2之間的損失

式中:x為輸入數據;θ′ 和η′ 分別為教師模型的參數和輸入擾動;θ和η分別為學生模型的參數和輸入擾動。

步驟4計算模型的總損失L=Ls+Lus;

步驟5用梯度下降法更新學生模型的權重,教師模型的權重則用學生模型歷史權重的指數移動平均法更新,公式為

2.2 HCMT 模型

MT 算法僅使用每個樣本的最終輸出,而未探索網絡結構中隱藏層的豐富信息。同時,學生模型對教師模型預測結果的擬合情況仍受到巖石薄片圖像復雜信息的制約。文獻[16-17] 從不同的層獲得多尺度預測以提高網絡性能。受此啟發,本文希望利用不同尺度的預測進一步分層規范化MT 模型。

基于上述思路,本文提出了HCMT 模型,該模型按照MT 模型的基本思想,以不同擾動下的巖石薄片圖像作為輸入,并鼓勵分層預測的一致性。學生網絡和教師網絡采用相同的骨干結構,將教師網絡的多級網絡結構同樣作為學生網絡的學習目標,通過層次一致性對其進行正則化,以有效利用未標記數據?;赩GG16 模型的HCMT 模型結構如圖2 所示。

圖2 基于VGG16 模型的HCMT 模型結構Figure 2 HCMT model structure based on VGG16 model

具體來說,對于未標記數據,我們期望學生網絡和教師網絡的分層預測結果是一致的。為了進一步加強兩個網絡之間的一致性,本文設計了一個分層無監督一致性(hierarchy unsupervised consistency,HUC)組件來鼓勵隱藏特征空間中的預測一致性。HUC 組件由一個降采樣層和一個1×1×1 卷積層組成,其中降采樣層是為了統一不同層次所包含的圖層元素數量,1×1×1 卷積層是為了師生網絡的部分通道一致性并增強網絡的魯棒性?;贖UC 組件生成了多尺度預測的均方誤差損失,作為無監督損失項,公式為

式中:(θ,η) 和(θ′,η′) 分別為學生模型和教師模型在不同噪聲下的輸入數據;fs(xi;θ′,η′) 表示通過HUC 組件獲得的各隱藏層分量;S為隱藏層數;βi為各層損失的權值并作為超參數在訓練過程中不斷調整。在本文中,HUC 組件使用VGG16 模型的3 個隱藏層作為輸入,分別為第3、第4、第5 個max-pooling 層得到的特征映射,具體如圖2 所示。

最后,無監督正則化損失與監督損失相結合,共同優化網絡,總損失函數定義為

式中:Lsup為監督項,與MT 模型完全一致;Lunsup為無監督層一致性正則化項;λ(t) 是一個時間相關的高斯加權函數,控制監督損失和無監督層一致性正則化項的權重,公式為

式中:t和tmax分別為當前步長和最大訓練步長。

3 實驗分析

3.1 數據集與預處理

本文使用從科學數據銀行網站(https://www.scidb.cn/,訪問于2023 年8 月1 日)免費獲取的巖石薄片圖像作為訓練、驗證和測試數據集,共包含4 個數據集。其中,訓練集和驗證集為“南京大學巖石教學薄片顯微圖像數據集”[18](如圖3 所示),并按4∶1 的比例隨機分配。該數據集目前可以公開免費獲取,涵蓋巖石種類最完善、數據量最多、圖像質量較好、記錄較為完備的巖石薄片圖像數據集[4]。測試集包括“新疆塔里木盆地西部晚白堊世-始新世巖石薄片偏光顯微圖像數據集”[19]“西藏特提斯喜馬拉雅早-中侏羅世巖石薄片偏光顯微圖像數據集”[20]和“鄂爾多斯盆地中寒武統徐莊組巖石薄片顯微圖像數據集”[21]3 個巖石薄片圖像數據集,這些數據集與訓練和驗證數據集的采樣地點、拍攝時間、拍攝設備、操作人員完全不同,因此可以用于測試模型的真實分類能力。數據集詳情見表1。

表1 訓練、驗證、測試數據集詳情Table 1 Detail of training,validation and test datasets

圖3 訓練集的15 種巖石薄片圖像Figure 3 15 kinds of rock slice images of the training set

圖像數據預處理操作按照處理順序包括:比例尺匹配、直方圖均衡化、圖像白化、圖像分塊。比例尺匹配是將同巖石類型的圖像大小與實際巖石薄片大小的比例尺調整至同一大小,以保證圖像特征的空間一致性[2]。直方圖均衡化是為了保證圖像的亮度均勻分布,圖像不會過暗或者過亮。圖像白化是為了對過度曝光和低曝光的圖像進行處理,消除各維度間的相關性,減少外界拍攝環境等對圖像的影響,去除不必要的噪聲信息。圖像分塊是為了增加訓練集數據的規模,增強對圖像局部特征的提取。本文采用包含24 像素重疊區域的方式,將1 024×1 024 像素的原始圖像裁剪為224×224 像素的25 塊子圖像。

原始數據集中所有樣本均包含標簽,實驗中驗證集和測試集數據均為帶標簽數據,因此直接采用原始帶標簽樣本。訓練數據集為部分標記數據集,其中的無標簽樣本由原始有標簽樣本隨機不放回抽樣選取,并去除標簽。

3.2 消融實驗和對比實驗

本文針對提出的HCMT 模型進行消融實驗和對比實驗,主要包括3 個實驗:

1)HCMT 模型在標記比例為30%、50% 和70% 的半標記數據集的實驗(標注為HCMT-30、HCMT-50、HCMT-70);

2)MT 模型在標記比例為30%、50% 和70% 的半標記數據集的實驗(標注為MT-30、MT-50、MT-70);

3)預訓練VGG16 模型在抽樣比例為30%、50%、70%、100%的全標記數據集的實驗(標注為監督-30、監督-50、監督-50、監督-100),此處抽樣比例為從全部標記圖像中進行隨機抽樣的樣本比例。

實驗1 為了驗證不同的標記比例對HCMT 模型的影響;實驗1 和2 為消融實驗,驗證層一致性正則化對MT 模型的提升;實驗1 和3 為對比試驗,驗證HCMT 模型通過未標記數據提升模型的分類能力。

3.3 實驗設置

實驗均使用Python 的PyTorch 框架實現,分別使用以下硬件配置進行:Intel?CoreTMi5-10400 CPU@2.90 GHz,32 GB RAM,NVIDIA GeForce RTX 2080 SUPER GPU,16 GB內存。

HCMT 模型和MT 模型采用的基礎模型均為預訓練VGG16 模型。研究表明,采用預訓練模型可以通過遷移學習的方式提升模型的表現[5]。大量文獻證明VGG16 的小卷積核更適合于提取巖石薄片中巖粒的微小信息[4,22-23],基于巖石薄片圖像分類的前序實驗對比,在ResNet101、Inception-v3、VGG16 這些經典的卷積神經網絡模型中,VGG16 模型的準確度和穩定性最好,故本文選取預訓練VGG16 模型作為本實驗的基礎模型。實驗中所有預訓練VGG16 模型的凍結層均為前3 層,即只訓練VGG-block4、VGG-block5、全連接層、Softmax層參數,如圖4 所示。

圖4 凍結前3 層的預訓練VGG16 模型網絡結構Figure 4 Pre-trained VGG16 model when the first three layers were frozen

對于每個模型的訓練過程,均采用交叉熵損失作為損失函數,選擇Adam 作為優化器。通過網格搜索調整超參數,設置學習率為0.01、0.001、0.000 1,批大小為128、256、512、1 024、2 048,最大輪次為100。交叉熵損失公式為

使用3 種評價指標準確率Accuracy、F1 和Kappa 系數來衡量模型總體性能。它們的計算公式為

式中:TP、TN、FP、FN 分別為每一類的真陽率、真陰率、假陽率、假陰率;Kappa 系數K通過混淆矩陣計算;Po為對角線元素和與矩陣所有元素和之比;Pe為實際與預測數量的乘積和與矩陣所有元素和的平方之比。F1 綜合了精確率和召回率指標,準確率代表包括正樣本和負樣本在內的整體分類正確率。

3.4 實驗結果

表2 展示了實驗訓練的全部模型在測試集的評估得分,圖5 展示了HCMT-50、MT-50、監督-50、監督-100 模型在測試集的混淆矩陣,圖6 展示了按標記比例遞增的HCMT 模型、MT 模型和監督模型在測試集的準確率變化。

表2 模型評估得分對比Table 2 Comparison of model evaluation scores

圖5 HCMT-50、MT-50、監督-50、監督-100 的混淆矩陣Figure 5 Confusion matrixes of HCMT-50,MT-50,supervised-50 and supervised-100 model

圖6 HCMT、MT、監督模型隨標記樣本比例的準確率變化Figure 6 Accuracy of the HCMT,MT and supervised model varied with the proportion of labeled samples

3.5 實驗分析

為了驗證層一致性正則化的引入對MT 模型性能的提升,以及驗證HCMT 模型利用未標記數據提升分類準確率的能力,本文進行了消融實驗和對比試驗。

消融實驗表明,HCMT 模型在各個部分標記數據集中都表現出了比MT 模型更優秀的分類能力。在30%、50%、70% 標記比例的部分標記數據集中,HCMT 模型相較于MT 模型準確率分別提升5.0%、6.0%、4.9%,在50% 標記數據集中提升最大。從各模型的混淆矩陣來看,HCMT-50 模型相較于MT-50 模型在絕大部分類別的分類準確度有了一定程度的提升,主要體現在:1)大部分類別分類準確度得到大幅度提升,尤其體現在白云巖(17%)、板巖(7%)、灰巖(6%)、泥巖(8%)、片麻巖(7%)、矽卡巖(15%);2)難分類別誤分誤差的減少,尤其體現在白云巖、板巖、大理巖、灰巖、泥巖組類(減少5%~10%),片巖和片麻巖組類(減少約3%),以及矽卡巖與其他類別組類(減少約3%)。而MT-50 模型相較于監督-50 模型的提升很小,MT 模型似乎無法利用未標記數據集減少難分類別的誤分誤差。

難分類別是指因其巖石薄片圖像具有較小的顏色、紋理、形狀差別而難以被人工和深度學習方法準確分類的類別,難分類別誤分誤差的減少是提升模型準確度的主要因素。MT 模型似乎不能通過未標記數據提升模型的分類準確度,在較難分類的類別如白云巖、灰巖、泥巖、大理巖等中,MT 模型的預測結果尤其不佳。這可能是由于這些難分類別具有相似的圖像特征,半監督學習模型往往在已標記樣本數量較少且圖像特征不明顯時無法表達類別之間的細微差異,因而導致未標記樣本被大量誤分類。HCMT 模型在部分標記數據集中取得了更優秀的分類結果,模型測試結果逼近全標記監督模型,這與其他研究[11,15]所得到的結果相似。原因可能如下:一方面,層一致性方法在無監督損失項限制了師生模型,使得學生模型可以更好地擬合教師模型的網絡結構,并根據未標記數據的特點尋找其最佳的所屬類別,因而提升了模型對未標記數據的學習能力。另一方面,本文所提出的層一致性方法使用1×1×1 卷積層將每一個隱藏層平面化,并根據該平面獲得無監督損失,因而釋放師生模型網絡結構的部分自由度。這種方法可能增強了模型對未標記數據獨特特征的提取能力,使得模型在帶標記數據的基礎上增強了對未標記數據有效差異特征的提取能力。

對比實驗表明,HCMT 模型在50% 標記數據集中達到了接近于監督模型在100% 標記數據集中取得的分類能力。HCMT 模型相較于監督模型,在30%、50%、70% 標記比例的部分標記數據集中,準確率提升了10.7%、8.5%、6.4%,這說明隨著未標記數據量的增加,HCMT模型可以提取到更多有用的信息并用于提升模型分類能力。在標記比例大于50% 之后,更多帶標記數據對于HCMT 模型、MT 模型的提升并不明顯,這說明較少的帶標記數據就可以使半監督模型達到較好的分類效果,而大量的未標記數據是進一步提升半監督模型分類結果的最重要因素。這符合半監督學習方法的普遍規律[5-6],適合的半監督模型可以在少數標記的情況下獲得較高的性能,且可以通過大量的未標記數據豐富模型細節和提升泛化能力。值得注意的是,HCMT-70 模型在部分標記數據集中,取得了較監督-100 更優秀的綜合評價指標,這體現出了半監督模型在泛化能力上的優越性。這可能是監督模型對數據的過擬合使得無法展現數據集的真實特征分布,而HCMT 和MT 模型通過添加噪聲正則化的方式減輕了對數據的過擬合現象。

綜上所述,HCMT 模型將層一致性正則化引入MT 模型,通過增強師生網絡的層一致性有效利用了未標記數據信息,減少了難分類別的誤分誤差并提升了模型的泛化能力,使得HCMT 模型可以在50% 標記數據集中獲得如全標記數據集相似的分類能力。

4 結語

傳統的巖石薄片圖像分類依賴于大量人工標記的圖像樣本,這種方式受制于標記人員的經驗和能力,且無法通過不斷增加的未標記巖石薄片圖像樣本實現分類能力的可擴展式增強。為解決該問題,本文提出HCMT 模型,通過在無監督損失中添加層一致性正則化項,約束師生模型的層次結構,以實現對未標記數據信息的有效利用。消融實驗和對比實驗結果表明,層一致性正則化方法的引入,增強了MT 模型對未標記數據中有效信息的提取能力,提升了MT 模型的分類準確率,使其達到了與全監督方法相似的分類能力。半監督學習模型表現出了利用大量未標記巖石薄片圖像數據提升模型分類能力的潛力,未來計劃探索更多分層細節信息以增強半監督模型對分層特征的充分利用。

猜你喜歡
薄片一致性巖石
關注減污降碳協同的一致性和整體性
注重教、學、評一致性 提高一輪復習效率
來自森林的植物薄片
第五章 巖石小專家
IOl-master 700和Pentacam測量Kappa角一致性分析
3深源巖石
一種叫做煤炭的巖石
海藻與巖石之間
你真好
你真好
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合