?

基于改進MobileNet V3 的礦物智能識別模型

2024-03-02 13:01張金艷屈娟萍張崇輝薛季瑋卜顯忠
金屬礦山 2024年1期
關鍵詞:礦物注意力準確率

宛 鶴 張金艷 屈娟萍 張崇輝 薛季瑋 王 森 卜顯忠

(1.西安建筑科技大學資源工程學院,陜西 西安 710055;2.奧盧大學奧盧礦業學院,芬蘭 奧盧 FI-9004)

礦物識別是采礦工程、選礦工程等學科研究的基 礎[1-3]。 目前,國內礦物識別與分類主要依據人工經驗,工作人員通常根據顏色、紋理、硬度等物理特征,并借助激光誘導擊穿光譜、顯微光學觀察、能量散射光譜等設備來判斷礦物種類[4-9],然而,這些過程對工作人員的專業素養要求較高,分析步驟也較為復雜,導致整體識別效率偏低。 近年來,為提高礦物識別效率并解決識別準確率低的問題,以深度學習為代表的礦物智能識別模型成為研究熱點。

隨著視覺檢測技術的高速發展,學者們已經建立了多種基于圖像識別的礦物分類模型。 IGLESIAS等[10]利用深度殘差模型(Deep Residual Network,ResNet18)對5 種礦物的偏光顯微鏡圖像進行了分類,其準確率為89%。 SU 等[11]對LeNet-5 模型的輸入樣本、激活函數等模塊進行改進,實現了煤和矸石的有效分類。 白林等[12]利用Inception-V3 模型對15種礦物進行分類,其測試精度為63%,該研究表明,深度學習對于提取部分巖石礦物特征信息具有明顯效果。 LIU 等[13]通過對支持向量機(Support Vector Machines,SVM)模型、隨機森林(Random Forest,RF)模型、基于深度學習模型和顏色特征模型耦合的綜合識別模型進行對比分析,證明了耦合模型的良好性能。 李明超等[14]基于Inception-V3 模型,利用礦物圖像強化后的紋理特征以及由K-means 算法得到的顏色特征,建立了一套可區分19 種不同礦物的耦合分類方法。 ZENG 等[15]利用EfficientNet-b4 模型實現了對36 種礦物的分類,但其準確率僅為71.2%,當其將礦物莫氏硬度特征與圖像特征耦合時,模型準確率可達到90.6%。 LIANG 等[16]通過將圖像切割方法、SBV 算法與各模型相結合,使礦物圖像準確率比原模型ResNet-50、ViT (Vision Transformer)、EfficientNet-B0 分別提高了34.38%、18.75%和43.75%。 在深度學習中,充足的數據樣本是保證模型訓練成功的關鍵。 然而,由于礦物種類繁多,且樣本數量較少,因此尚未建立標準的礦物數據集。 已有研究發現遷移學習[17-18]可有效解決這一問題。 PU 等[19]采用VGG16(Visual Geometry Group,VGG)遷移模型實現對煤和煤矸石分類,準確率為82.5%。 王李管等[20]研究發現:Wu-VGG19 遷移模型對黑鎢礦石與圍巖的識別效果最優,識別率為97.51%;Wu-v3 遷移模型對石英脈石的識別效果最佳,其識別率為99.6%。 張野等[21]以Inception-v3 模型為基礎,結合遷移策略實現了對花崗巖、千枚巖和張角礫巖的有效分類。 ZHOU等[22]基于MobileNet 模型,結合遷移學習與SE(Squeeze-and-Excitation)注意力機制,使得7 種礦物分類準確率達到96%。

上述研究表明,基于深度學習的礦物識別可以較好地解決傳統方法中效率偏低的問題,并具有較高的準確率。 然而仍存在一些問題,例如當礦物識別種類較多時,模型準確率會顯著下降,特別是當僅有礦物圖片數據時,現有的礦物識別模型準確率不佳,且模型過多的計算量和內存需求使礦物檢測模型難以在手機、樹莓派等小型終端設備上實際應用,極大地限制了礦物識別與分類技術的推廣和應用。 為解決上述問題,本研究以19 種礦物圖像作為輸入,提出一種基于改進的MobileNet V3 礦物圖像智能識別模型。針對MobileNet V3 模型中的SE 注意力機制存在無法提取空間信息的問題,引入協調注意力機制,以增強模型對礦物特征的學習能力,并全面捕捉礦物關鍵信息。 同時,采用遷移學習方法加速模型收斂速度、提高模型泛化性。 最后,使用t-SNE[23]方法對其分類結果進行可視化分析,進一步驗證新模型的有效性。 本研究旨在有效提高礦物識別準確率和模型泛化性,顯著降低計算量和內存需求,從而實現對不同礦物的準確高效識別。

1 MobileNet V3 模型概述

在計算機視覺領域發展過程中,為解決傳統模型存在的復雜度高、參數量大、應用部署環境要求高等問題,輕量化模型應運而生。 MobileNet 系列模型包含MobileNet V1、MobileNet V2、MobileNet V3 這3 種模型。 MobileNet V1 模型主要由深度可分離模塊疊加而成;MobileNet V2 模型在MobileNet V1 模型基礎上引入倒殘差和線性瓶頸層模塊,即瓶頸殘差模塊;MobileNet V3 模型引入了MobileNet V1 模型的深度可分離卷積模塊和MobileNet V2 模型中的瓶頸殘差模塊。 同時,MobileNet V3 模型添加了SE 注意力模塊,并引入一種新的激活函數h-swish(x)。 SE 模塊通過學習通道特征關系增強網模型學習能力,而hswish 函數具有強大的非線性表達能力和漸進飽和特性,適用于深度神經網絡中的卷積層和全連接層,可為模型提供更好的梯度流動和優化性能,從而提高模型的準確性和訓練效率。 MobileNet V3 模塊如圖1所示。

圖1 MobileNet V3 模塊Fig.1 MobileNet V3 block

MobileNet V3 模型根據計算復雜度的不同,共有MobileNet V3-Large 和MobileNet V3-Small 兩個版本,本研究綜合考慮礦物類別與數量,選取MobileNetV3-Small 版本,模型具體結構見表1。 首先,將大小為2242×3(高度與寬度大小為224,通道數為3)的圖像作為輸入,經過一系列瓶頸殘差模塊及融合SE 結構的瓶頸殘差模塊操作,輸出大小為72×576 的特征圖,然后通過全局平均池化(Pool)、全連接層等操作,最終得到大小為1 000 的分類結果。

表1 MobileNet V3-Small 模型結構Table 1 Structure of the MobileNet V3-Small model

2 CA-MobileNet V3 模型構建

2.1 遷移學習

在訓練數據充足的情況下,深度學習能夠從圖像中提取多層次特征,以捕捉物體之間的微小差異。 然而在實際應用中,部分研究對象(如礦物圖像)訓練數據難以搜集,導致模型訓練無法取得理想結果。 為解決數據稀缺問題,研究者通常采用遷移學習策略,并使用大規模數據集(如ImageNet)進行預訓練。 遷移學習在缺乏大規模訓練數據的情況下,能夠利用已有模型在其他任務學習到的特征輔助目標任務學習;ImageNet 中龐大的數據基礎使其遷移效果總是優于其他數據集,這有助于在降低模型訓練成本的同時避免過擬合。 遷移學習為解決實際應用中數據不足問題提供了一種有效途徑,使深度學習模型在訓練數據不足時仍能達到目標要求。

鑒于本研究涉及的礦物種類繁多且數據集規模有限,同時ImageNet 數據集中存在與礦物接近的地質類數據,故采用遷移學習方式,將MobileNet V3 原模型與礦物識別模型之間實現參數共享,從而降低訓練成本,并提高礦物智能識別模型的泛化性。

2.2 協調注意力機制(Coordinate Attention Mechanism)

MobileNet V3 模型的SE 注意力機制主要關注內部通道信息,而未考慮位置信息影響。 相比之下,CA注意力機制[24]通過將位置信息嵌入通道注意力中,既避免引入過多計算量,又能使模型獲取更豐富的信息。 CA 注意力機制的實現主要包含兩個過程,即協調信息嵌入和協調信息生成。 在協調信息嵌入階段,采用全局池化方法導致全局空間信息壓縮至通道信息中,位置信息難以保存。 為了促使注意力模塊能夠捕捉具有精確位置信息的特征數據,CA 注意力機制對全局池化進行分解,并轉為一對一維特征編碼操作。 給定輸入X,并應用尺寸為(h,1)和(1,w)的池化核,分別對水平及垂直方向的每個通道進行編碼,如式(1)、式(2)所示。 在此轉換過程中,特征分別沿水平和垂直方向進行聚合,用以捕捉遠距離的相互關系和位置信息。 這使得注意力模塊在空間方向上能更好地捕捉目標之間的關聯,同時在另一個方向保留位置信息,從而提高模型對目標的準確定位能力,增強特征提取效果。 在協調信息生成階段,涉及將具有精確編碼信息的特征層與原始特征圖合并,形成包含水平和垂直位置信息的中間特征。 該中間特征被用于最終的協同注意力層,為模型提供更全面和準確的信息,使模型在處理復雜任務時更加精確和高效。 整個過程通過對空間位置的細致處理,有效增強了模型的感知能力和任務處理能力。

式中,h、w分別為輸入圖像的高度和寬度;分別為沿水平方向和垂直方向進行平均池化操作得到的輸出結果。

CA 注意力機制在本研究模型中的具體實現流程如圖2 所示。 步驟為:① 輸入大小為C×H×W(即通道數為C,高寬為H×W)的礦物圖像特征圖;② 通過使用不同池化核(H,1)和(1,W)沿著輸入特征圖的2個方向進行池化,對得到的2 個嵌入特征圖沿空間維度進行拼接(Concat);③ 經過1×1 卷積(Conv2d)變換后,應用激活函數對其進行激活(BatchNorm+Nonlinear);④ 沿空間維度進行拆分操作(Split),將特征圖分為2 個獨立部分;⑤ 對分離特征圖進行transform 和Sigmoid 操作,并將得到的特征圖通過廣播機制與輸入特征圖進行逐元素相乘操作(Re-weight),進而得到礦物圖像特征權重。 通過利用池化、卷積、激活函數、分割、逐元素相乘等方法,實現對輸入特征圖的精細加工。 這樣的處理使得模型能夠準確捕捉圖像特征之間的關聯性,并為不同部分賦予合適權重,從而提高模型對礦物圖像特征的準確表達和理解能力。

圖2 CA 注意力模塊Fig.2 Coordinate Attention block

2.3 礦物智能識別模型

針對當前礦物圖像分類模型搭載設備計算量大及準確率較低的問題,本研究以MobileNet V3 模型為基礎,采用遷移學習策略并嵌入CA 模塊,構建了礦物分類模型,命名為CA-MobileNet V3 模型。 礦物智能識別模型整體結構如圖3 所示。 具體流程如下:

圖3 礦物智能識別模型流程Fig.3 Workflow of the mineral intelligent recognition model

(1)采用已在ImageNet 預訓練的MobileNet V3模型,并經微調處理后,通過遷移學習方式將其加載至礦物分類模型框架中。 利用ImageNet 大規模數據訓練得到的通用特征,提高模型對礦物圖像的學習能力。

(2)將MobileNet V3 模型中的SE 模塊更換為CA 模塊,利用CA 模塊捕捉圖像特征之間的關聯性,實現對多特征信息的有效融合,從而提高模型對礦物圖像的表達能力。

(3)通過全局平均池化等操作實現對礦物圖像的識別分類。 該結構設計使得模型更好地適應礦物圖像分類任務,充分發揮MobileNet V3 模型的輕量級優勢。 同時,引入CA 模塊提升對圖像特征的捕捉和表達能力。 通過對19 種礦物圖像數據進行一系列試驗驗證后,本研究構建的CA-MobileNet V3 模型在礦物分類準確率和模型性能方面均得到顯著提升,相較于現有的主流模型具有更為出色的性能。

3 試驗分析

本次試驗采用Pytorch 框架對遷移模型進行搭建和測試,該框架可快速靈活地構建神經網絡模型,是理想的試驗工具。數據預處理和模型訓練的硬件環境為:Intel(R)Core(TM)i7-9700 CPU@3.00 GHz 處理器,64 GB 內存,NVIDIA GeForce GTX 1660 Ti。 經過測試,最優試驗參數取值為:衰減策略采用固定步長衰減法(StepLR),gamma系數設置為0.5;模型訓練中采用帶動量的Adam(Adaptive Moment Estimation)方法,動量因子設置為0.1;損失計算方式為交叉熵計算方法;每個batch 訓練樣本數量(batch_size)設置為32,訓練周期epochs設置為60 輪。

3.1 試驗數據及評價指標

本研究礦物數據集中的圖片來源于mindat. org網站及自行拍攝,共19 種礦物圖像,各種礦物及數量見表2。 鑒于數據相對有限可能會導致模型出現過擬合現象,本研究選取旋轉、垂直變換等數據增強手段將每種圖像增加至2 000 幅左右[25-26],以確保模型在訓練過程中能更好地學習并泛化到不同的數據情況。 為對模型進行有效評估,將數據集按照8 ∶1 ∶1 劃分為訓練集(train)、驗證集(val)、測試集(test)。 同時將數據集像素統一壓縮為224×224,以提高模型的準確率及計算效率,并適應不同模型的輸入。

表2 礦石種類及其數量Table 2 Mineral types and quantities 幅

在實際分類任務中,預測值與真實值的吻合情況見表3。 其中,TP表示真實值為正,預測值為正;FP表示真實值為正,預測值為負;FN表示真實值為負,預測值為正;TN為真實值為負,預測值為負。

表3 分類指標Table 3 Classification index

本研究模型訓練及測試結果依據準確率(accuracy)、f1-score 等指標對各礦物的識別模型進行性能評估,計算公式如下:

式中,precision為精確率;recall為召回率。 可分別進行如下計算:

3.2 不同模型對比試驗分析

各模型訓練損失曲線,以及驗證集損失值、準確率、f1-score 值變化曲線如圖4 所示,其中mobilenet v3為未經遷移學習模型,MobileNet V3 為經遷移學習的模型,CA-MobileNet V3 為本研究改進模型,ShuffleNet V2、EfficientNet V2 為CA-MobileNet V3 的對比分析模型。 由圖4(a)可知:經過遷移學習后的各模型均較快進入收斂狀態且穩定趨于0,未經遷移學習的mobilenet v3 模型則相對較慢進入收斂狀態且收斂于0.5,這表明遷移學習對模型訓練起到積極作用。 由圖4(b)、圖4(c)、圖4(d)可知:在模型訓練過程中,CA-MobileNet V3 驗證集損失值最低,且準確率及f1-score 值均優于mobilenet v3、MobileNet V3、ShuffleNet V2、EfficientNet V2 模型,表明改進模型的CA 注意力機制將各礦物圖像的位置信息有效嵌入通道注意力中,并對礦物圖像特征進行了有效提取。 因此,CAMobileNet V3 模型更適合應用于礦物圖像分類。

圖4 各模型性能曲線Fig.4 Performance curves of various models

將訓練后的模型應用于測試集,得到各模型的相關評價指標見表4。 由表4 可知:經過訓練的3 種遷移模型在測試集準確率(testaccuracy)和測試集f1-score(testf1-score)方面均達到80%以上,表現出良好的類別預測一致性。 相較之下,未遷移學習模型mobilenet v3 的準確率僅為51.42%,突顯了基于遷移學習的輕量型模型在礦物分類中的有效性。 ShuffleNet V2 和EfficientNet V2 遷移模型測試集Top1-準確率均為81.61%,但模型大小均超過20 MB。 相比之下,準確率為93.90%的CA-MobileNet V3 遷移模型在保持高性能的同時,其模型大小僅為4.64 MB,且比準確率為88.67%的MobileNet V3 模型小22.80%。 對比可知,CA-MobileNet V3 遷移模型測試效果最為出色,Top1-準確率為93.90%,f1-score 值為93.89%,Top2-準確率達到98.58%。 這表明引入的CA 注意力機制可有效提升模型特征提取能力,在礦物分類方面性能提升顯著。 綜上所述,CA-MobileNet V3 遷移模型不僅具有較高的礦物分類準確率,而且其模型較小,相比mobilenet v3、ShuffleNet V2、EfficientNet V2 及MobileNet V3 模型優勢顯著,是本研究最佳模型。

表4 不同模型測試結果Table 4 Test results for different models

CA-MobileNet V3 模型部分測試集的分類識別效果如表5 所示。 由表5 可知:在前3 幅礦物圖像中,模型的預測種類與實際種類一致,突顯了CA-MobileNet V3 模型在面對不同類型礦物時的出色分類識別能力,反映出該模型在多類別礦物分類中的魯棒性。 對于第4 幅礦物圖像,模型將菱鐵礦預測為磷灰石,預測出現偏差。 觀察圖5 中菱鐵礦和磷灰石礦物圖像可發現,兩者在顏色、紋理等方面存在相對接近現象,從而導致模型發生誤識別。

表5 部分識別結果Table 5 Part of the recognition results

圖5 礦物圖像Fig.5 Mineral images

3.3 t-SNE 可視化分析

為更直觀地展示分類效果,本研究采取t-SNE 方法對高維數據進行降維表達,以便將數據分布規律進行可視化展示。 對各模型最后一層全連接層進行測試集語義特征提取,所得二維平面效果如圖6 所示。

圖6 各模型t-SNE 可視化結果Fig.6 Visualization results of t-SNE for each model

由圖6 可知:測試集準確率僅為51.42%的mobilenet v3 模型的t-SNE可視圖中,各類數據混亂無序,沒有形成清晰的簇結構。 在ShuffleNet V2 和EfficientNet V2 模型的二維映射中,雖然形成一部分簇結構,但各簇之間交叉過多,模型對各類礦物種類的特征區分效果不理想。 與之相比,MobileNet V3 模型的二維語義特征映射效果顯著提升,相對而言CA-MobileNet V3 模型中各類礦物之間的特征間隔更為明顯。 通過t-SNE 可視化對比分析可知,CA-MobileNet V3 模型在各類礦物分類中表現最佳,具有出色的分類效果,與數據分析結果一致,進一步驗證了該模型的可靠性。

4 結 論

(1)本研究提出了礦物智能識別模型CA-MobileNet V3。 該模型以構建的19 種礦物圖像數據集作為研究對象,以輕量型模型MobileNet V3 為基礎,通過可融合多特征的協調注意力機制更換原有的SE注意力機制,并采用遷移學習方法對CA-MobileNet V3 模型進行訓練,提升了模型中礦物圖像特征融合能力及模型收斂速度。 同時,利用t-SNE 可視化方法進一步驗證了模型可靠性。

(2)針對19 種礦物圖像,將CA-MobileNet V3 模型與mobilenet v3、MobileNet V3、ShuffleNet V2、EfficientNet V2 模型進行對比,反映出遷移學習模型收斂速度優勢明顯。 其中,CA-MobileNet V3 模型在訓練過程中準確率最高,且模型大小顯著低于其他模型,滿足模型輕量化要求。 同時,t-SNE 可視化方法清晰展示了CA-MobileNet V3 模型在礦物分類任務中具有良好效果,進一步證明該模型在礦物識別方面具有顯著優勢。 可見,協調注意力機制可有效融合通道及空間信息從而提升模型準確率。

(3)本研究模型在礦物特征相似程度較高的情況下,識別效果不佳。 在后續研究中,考慮引入更為精細的特征提取方法或模型優化策略,提高模型對于細微差異的敏感性。

猜你喜歡
礦物注意力準確率
讓注意力“飛”回來
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
煤泥水中煤與不同礦物相互作用的模擬研究
我國首列106節重載列車抵達濟礦物流
高速公路車牌識別標識站準確率驗證法
基于NAIRS和PCA-SVM算法快速鑒別4種含鐵礦物藥
“揚眼”APP:讓注意力“變現”
A Beautiful Way Of Looking At Things
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合