?

基于改進U-Net的噴射成形高速鋼碳化物提取算法

2023-10-23 01:22陳家樹侯國棟周繼寬劉天琪鄧百川張祥林
金屬熱處理 2023年10期
關鍵詞:高速鋼碳化物編碼器

陳家樹, 侯國棟, 周繼寬, 劉天琪, 鄧百川, 張祥林

(1. 華中科技大學 材料科學與工程學院, 湖北 武漢 430074;2. 河冶科技股份有限公司, 河北 石家莊 052165;3. 湖北會盛百模具材料科技有限公司, 湖北 武漢 430080)

高速鋼是一種高碳高合金工具鋼,具有高硬度、高耐磨性等特點,在機械加工、汽車制造、航空航天等領域有著廣泛應用[1]。高速鋼的碳含量高達0.7%~1.65%,合金元素含量可達10%~30%。高含量的合金元素使得高速鋼經充分淬火后得到高硬度的馬氏體組織,并與碳元素結合生成各類碳化物。因此,高速鋼熱處理后的組織主要由馬氏體和碳化物構成[2],而碳化物的種類、分布、大小、形態會對高速鋼的各項性能起重要作用[3],故深入研究高速鋼中碳化物的演變特點具有重要意義。

早期,鋼中碳化物的研究主要依賴于人工檢測,但此方法主觀因素影響大、結果不夠精準且效率低下[4]。因此,將人工定性分析轉變為依托于高精度、高效率的自動化定量分析,一直是金相定量分析領域的重要研究課題。如今,傳統數字圖像處理在人工智能技術的支撐下得到了飛速發展,國內外研究人員利用新興圖像處理技術對鋼中碳化物進行了自動化定量分析,并取得了一些成果。如Hecht等[5]對ImageJ軟件進行二次開發,設計了基于灰度值的碳化物分割算法。Smeets等[6]借助卷積神經網絡將采集到的鋼中碳化物的金相照片與標準圖庫進行匹配,完成了碳化物的自動評級。張吉[7]建立了面積直方圖理論與鎢系高速鋼中碳化物分布的內在聯系,總結了碳化物大小和數量隨其標準分級的變化規律。單隴紅[8]改進了邊緣提取算法,并采用自主設計的隨機分割算法對GCr15軸承鋼中的碳化物均勻分布情況進行評級。

盡管目前對鋼中碳化物的自動化定量分析已經取得一定進展,但大多算法及模型無法對鋼中碳化物的種類進行明確區分,導致定量分析針對性不足。因此,如何進一步優化模型,提高不同碳化物量化研究的準確性仍值得深入研究。語義分割[9]是將圖像中的目標對象從背景中提取出來的技術,精度達像素級別,該技術最早應用于醫學領域,如細胞統計、CT影像處理等。由于碳化物在鋼基體上的分布與細胞在組織中的分布有一定相似性,將該技術應用到鋼中碳化物的提取研究中,能實現不同種類碳化物的精準提取。選用U-Net語義分割模型[10]為基準網絡,對其進行針對性改進,從而對高速鋼中碳化物進行分割,命名該模型為GSG-Unet,其能自動識別并準確定位微觀組織圖像上的碳化物,將碳化物從馬氏體基體上準確提取出來,從而為碳化物的定量分析提供強有力的自動化技術支持。

1 網絡模型設計

U-Net模型的網絡結構如圖1所示,該模型主干網絡由編碼器和解碼器兩部分構成。編碼器共5個階段,前4個階段的操作是一致的,均通過兩次卷積來提取待分割對象特征,以ReLU作為激活函數,該函數為分段線性函數,只有輸入為正時才會產生輸出結果,因其簡單的判別方式已成為許多神經網絡的默認激活函數。然后通過一次最大池化操作來進行下采樣。而第5階段由于與解碼器相連,下采樣變成了上采樣,其余操作完全相同。解碼器則包含4個階段,且與編碼器前4個階段一一對應,從而形成“U型結構”,其操作與編碼器的第5階段完全一致。經過編碼解碼后,最終通過一個1×1的卷積核完成輸出。

圖1 U-Net模型結構Fig.1 Structure of U-Net model

1.1 GSG-Unet網絡模型

U-Net模型本身結構較為簡單、網絡層數較淺、卷積層感受視野較小、模型抗干擾能力弱,因此需進行適配性的改進以完成碳化物的分割任務。

本文提出的GSG-Unet網絡結構如圖2所示。改進后模型的編碼過程從上到下共5個階段。前4個階段由Conv 3×3標準卷積操作、不同數量的ConvNext Block及大小為2×2的最大池化下采樣組成,激活函數采用ReLu。5個階段中加入的模塊數量不同,從上至下分別為2、3、9、3、3,共20個,這種“先多后少”的結構設計來源于ConvNext-T網絡,該網絡已在多個語義分割應用場景證明了其優越性。該策略能夠有效地提取出深層次的特征信息,同時減少模型的計算量和參數數量,使得網絡具有更好的訓練效率[11]。

圖2 GSG-Unet模型結構Fig.2 Structure of GSG-Unet model

解碼過程從下到上包含4個階段,與編碼器前4個階段對應。由于改進后的編碼器網絡結構較深,為保持模型平衡性,改進后模型在解碼器階段也添加了相應數量的ConvNext模塊以避免信息丟失問題。解碼過程的每個階段包含2×2的上采樣操作、對應編碼器相同階段的ConvNext網絡及Conv 3×3標準卷積操作,同樣采取RelU激活函數進行判斷。

U-Net模型直接將編碼器提取到的淺層特征與解碼過程中的深層特征進行疊加融合處理,這一操作會將不同量級的特征置于同一地位,從而可能出現目標分割精度低、邊緣模糊等問題。針對這一不足,本文提出的GSG-Unet模型將編碼器前4個階段提取到的特征層先通過CBAM注意力機制進行處理,再與解碼器中對應階段的特征進行融合,以此更好地增強模型對特征的關注和提取能力,提高模型性能。

1.2 ConvNeXt Block模塊

ConvNeXt是Facebook團隊在2020年提出的一種純卷積神經網絡[11],它比目前主流的Swin Transformer結構[12]擁有更快的推理速度及更高的準確率。ConvNeXt Block模塊借鑒了 ResNeXt中的分組卷積(Group convolution)[13],在模型復雜度和準確度之間做到了更好的平衡,因此其結構與ResNet Block較為相似,兩者結構對比如圖3所示。

圖3 ConvNeXt Block模塊與ResNet Block結構Fig.3 Structures of ConvNeXt Block module and ResNet Block

ConvNeXt Block模型的核心是通過建立起前后層之間的“短路連接”操作以提升訓練過程當中梯度的反向傳播,從而能訓練出更深層的網絡模型。該模塊采用了MobileNet v2中的Inverted Bottoleneck架構[14],能夠從信息含量更為復雜的圖像中準確提取到特征。

ConvNeXt Block模塊相較于ResNet Block模塊做出了以下改進:首先采用深度可分離卷積,并將首次卷積操作的卷積核大小由3×3修正為7×7,從而提升了模型的計算速度和泛化能力;其次,將BN(Batch normalization)批標準化替換為LN(Layer normalization)層標準化,并減少了標準化次數,這一操作使得網絡在訓練期間始終有一個確定的均值和標準差,令訓練更加可靠,且提高了網絡訓練的速度;最后,ConvNeXt Block模塊選擇高斯誤差線性單元(GeLU)激活函數替代了ReLU,該函數相較于ReLU更加的平滑,加速了網絡訓練速度,并提高了網絡準確性。

1.3 CBAM注意力機制

CBAM(Convolutional block attention module)注意力機制結構如圖4所示,該結構由兩個模塊連接而成,分別生成空間和通道的注意力特征圖信息,從而增強特征間的聯系。通道注意力機制包含全局平均池化層和全連接層。該模塊將每個特征通道上的信息壓縮為一個全局統計特征,并自適應地調整每一個特征通道的權重,提高了不同通道特征的表達能力;空間注意力機制結構會對輸入的特征圖進行全局最大池化和平均池化操作,將得到的兩個單元特征圖拼接在一起,通過一次層卷積操作獲得每個坐標的權重因子,最終特征在空間維度上的表達能力得到了提高。該技術[15]在處理復雜場景和小目標檢測等問題時表現出色,能夠提高模型的識別精度和泛化性能,因此被廣泛應用于各類深度學習模型的改進當中。

圖4 CBAM模塊結構Fig.4 Structure of CBAM module

2 試驗結果及分析

2.1 數據集制作

采用噴射成形HSF122高速鋼制作語義分割數據集,該鋼種已在企業實際生產中取得良好應用,其微觀組織如圖5(a)所示。從圖5(a)中可以看出,該鋼種共含有兩種碳化物,其中深色顆粒為MC型碳化物,主要為碳化釩(VC);白色小顆粒為M6C型碳化物,主要成分為W、Mo、Fe和C的混合結合(如Fe3W3C)。

圖5 數據集制作過程(a)原圖;(b)標注;(c)標簽Fig.5 Production process of data set(a) original image; (b) data annotations; (c) label

本文原始數據集采用80張10 000倍下拍攝的HSF122噴射成形高速鋼微觀組織掃描電鏡照片制作而成。對于語義分割任務來說,如果待分割目標過多或過小,模型訓練成本會大幅提升,且造成數據標注過于困難,難以區分邊界。而10 000倍下掃描電鏡照片能清晰地觀察不同碳化物的形貌,且數量適中,適合作為數據集樣本,同時相同倍數的照片使得數據集樣本具備更好的一致性,消除了因金相制備及采集條件造成的信息失真等問題。這些因素可能包括樣品制備方法、樣品保存方式、電子束能量、加速電壓等條件的改變。該數據集采用Labelme深度學習專業標注軟件進行制作,過程如圖5所示。圖5(a)為原始圖像,圖5(b)是標注過程示例,在此過程中采用不同顏色對兩種碳化物進行標記:深色MC型碳化物以紅色表示,M6C型碳化物以綠色表示,圖5(c)是制作完成后的數據集標準圖,此時一張圖像被分為背景、MC碳化物、M6C碳化物3個部分,這樣的劃分使得后續模型訓練更加方便高效。

訓練深度學習模型常常需要大量數據,但本研究中的初始數據樣本較少,因此有必要使用數據增強操作對數據集樣本進行擴充。擴充手段包括水平翻轉、豎直翻轉和對比度增強,數據集擴充后共獲得320張圖像。采取隨機抽樣的方式將其分為兩個子集:訓練集和驗證集,其比例為8∶2。再從驗證集中隨機抽取16張圖像作為測試集,最終數據集中含訓練集256張、驗證集48張、測試集16張。

2.2 試驗環境及評價指標

所有網絡模型的訓練及測試均在同一臺計算機上完成。計算機所搭建的深度學習環境配置為:處理器采用Intel Core i7-9700K,GPU采用NVIDIA GeForce RTX 3060顯卡,深度學習框架采用TensorFlow,整體開發環境采用Cuda 11.6,Python 3.9,Tensorflow-GPU-2.2.0,優化器為隨機梯度下降法(SGD),最大迭代次數設置為100次。采用Voc2007數據集在U-Net上的訓練結果作為初始權重進行訓練,即遷移學習[16],這種訓練方法可以降低訓練成本,節省大量的時間和計算資源,是訓練自制小規模數據集常用的方式。

2.3 模型性能評價指標

為了對改進方法進行有效性評估,采用多個語義分割任務評價指標對模型性能進行多維度的評價,包括:準確率(Accuracy,Acc)、召回率(Recall)、類平均交并比(Mean intersection over union,MIoU)和骰子系數(Dice coefficient,Dice)。

Acc表示模型預測正確的像素點數與總像素點數之比,準確率越高則表示模型預測性能越好;Recall表示待分割對象中被正確預測到的像素點數與待分割對象實際像素點數之比,召回率越高則表示模型能夠更好地找到待檢測對象;MIoU表示不同類別待分割對象的交并比均值,交并比是指模型預測出來的像素點與真實待分割對象像素點之間的交集與并集的比值,MIoU越高則表明模型能夠更加準確的區分出不同類別的待分割目標;Dice系數表示模型預測結果與真實情況間的重疊情況,它是預測結果和真實結果的交集大小與它們的總大小之比,Dice系數越高,說明模型能夠更好地匹配真實情況。它們的混淆矩陣計算公式為:

(1)

(2)

(3)

(4)

式中:TP、TN、FP、FN均為混淆矩陣元素?;煜仃囀且环N用于評估分類模型性能的工具,它由4個元素組成:真正例(TP)、真負例(TN)、假正例(FP)和假負例(FN)。其中,真正例表示模型預測為正例且實際也為正例的樣本數;真負例表示模型預測為反例且實際也為反例的樣本數;假正例表示模型預測為正例但實際為反例的樣本數;假負例表示模型預測為反例但實際為正例的樣本數。通過對這4個指標的計算和分析,可以了解分類模型在正負樣本上的分類準確性和誤判率,從而評估其性能。

2.4 模型性能測試

2.4.1 編碼器改進試驗

U-Net模型的編碼器網絡結構復雜程度直接影響到模型提取特征能力的優劣。若編碼器網絡深度過淺、結構較為簡單,則模型提取圖像特征的能力將受到限制,難以捕捉復雜特征且抗干擾能力較弱。反之,隨著編碼器網絡的不斷加深,雖然提取特征的能力大幅提高,但也會出現過擬合、梯度消失、梯度爆炸等問題,同時計算成本大幅提高,硬件負荷過大導致模型訓練困難。因此,選擇具有合適網絡深度的編碼器對模型性能非常重要。

為驗證改進后編碼器結構ConvNeXt20-Unet的有效性,設計了在編碼器中添加不同數量的ConvNeXt Block模塊后的網絡模型,并進行對比試驗,試驗方案如表1所示。即通過對比加入0、14、20及29個ConvNeXt Block模塊的4種模型,確定編碼器改進后的效果。

表1 U-Net編碼器改進試驗

表1中4種網絡模型的性能對比結果如表2所示。從表2中可以看出,原U-Net模型在針對高速鋼碳化物的分割任務上表現較差,各項性能表征值均較低,準確率、召回率、類平均交并比、骰子系數分別為77.43%、66.62%、48.56%、54.74%,其中類平均交并比和Dice系數表現過差,均低于60%,說明原U-Net模型無法準確識別碳化物類型并將它們從背景上分割出來,特征提取能力弱;添加了14個ConvNeXt Block模塊的CN14-Unet模型在各項性能上較原U-Net模型分別提高2.69%、2.66%、3.19%、4.69%,性能優化效果并不顯著;而CN20-Unet模型的改進方式最好,在各項指標上較原U-Net模型分別提高了7.11%、8.79%、8.86%、11.72%,這表明此編碼器結構的復雜程度最適合進行碳化物的特征提取;而當模塊數進一步增多時,CN29-Unet模型的各項性能有所降低,這可能是由于編碼器結構過于復雜,導致了過擬合、梯度爆炸等情況的發生。

表2 不同編碼器結構模型性能對比

圖6是上述4種網絡模型在2張測試集圖像上的分割效果。圖6(b1,b2)是原始U-Net模型的分割效果,可以看出分割邊界不清晰,存在漏分割對象,且分割出的碳化物存在大面積缺失像素,分割效果不佳,說明原模型在該任務上的表現不佳。圖6(c1,c2)是CN14-Unet改進模型,可以看出其分割效果較原模型有一定提高,且漏分割問題有改善,但分割出的碳化物仍存在缺失像素,邊界不清晰,存在形狀與原圖差別大等問題。圖6(d1,d2)是CN20-Unet改進模型,從分割效果對比圖可看出,該改進方案對碳化物的分割情況最好,缺失像素較少,輪廓清晰,且未出現漏分割情況,在本任務上有較好的應用。圖6(e1,e2)是編碼器網絡結構最復雜的改進模型CN29-Unet,此時編碼器的結構復雜程度較高,但其模型分割能力反而下降。這說明在設計編輯器模型時,需要做好結構復雜程度與性能之間的平衡,以達到最佳的分割效果。

圖6 不同U-net編碼器網絡結構模型對碳化物的分割效果圖(a1,a2)原圖;(b1,b2)U-Net;(c1,c2)CN14-Unet;(d1,d2)CN20-Unet;(e1,e2)CN29-UnetFig.6 Effect diagram of carbide segmentation by U-net network with different encoder structures(a1,a2) original image; (b1,b2) U-Net; (c1,c2) CN14-Unet; (d1,d2) CN20-Unet; (e1,e2) CN29-Unet

2.4.2 注意力機制改進試驗

選取最佳的編碼器改進方案CN20-Unet后,采用添加CBAM注意力機制的方式進一步提升模型性能。向語義分割模型中添加注意力機制是一種常用且有效的改進方式,其能起到提升模型準確率、加強模型泛化性能、減少模型計算量、提高可視化性能等作用。

為驗證CBAM注意力機制的有效性,在2.4.1節CN20-Unet模型編碼器的解碼器特征融合操作中不添加或分別添加SE、CA、CBAM 3種注意力機制,進行4種方案的性能對比,結果如表3所示。從表3中可以看出,加入不同類型的注意力機制可以提高模型的表現性能,相比于CN20-Unet,加入注意力機制后的模型具有更高的準確率、召回率、類平均交并比和骰子系數,說明注意力機制對于提升圖像分割性能有一定作用。其中CBAM注意力機制的效果最好,相較不添加注意力機制的CN20-Unet模型,其準確率(91.31%)提高了6.77%,召回率(87.52%)提高了12.11%。同時,CBAM注意力機制的類平均交并比(84.89%)、骰子系數(83.16%)得到大幅提高,相較原始CN20-Unet模型分別提高了27.47%、16.7%。從性能評估上來看,加入CBAM注意力機制后的模型已經能夠較好地完成碳化物分割任務,具備實際應用價值。

表3 不同注意力機制CN20-Unet對模型性能的提升對比

圖7是CN20-Unet中添加不同注意力機制后的模型分割效果圖。其中,圖7(b1,b2)是CN20-Unet的分割效果,在2.4.1節已做出評價分析。圖7 (c1,c2)是加入SE注意力機制后的分割效果,從圖7(c1,c2)中可以看出,分割到的碳化物輪廓更加清晰,漏分割問題得到改善,但該模型對碳化物形狀的把控仍存在一定不足。圖7 (d1,d2)是加入CA注意力機制后的分割效果,此時模型分割效果也較好,但邊界仍存在不連續間斷的情況。圖7(e1,e2)是加入CBAM注意力機制后的分割效果,綜合來看,該注意力機制的改進效果最好,分割出的碳化物基本不存在像素缺失情況,邊界清晰連續,形狀與原圖基本一致,且無漏分割、錯分割問題,說明此模型在針對碳化物分割任務上的表現較好,有一定的實用價值。

圖7 加入不同注意力機制的CN20-Unet網絡模型對碳化物的分割效果圖(a1,a2)原圖;(b1,b2)CN20-Unet;(c1,c2)SE;(d1,d2)CA;(e1,e2)CBAMFig.7 Effect diagram of carbide segmentation by CN20-Unet network model with different attention mechanisms(a1,a2) original image; (b1,b2) CN20-Unet; (c1,c2) SE; (d1,d2) CA; (e1,e2) CBAM

3 結論

1) 提出了一種適用于噴射成形高速鋼碳化物提取的語義分割模型——GSG-Unet,該模型由U-Net模型改進而來。在U-Net的基礎上,采用ConvNeXt-T網絡結構的思路改進了編碼器部分,加強了其特征提取能力,并在編碼-解碼的特征融合過程中加入CBAM注意力機制提高了分割精度和效果。

2) 改進后模型在模型性能評價指標上較原模型有較大提升。具體來說,改進后模型的準確率、召回率、類平均交并比、骰子系數分別為91.31%、87.52%、84.89%、83.16%,較原模型分別提升了13.88%、20.90%、36.33%、28.42%。改進后模型為高速鋼中碳化物的提取及定量分析提供了強有力的支持。

3) 改進后模型在HSF122噴射成形高速鋼中碳化物的提取分割上表現較好,能夠高效準確地對MC和M6C兩種碳化物進行提取。

猜你喜歡
高速鋼碳化物編碼器
改善高碳鉻軸承鋼碳化物均勻性研究
梅鋼1780產線高速鋼軋輥使用維護
含氮半高速鋼冷軋輥材料回火組織轉變研究
Cr12Mo1V1鍛制扁鋼的共晶碳化物研究
基于FPGA的同步機軸角編碼器
基于PRBS檢測的8B/IOB編碼器設計
Nb微合金鋼中碳化物高溫溶解行為研究
JESD204B接口協議中的8B10B編碼器設計
高速鋼熱軋工作輥氧化膜剝落研究
多總線式光電編碼器的設計與應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合