?

改進YOLOX的藥品泡罩鋁箔表面缺陷檢測方法

2022-11-03 02:57胡海濤杜昊晨王素琴朱登明

圖學學報 2022年5期

關鍵詞：鋁箔精度表面

胡海濤，杜昊晨，王素琴，石敏，朱登明

改進YOLOX的藥品泡罩鋁箔表面缺陷檢測方法

胡海濤1，杜昊晨1，王素琴1，石敏1，朱登明2,3

(1. 華北電力大學控制與計算機工程學院，北京 102206；2. 中國科學院計算技術研究所，北京 100190；3. 太倉中科信息技術研究院，江蘇太倉 215400)

藥品泡罩包裝中鋁箔表面包含各種字體和圖案信息，而且鋁箔表面凹凸不平，拍攝中會出現明暗分布不均的情況，可導致缺陷特征和鋁箔表面特征相似度較高。針對YOLOX模型無法更加準確區分缺陷特征和鋁箔表面特征的問題，提出一種改進YOLOX模型的表面缺陷檢測方法。首先，為了使輸入到Prediction網絡的信息更具全局性，需要對Neck網絡中特征圖的全局特征進行分析，于是將Neck網絡的CSP模塊替換成transformer encoder模塊。同時YOLOX模型具有較深的深度，為了有效地提高分類精度，使用Mish激活函數替換Swish激活函數。然后針對缺陷特征和鋁箔表面特征相似導致缺陷區域和背景區域分類困難的問題，在損失函數中引入focal loss。實驗結果表明，改進的模型對鋁箔表面缺陷檢測的mAP為90.17%，比原始的YOLOX模型提高了4.95%，并且改進的模型能夠降低和鋁箔表面特征相似度較高的缺陷誤檢和漏檢的概率。

鋁箔表面；缺陷檢測；YOLOX；transformer編碼器；Mish；focal損失函數

在藥品泡罩包裝過程中，鋁箔表面會出現一些缺陷，比如密封不良、長破損、褶皺、氣泡破損等。鋁箔和塑膜貼合部分會出現點狀的網紋，密封不良的原因是鋁箔和塑膜貼合的過程中發生了密封偏移，即在藥粒位置的鋁箔上出現了和鋁箔表面貼合部分相同的點狀網紋區域，如圖1(a)所示；長破損為鋁箔上細長狀的破損，鋁箔表面較暗的區域和長破損特征很相似，如圖1(b)所示；褶皺為鋁箔和塑膜貼合部分在點狀網紋區域出現的皺起，該類缺陷和鋁箔中間凹陷區域具有相似的特征，如圖1(c)所示；氣泡破損為藥粒位置的鋁箔出現的大范圍破損，該缺陷區域較大，如圖1(d)所示。缺陷特征和背景特征相似度較高的問題給檢測帶來了很大地挑戰。

一些研究者將傳統的機器學習方法應用于藥品泡罩包裝的鋁箔表面缺陷檢測之中，且取得了不錯的效果[1-2]，但使用的數據集未見復雜的字體和圖案信息，且缺陷區域與背景區域特征差異較小，缺陷識別難度較小。當被檢測產品的表面出現各種字體或圖案信息、缺陷區域特征和背景特征相似等問題時，傳統的機器學習方法很難適應這類產品的表面缺陷檢測需求。

隨著深度學習的迅速發展，基于深度學習的目標檢測技術被廣泛應用于工業產品的表面缺陷檢測研究[3-4]?；谏疃葘W習的目標檢測技術在具有復雜紋理結構的圖像上取得了較高地檢測精度，能夠準確地識別和定位缺陷，但是很少有研究者將基于深度學習的目標檢測技術應用在藥品包裝中鋁箔表面缺陷檢測領域。

基于深度學習的目標檢測網絡根據是否生成候選框分為一階段和二階段2種方法。一階段方法直接從圖像中預測物體類別，如FCOS[5]，EfficientDet[6]和YOLO系列等，具有檢測速度較快的優勢；二階段方法將目標檢測分為生成候選框和目標類別識別2部分，如fast R-CNN[7]，SPP-Net[8]和faster R-CNN[9]等，具有檢測精度較高的優勢。GE等[10]將YOLOv3-SPP[11]作為基準網絡并進行改進，提出了YOLOX網絡。YOLOX是典型的一階段目標檢測網絡，具有速度快、精度高的特點，但是在鋁箔表面上和背景特征相似度較高的缺陷檢測中精度較低，不能滿足工業上高精度的要求。因此本文選取了YOLOX網絡，并進行了如下改進：

(1) 在Neck網絡中引入transformer encoder模塊[12]，模塊中的自注意力機制可以將感受野提升為整個特征圖，在更大范圍內學習特征圖的特征。Transformer encoder模塊可以使Prediction網絡獲得更有全局性視野的特征圖，提高了和背景相似度較高的缺陷的檢測效果。

(a) (b) (c) (d)

(2) 引入Mish激活函數[13]。YOLOX網絡中使用了Swish激活函數[14]，與Mish激活函數相比，其能提高模型檢測的準確性。

(3) 在損失函數中引入focal loss[15]，針對樣本中缺陷區域和背景區域分類困難的問題，focal loss可以增加難分類樣本的權重，減少易分類樣本的權重，使得模型在訓練時更專注于難分類的樣本，并能精確地區分檢測區域是否包含缺陷。

1 相關工作

在藥品泡罩包裝缺陷檢測領域，一些研究者采用了傳統的機器學習方法并取得很好的效果。文獻[1]提出了基于四光源光度立體法的鋁箔缺陷檢測方法，提高了藥品泡罩包裝中鋁箔缺陷檢測效率。文獻[2]采用模板匹配方法進行鋁箔印刷品質量檢測，其使用的數據集較本文數據集背景簡單。當檢測圖像背景包含各種字體和圖案信息較為復雜時，傳統的機器學習方法不再適用。

近年來，基于深度學習的目標檢測技術在工業產品的表面缺陷檢測研究上得到了廣泛應用。文獻[3]提出了一種改進YOLOv3的金屬缺陷檢測算法，解決了目標尺寸小和特征不清晰導致漏檢的問題。文獻[4]研究了一種基于ResNeXT-SSD模型的多目標檢測算法，該算法既保證了不額外增加參數復雜度也保證了特征提取網絡的穩定性。在藥品包裝之鋁箔表面缺陷檢測領域中，采用基于深度學習的目標檢測技術進行檢測的工作較少。

在YOLO系列的相關研究中，文獻[10]在YOLOv3-SPP網絡的基礎上進行了大量改進，提出了YOLOX網絡。該網絡共分為3部分：Backbone，Neck和Prediction。Backbone網絡用于提取圖像特征，Neck網絡用于多尺度特征融合，Prediction網絡進行識別和定位。

Backbone部分采用了CBS，Focus，CSP和SPP結構，其中CBS由Conv+BN+Swish 3部分組成，Focus結構采用了切片操作，CSP結構借鑒了CSPNet[16]的網絡結構，由卷積層和個殘差組件拼接組成。SPP結構采用3個不同尺度的最大池化進行處理，實現了多尺度融合。Neck部分使用了FPN[17]和PAN[18]結構，將語義特征和定位特征進行高效融合，進一步提高了特征提取能力。Prediction網絡采用了Decoupled Head，anchor free，Multi positives和SimOTA的方式，Decoupled Head采用多路卷積操作實現對目標的分類和定位，將多路的輸出結果進行拼接得到最終的輸出結果。Anchor free[10]相較anchor based[11]方式大大減少了參數量，且該方式設計的錨框巧妙地將主干網絡中下采樣的信息引入進來。Multi positives方式以目標中心點所在網格的3×3鄰域作為正樣本，該方法可緩解訓練期正負樣本極端不平衡的問題。SimOTA為標簽分配策略，首先設置候選框的數量，然后通過計算真實框和預測框得到的成本函數挑選候選框，最后過濾掉共用的候選框。該策略不僅減少了訓練時間，也提高了模型的檢測精度。

2 本文模型

本文針對鋁箔表面的缺陷特征設計了一種改進YOLOX的缺陷檢測模型，模型總體結構如圖2所示。

2.1 Transformer encoder模塊

CSP模塊雖然增強了CNN的學習能力，但是感受野仍然局限于卷積核的大小，不能兼顧卷積核以外的像素信息。Transformer encoder中的自注意力機制可以將感受野提升為整個特征圖，在更大范圍內分析特征圖的全局特征，因此本文將Neck中的CSP模塊替換為transformer encoder，transformer encoder模塊結構如圖3所示，為了提高計算效率，本文將transformer encoder的數量設為1，Multi-Head Attention中的heads數量為4。

本文采用了Vision transformer的Embedding和encoder部分，首先將特征圖在維度上進行變換，生成維度縮小的embedding序列，將得到的序列輸入到encoder里得到三維的張量，然后將張量擴增至四維并對第一維和第四維進行轉置，最后根據輸出通道數改變轉置后張量的維度。輸入的特征圖維度是[,,,]，其中為樣本數量，為通道數，和分別為特征圖的寬和高。特征圖的維度變化如圖4所示。

Encoder中包括Layernorm[19]，Multi-Head Attention和MLP 3部分，首先將得到的Embedding序列輸入到Layernorm層，得到Q，K，V，將這些值輸入到Multi-Head Attention得到的結果和Embedding序列進行殘差連接，將其結果作為輸入，然后將該輸入經過Layernorm層和MLP模塊得到的結果和輸入進行殘差連接作為最后的輸出結果。其中MLP模塊包含兩層高斯誤差線性單元[20](Gaussian error linear units，GELU)。

圖2 模型結構

圖3 transformer encoder結構

圖4特征圖維度變化

2.2 Mish激活函數

本文模型將CBS模塊中的Swish激活函數替換為Mish激活函數，根據文獻[11]實驗結論，在分類準確率上，Mish激活函數優于Swish激活函數，而且隨著網絡加深，使用Mish激活函數仍然能保持較高的分類準確率，而使用Swish激活函數分類準確率則明顯下降。因此本文將Swish替換為Mish激活函數，即

Mish激活函數如圖5所示。與Swish激活函數相同，Mish激活函數有下界，無上界，避免了網絡訓練時因梯度為零導致的收斂緩慢，同時有利于網絡參數的正則化。

2.3 Focal loss

損失函數可通過計算目標框和正樣本預測框兩者的誤差得到，主要包含：①iou_loss：目標框和真實框的位置信息誤差；②obj_loss：判斷目標框中的對象是缺陷還是背景；③cls_loss：目標框中對象所屬類別的誤差。損失函數即為三部分之和，即

其中，采用的是傳統的iou loss；采用的是focal loss；采用的是BCEWithLogitsLoss。

Focal loss在訓練過程中通過(權重因子)為正負樣本附上權重值，其中正樣本檢測缺陷區域的樣本，負樣本檢測背景區域的樣本。Focal loss還加入調制系數(1-p)以控制難分類和易分類樣本的權重，即

其中，=1為正確預測的樣本；為樣本屬于正確類別的概率。

3 實驗結果與分析

本文實驗運行環境為：處理器是Intel(R) Core(TM) i9-10900K CPU，64 G內存，顯卡是NVIDIA RTX3090 24 G， Ubuntu 20.04 LST 64位操作系統，深度神經網絡在pytorch深度學習框架上搭建，編譯器為pycharm。

3.1 數據集構建

本文所用數據集采集于蘇州某公司生產的泡罩包裝產品，共包含4類缺陷，分別為密封不良(poor_sealing)、長破損(long_damage)、褶皺(fold)和氣泡破損(broken_blister)，共計1 007張，缺陷數量如圖6所示。按照4∶1的比例劃分數據集，其中訓練集有805張，測試集有202張。

圖6 缺陷數量

首先對圖像進行預處理，為了保持原模型的輸入大小，將圖像尺寸從1920×720縮放為640×640。此外對訓練集采用了Mosaic和Mixup[21]2種數據增強方法，增強后的訓練集有2 007張，解決了缺陷樣本數量有限的問題。

Mosaic數據增強方法是隨機選取4張圖像，然后在一個1280×1280大小的畫布中隨機選取一個點，選取比例為[0.5,1.5]，之后按照左上、右上、左下、右下4個順序一次對4張圖像進行拼接。最后將畫布大小裁剪成640×640，該方法大大豐富了訓練數據集，增強效果如圖7所示。

圖7 Mosaic數據增強

Mixup在Mosaic的基礎上增加了一種額外的增強策略，隨機選取2張圖像，然后設置一個融合系數，將縮放后的2張圖像進行隨機加權融合，最終得到融合后的圖像。如圖8所示，圖像的標簽與加權融合之后的結果相對應。計算方法為

其中，l∈[0,1]，xi，xj為原始圖像；yi，yj為圖像標簽編碼；，分別為融合后的圖像及標簽編碼。

3.2 模型訓練

模型使用隨機梯度下降(stochastic gradient descent，SGD)進行訓練，初始學習率設置為0，使用cosine學習機制，權重衰減設置為0.000 5。訓練的batchsize設置為2，訓練迭代400次。

本文采用準確率(precision，P)和召回率(recall，R)計算出的平均精度均值(mean average precision，mAP)作為模型性能的評估指標。mAP是所有缺陷類別平均精度的均值，用來評估檢測模型的整體性能。此外，Accuracy表示模型分類準確率，即

其中，TP(true positive)為被正確預測的正例；TN(true negative)為被正確預測的負例；FP(false positive)為被錯誤預測的正例；FN(false negative)為被錯誤預測的正例。+為所有樣本，為檢測類別數；()為第類缺陷的AP值，即

3.3 實驗對比分析

3.3.1 不同模型結果對比

為了驗證模型的綜合檢測性能，將本文模型與SSD，Efficientdet，Centernet，YOLOv5，Faster R-CNN和YOLOX進行對比，評價指標為4類缺陷的AP值、mAP值和FPS，實驗結果見表1。此外，本文實驗評價指標中的AP，mAP為AP0.50和mAP0.50，即當IoU=0.50時AP和mAP的值。

表1 不同檢測模型的比較

注：加粗數據為最優值

由表1可知，在poor_sealing，long_damage和fold 3類缺陷的檢測精度和所有缺陷的mAP中，本文模型優于其他模型，但對第四類broken_blister缺陷的精度比YOLOv5低0.49%，但相差不大。本文模型的檢測速度雖不及YOLOv5和YOLOX，但優于SSD，Efficientdet，Centernet和Faster R-CNN模型，在實際工業生產中，這種時間差仍在允許范圍內。從實驗結果可知，改進Neck網絡、引入Mish激活函數和focal loss，能夠有效提高鋁箔表面缺陷的檢測精度。對于poor_sealing類，本文模型檢測該類缺陷的AP值比YOLOX提升了3.63%，而long_damage，fold和broken_blister類的AP值分別比YOLOX提升了5.50%，8.57%和2.09%。實驗結果表明本文算法在鋁箔表面缺陷檢測上表現良好，能夠有效提高和背景特征相似度較高的缺陷的檢測精度。圖9為本文模型檢測各類缺陷的P-R曲線，其中陰影部分面積為該類缺陷的檢測精度(AP)。

使用YOLOX模型和本文模型分別對鋁箔表面缺陷進行檢測，如圖10所示。對比圖中原始和改進的YOLOX，可以看出本文模型能夠檢測出所有的缺陷，同時減少了poor_sealing，long_damage，fold，broken_blister誤檢和poor_sealing漏檢情況的發生，表明改進后的模型能有效降低和背景特征相似度較高的缺陷誤、漏檢的概率。

3.3.2 引入transformer encoder模塊

YOLOX模型的Neck網絡部分改進前、后結果見表2。從實驗結果可知，使用transformer encoder模塊之后，4類缺陷的AP值分別提升了0.30%，2.40%，4.98%和2.56%，所有缺陷的mAP值提升了2.56%，說明改進的Neck網絡能夠學習到更全面的特征圖信息，在檢測速度小幅度降低的情況下提高了缺陷的檢測精度。

圖9 不同缺陷類型的P-R曲線((a)密封不良；(b)長破損；(c)褶皺；(d)氣泡破損)

圖10 檢測效果對比((a) Groud truth；(b) YOLOX；(c)改進YOLOX)

表2 Neck網絡改進效果

注：加粗數據為最優值

3.3.3 引入Mish激活函數

表3為改進激活函數前后的實驗結果對比，并增加了分類準確率的對比，即鋁箔表面是否含有缺陷，來評估模型的準確性。從實驗結果可知，改進后所有缺陷的mAP值相比之前提升了3.77%，后三類缺陷分別提升了4.93%，8.60%和2.56%，第一類缺陷的AP值降低了1.02%，分類準確率提升了0.85%，說明改進激活函數在poor_sealing缺陷精度和檢測速度小幅降低的情況下提升了缺陷的檢測精度和分類準確率。

3.3.4 引入focal loss

Focal loss函數中有和2個參數，通過取不同參數值進行對比試驗，實驗結果見表4。從實驗結果可知，當為0.25，為1時，四類缺陷的mAP值最高，因此本文選擇=0.25，=1進行后續實驗。

表3 激活函數改進效果

注：加粗數據為最優值

表4 不同αt，γ取值mAP對比

注：加粗數據為最優值

圖11為和2個參數取不同值時的總體損失曲線圖，可以發現損失值的變化趨勢接近，其中當=0.25，=1時，對應的損失曲線下降幅度介于其他取值時的下降幅度之間，但缺陷的mAP值最高。

表5為改進損失函數前、后的實驗結果對比，從實驗結果可知，使用focal loss之后，后三類缺陷的AP值分別提升了6.17%，8.38%和2.37%，第一類缺陷的AP值降低了0.20%，所有缺陷的mAP值提升了4.18%，說明改進損失函數能夠在poor_sealing缺陷精度和檢測速度小幅度降低的情況下提升缺陷的檢測精度。圖12為obj_loss分別使用BCEWithLogitsLoss和focal loss進行訓練的總損失曲線，可以看出使用focal loss之后損失值明顯減小，而且模型訓練更加穩定，收斂速度更快。

3.3.5 不同策略組合實驗

Transformer encoder模塊、focal loss和Mish激活函數的不同組合也可以提高鋁箔表面缺陷的檢測精度，本文做了多組對比實驗來說明transformer encoder模塊、focal loss和Mish激活函數的多種組合可以在不同程度提高檢測精度，對比結果見表6。

圖11 at，g不同取值下的損失曲線

圖12 訓練總損失曲線

表5 損失函數改進效果

注：加粗數據為最優值

由N1和N4可知，引入focal loss使得前三類缺陷的AP值分別提升了2.99%，0.69%和0.06%，第四類降低了0.47%，所有缺陷的mAP值提升了0.82%，說明該損失函數能夠更加準確地區分缺陷區域和鋁箔表面區域。由N2和N4可知，引入Mish激活函數使得前三類缺陷的AP值分別提升了3.87%，1.52%和2.43%，第四類缺陷的AP值降低了0.20%，所有缺陷的mAP值提升了1.90%，說明該激活函數能夠在一定程度上提高分類精度。由N3和N4可以得知，引入transformer encoder模塊使得前三類缺陷的AP值分別提升了2.98%，3.62%和0.50%，第四類缺陷的AP值降低了0.57%，所有缺陷的mAP值提升了1.63%，說明該模塊通過分析特征圖的全局特征能夠有效區分缺陷特征和鋁箔表面特征。

由以上分析可知，引入transformer encoder和Mish激活函數和focal loss可以在broken_blister缺陷精度小幅度降低的情況下有效提升和背景特征相似度較高的缺陷檢測精度。

3.3.6 泛化性驗證

為了驗證本文模型的泛化性，采用了從江蘇某公司生產的藥品泡罩包裝產品中采集的數據進行實驗。

數據集中的缺陷包括鋁箔壓壞(crush)、破損(damage)、圓點(dot)、臟污(dirty)，鋁箔壓壞和破損是在鋁箔熱封過程中由于設備振動擠壓藥片導致的，圓點和臟污是在鋁箔生產過程中出現的。鋁箔壓壞出現在藥粒區域，具有和點狀網紋區域相似的特征，如圖13(a)所示；破損多出現在印字區域，具有和該區域相似的特征，如圖13(b)所示；圓點為藥粒區域上的小凹坑，具有和該區域相似的特征，如圖13(c)所示；臟污為深褐色印跡，多出現在鋁箔表面的字體、網紋和藥粒區域上，具有和這些區域相似的特征，如圖13(d)所示。由此可知，該數據集同樣存在缺陷特征和鋁箔表面特征相似度較高的問題。

表6 不同策略組合實驗

注：N1～N4為加入不同改進策略的檢測模型

圖13 鋁箔表面缺陷((a)鋁箔壓壞；(b)破損；(c)圓點；(d)臟污)

該數據集共計有905張圖片，缺陷數量如圖14所示。按照4∶1的比例劃分數據集，其中訓練集有724張，測試集有181張。圖像分辨率為3000×3000像素，首先將圖像縮放至640×640大小，然后對訓練集進行了Mosaic和Mixup[21]數據增強，增強后的訓練集有1 810張。

在實驗環境和模型參數設置不變的情況下，將本文模型與SSD，Efficientdet，Centernet，YOLOv5，Faster R-CNN和YOLOX進行對比，實驗結果見表7。從表中可知，針對四類缺陷的AP值和所有缺陷的mAP值，本文模型均高于其他模型，檢測速度略慢于YOLOv5和YOLOX，但仍可滿足工業生產實時性的要求。實驗結果顯示本文模型在吳中醫藥數據集上表現良好，說明本文模型具有較好的泛化性。

使用YOLOX模型和本文模型分別對吳中醫藥的數據進行檢測，結果如圖15所示。從圖中可以看出，本文模型能夠減少crush，damage，dot和dirty誤檢情況的發生，說明本文模型能夠更加準確地檢測出缺陷。

圖14 缺陷數量

表7 不同檢測模型的比較

注：加粗數據為最優值

圖15 檢測效果對比

4 結論

為了解決藥品泡罩包裝中鋁箔表面缺陷特征和鋁箔表面特征相似度較高，本文提出了一種改進YOLOX模型的鋁箔表面缺陷檢測模型。首先將Neck網絡的CSP模塊替換成transformer encoder模塊，以此提高感受野的范圍，使得Prediction網絡可以獲得更全面的信息。其次使用Mish激活函數替換Swish激活函數，可以有效地防止過擬合，提高網絡的魯棒性。此外在損失函數中引入focal loss能夠使模型更加精確地區分檢測區域是否為缺陷區域。實驗結果表明，改進的模型提高了檢測精度，而且改進的模型能夠降低和鋁箔表面特征相似度較高的缺陷的誤檢和漏檢的概率。雖然檢測速度相比改進前有所增加，但是仍然能夠滿足工業生產上實時檢測的需求。本文算法的不足是針對面積特別小的缺陷檢測精度仍然較低，后續可進一步改進網絡，增強對面積特別小的缺陷的特征提取能力。

[1] 黃秀玲, 陸宏建, 任超, 等. 基于四光源光度立體法的藥品泡罩包裝中鋁箔缺陷檢測方法[J]. 包裝學報, 2018, 10(3): 47-51.

HUANG X L, LU H J, REN C, et al. The method of aluminum foil defect detection in medicine packaging based on four-light photometric stereo method[J]. Packaging Journal, 2018, 10(3): 47-51 (in Chinese).

[2] 姚爽, 韓震宇, 馬鵬, 等. 基于機器視覺的藥用鋁箔印刷品質檢測系統[J]. 計測技術, 2016, 36(4): 17-21.

YAO S, HAN Z Y, MA P, et al. Print quality detection system for medicinal aluminum foil based on machine vision[J]. Metrology & Measurement Technology, 2016, 36(4): 17-21 (in Chinese).

[3] 程婧怡, 段先華, 朱偉. 改進YOLOv3的金屬表面缺陷檢測研究[J]. 計算機工程與應用, 2021, 57(19): 252-258.

CHENG J Y, DUAN X H, ZHU W. Research on metal surface defect detection by improved YOLOv3[J]. Computer Engineering and Applications, 2021, 57(19): 252-258 (in Chinese).

[4] 陳婉琴, 唐清善. 基于ResNeXt-SSD的多目標缺陷檢測算法[J]. 信息技術與信息化, 2021(6): 72-74.

CHEN W Q, TANG Q S. Multi-target defect detection algorithm based on ResNeXt-SSD[J]. Information Technology and Informatization, 2021(6): 72-74 (in Chinese).

[5] TIAN Z, SHEN C H, CHEN H, et al. FCOS: fully convolutional one-stage object detection[C]//2019 IEEE/CVF International Conference on Computer Vision. New York: IEEE Press, 2019: 9626-9635.

[6] TAN M X, PANG R M, LE Q V. EfficientDet: scalable and efficient object detection[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 10778-10787.

[7] GIRSHICK R. Fast R-CNN[EB/OL]. (2015-9-27) [2021-12- 12]. https://arxiv.org/abs/1504.08083v2.

[8] HE K, ZHANG X, REN S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916.

[9] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

[10] GE Z, LIU S T, WANG F, et al. YOLOX: exceeding YOLO series in 2021 [EB/OL]. (2021-08-06) [2021-12-12]. https://arxiv. org/abs/2107.08430.

[11] REDMON J, FARHADI A. YOLOv3: an incremental improvement[EB/OL]. (2018-04-08) [2021-12-15]. https:// arxiv.org/abs/1804.02767.

[12] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: transformers for image recognition at scale [EB/OL]. (2021-06-03) [2021-12-20]. https://arxiv.org/abs/2010.11929.

[13] MISRA D.Mish: a self regularized non-monotonic neural activation function[EB/OL]. (2019-08-23) [2021-12-20]. https://arxiv.org/abs/1908.08681.

[14] RAMACHANDRAN P, ZOPH B, LE Q V. Searching for activationfunctions[EB/OL]. (2017-10-16) [2021-12-20]. https://arxiv.org/abs/1710.05941.

[15] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal Loss for Dense Object Detection[EB/OL]. (2018-02-07) [2021-12-20]. https://arxiv.org/abs/1708.02002.

[16] WANG C Y, MARK LIAO H Y, WU Y H, et al. CSPNet: a new backbone that can enhance learning capability of CNN[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. New York: IEEE Press, 2020: 1571-1580.

[17] LIN T Y, DOLLáR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 936-944.

[18] LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 8759-8768.

[19] BA J L, KIROS J R, HINTON G E. Layer normalization[EB/OL]. (2016-07-21) [2022-01-10]. https://arxiv.org/abs/1607.06450.

[20] HENDRYCKS D, GIMPEL K. Gaussian error linear units (gelus)[EB/OL]. (2016-06-27) [2022-01-10]. https://arxiv.org/ abs/1606.08415.

[21] ZHANG H Y, CISSE M, DAUPHIN Y N, et al. Mixup: beyond empirical risk minimization[EB/OL]. (2018-04-27) [2022-01-15].https://arxiv.org/abs/1710.09412.

Improved YOLOX method for detecting surface defects of drug blister aluminum foil

HU Hai-tao1, DU Hao-chen1, WANG Su-qin1, SHI Min1, ZHU Deng-ming2,3

(1. College of Control and Computer Engineering, North China Electric Power University, Beijing 102206, China; 2. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China; 3. Taicang Institute of Information Technology, Taicang Jiangsu 215400, China)

The surface of aluminum foil in drug blister packaging contains various information on fonts and patterns, and the surface of aluminum foil is uneven, leading to the uneven distribution of light and dark. To address the problem that the YOLOX model cannot more accurately distinguish the defect features from the surface features of aluminum foil, a surface defect detection method based on the improved YOLOX model was proposed. Firstly, in order to enhance the globality of the information input to the Prediction, it was necessary to analyze the global features of the feature map in the Neck network,so the CSP module of the Neck network was replaced with the transformer encoder module. At the same time, the YOLOX model has a deep depth, and to effectively improve the classification accuracy, the Mish activation function was utilized to replace the Swish activation function. Then, focal loss was introduced into the loss function to solve the problem of difficulty in classifying defect regions and background regions due to the similarity of defect features and aluminum foil surface features. The experimental results show that the mAP of the improved model for the detection of aluminum foil surface defects was 90.17%, which was 4.95% higher than the original YOLOX model,and that the improved model can reduce the probability of false detection and missed detection of defects with high similarity to the surface features of aluminum foil.

aluminum foil surface; defect detection; YOLOX; transformer encoder; Mish; focal loss

TP 391

10.11996/JG.j.2095-302X.2022050803

A

2095-302X(2022)05-0803-12

2022-02-13；

2022-07-05

13 February，2022；

5 July，2022

國家自然科學基金項目(61972379)；國家重點研發計劃課題(2020YFB1710400)

National Natural Science Foundation of China (61972379); National Key Research and Development Plan Subject (2020YFB1710400)

胡海濤(1973-)，男，副教授，博士。主要研究方向為大數據分析、軟件架構技術等。E-mail：huhaitao@ncepu.edu.cn

HU Hai-tao (1973-), associate professor, Ph.D. His main research interests cover big data analysis, software architecture technology, etc. E-mail：huhaitao@ncepu.edu.cn

石敏(1975-)，女，副教授，博士。主要研究方向為計算機視覺、虛擬現實等。E-mail：shi_min@ncepu.edu.cn

SHI Min (1975-), associate professor, Ph.D. Her main research interests cover computer vision, virtual reality, etc. E-mail：shi_min@ncepu.edu.cn

猜你喜歡

鋁箔精度表面

電池鋁箔今明兩年有望維持緊平衡

鋁加工(2022年4期)2022-11-24

熱連軋機組粗軋機精度控制

一重技術(2021年5期)2022-01-18

鋁箔柔軟度的測試方法及其影響因素研究

輕合金加工技術(2021年9期)2021-12-28

太陽表面平靜嗎

小學閱讀指南·低年級版(2020年11期)2020-11-16

超高精度計時器——原子鐘

中學生數理化·八年級物理人教版(2019年9期)2019-11-25

分析誤差提精度

中學生數理化·八年級物理人教版(2019年12期)2019-05-21

基于DSPIC33F微處理器的采集精度的提高

電子制作(2018年11期)2018-08-04

誰的拉伸強度大

少兒科學周刊·少年版(2015年9期)2015-11-03

3.《黑洞表面》（英/美）等

新青年(2015年2期)2015-05-26

意林(2014年17期)2014-09-23

圖學學報2022年5期

圖學學報的其它文章: 基于小樣本不均衡數據的供水管道泄漏智能檢測算法; 特征自適應過濾的視網膜病變分級算法; 基于優化YOLOv5s的跌倒人物目標檢測方法; 功能-行為-結構(FBS)模型方法研究綜述; 基于YOLOv5s融合SENet的車輛目標檢測技術研究; 基于全局時空編碼網絡的猴類動物行為識別

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合