?

面向設備開關圖像識別的改進Faster R-CNN①

2022-11-07 09:07宋旭峰蔣夢姣周怡伶吉俊杰陸曉翔
計算機系統應用 2022年10期
關鍵詞:殘差卷積聚類

宋旭峰,蔣夢姣,周怡伶,吉俊杰,陸曉翔

1(國網新源控股有限公司,北京 100032)

2(華東宜興抽水蓄能有限公司,宜興 214200)

3(河海大學 計算機與信息學院,南京 211100)

在大型工業廠房中,通常部署著各種各樣的機械電子設備,設備控制所涉及的開關種類繁多、數量龐大,給日常的運行維護工作帶來挑戰,例如抽水蓄能電站、光伏發電站等.在日常的運維過程中,工作人員需要在復雜的環境下對各種設備上眾多的開關進行操作和檢查,保證開關狀態的正確性,確保工廠安全穩定地運行.

以抽水蓄能電站為例,作為電力系統中的重要的電力來源,抽水蓄能電站在電力調峰、調壓調相、事故備用等方面發揮著重要作用.因此,安全穩定地運行、持續可靠地供電對于抽水蓄能電站至關重要[1,2].日常運維監管作為抽水蓄能電站安全生產與管理的重要手段,對抽水蓄能電站機組設備的檢修維護、實時監督、狀態評估與預測等各個方面均有重要作用[3].然而,抽水蓄能電站工況多、維護操作復雜的特點加大了監管的難度,傳統完全依賴人工監督的方式對于運行維護和突發事件的處置是不完全可靠的,一旦錯誤操作沒能及時發現與糾正,將會造成設備損壞和人員傷亡的嚴重后果,同時影響下游電力用戶的生產和生活.

因此,為了有效監控上述場景下的人工運維過程,本文引入基于深度學習的圖像識別技術來智能化地輔助操作人員判別機組設備的開關狀態,確保操作結果的正確性.

對于設備開關狀態的識別問題,目前已有一些研究工作.主要分為如下3 類.

第1 類是基于傳統數字圖像處理的形態學與特征分析[4-10],比如周凱等人[4]提出一種基于非下采樣剪切波變換(NSST)圖像融合的開關圖像識別方法,胡聰等人[6]提出利用粒子群優化算法對圖像進行分割.這種基于傳統圖像處理技術的方法容易受到操作環境的影響,只能局限于固定的操作場景.

第2 類是基于傳統機器學習的模式識別方法[11-13],比如黃釗鵬[11]提出利用圖像處理的相關方法,冷從林[12]提出基于SVM 的開關狀態識別算法.這類方法的缺點在于圖像特征需要人為定義和提取,一方面提出的特征必須適用于開關的分類,否則會影響分類的效果,另一方面這種特征提取方法很難遷移到其他領域.

第3 類則是基于深度學習的圖像處理算法[14-21].比如史夢安等人[14]提出基于YOLO-tiny-RFB 模型的電站旋鈕開關狀態識別方法,楊雨等人[15]提出基于YOLOv5 的變電站薄厚硬壓板檢測技術,李巖等人[16]、蘇楊等人[17]提出通過卷積神經網絡識別開關狀態,鄧樂武等人[18]提出了基于深度學習的座艙開關識別方法,高露[19]、Khan[20]、張禮波等人[21]通過數據增強、特征融合和候選框的設計改進Faster R-CNN 模型.上述方法均是針對單一的開關類型,只能應用到相近的領域,限制了方法的普適性.

相較于上述文獻中所述的設備開關操作場景,本文研究的操作場景更加復雜,具體表現為設備控制所涉及的開關種類繁多、同類開關形狀與大小也各異.從開關的類型及其狀態劃分,總共分為18 類開關,36 種開關狀態; 從圖像數據分析,圖像中的開關密集分布,形狀相似,數量較多.這些都給開關識別帶來了很大的困難.針對這些挑戰,本文提出了一種面向設備開關狀態識別的改進的Faster R-CNN.

相比于原始Faster R-CNN[22],改進之處在于以下4 點: 選擇殘差網絡為基礎網絡,將該網絡中卷積層的殘差塊改為多分支膨脹卷積殘差塊,融合不同感受野的信息; 在原特征金字塔網絡[23]的基礎上新增一條自底向上特征融合的分支,讓塔頂的特征圖擁有底層特征圖的細節信息; 根據開關尺寸信息,聚類出適合開關數據集的候選框尺寸; 使用Soft-NMS 替代原來的NMS算法.試驗表明,改進模型在精度上優于YOLO[24]、SSD[25]等常用的目標檢測模型,在開關狀態數據集上比傳統的Faster R-CNN 檢測精度提升了約7%.此外,該算法已實際應用于抽水蓄能電站日常運維的設備開關狀態輔助識別,實踐表明可以滿足這一復雜場景下的智能監管需求.

1 基于改進Faster R-CNN 的設備開關狀態識別

相比傳統的工廠,抽水蓄能電站部署的機械電子設備更多,設備控制所涉及的開關種類繁多、數量龐大,更加符合本文研究的復雜場景,所以,以抽水蓄能電站為例,研究開關狀態的識別問題.

本文的實驗數據主要來自華東地區某抽水蓄能電站,通過對抽水蓄能電站日常操作視頻的抽幀,剔除走動、模糊數據,圖像增強等技術構建圖像數據集.經過圖像的分析和專家提供的信息,將開關一共分為18 種,每種開關雖然有多個狀態,但是日常操作僅涉及2 種狀態,所以每種開關均設置2 種狀態.18 種開關用1 到18 的整數編號,同時為了圖像標注方便,將“關”“off”“拉開”“現地”“Local”這類開關狀態統一記為0,將“開”“on”“合上”“遠程”“Auto”記為1.部分開關的狀態如表1 所示.

表1 部分開關類型和狀態

除了上述開關類型及狀態較多的問題之外,還存在以下的難點問題:

(1)在不同的設備上存在形狀相似的開關.

(2)單張圖像中存在密集排列且眾多的小型開關.

(3)不同設備上開關的大小不一樣.

這些問題的處理都直接影響到開關的整體識別結果.

針對上述問題,本文提出了改進的Faster R-CNN.針對問題(1),在ResNet50 中加入多分支膨脹卷積,融合不同感受野的信息,提取更加明顯的特征,便于區分相似的開關; 針對問題(2),改進了特征金字塔網絡,新增一條自底向上的特征增強分支,融合不同尺度的信息,提高對于密集型開關和小型開關的識別能力; 針對問題(3),用K-means++算法[26]對設備開關的邊界框進行聚類,設計出適合開關狀態數據集的RPN 候選框尺寸,能夠檢測出不同形狀的開關; 最后,使用Soft-NMS替代原RPN 的NMS,提升抑制重疊候選框的效果,提高候選框選擇的正確率; 改進后模型整體結構如圖1所示.

圖1 最左側為提出的膨脹殘差網絡,將C3、C4、C5 卷積模塊中最后一個殘差塊變為多分支膨脹卷積;T2、T3、T4、T5 為原特征金字塔網絡多尺度融合輸出的特征圖,D2、D3、D4、D5 為新增的自底向上特征融合分支的輸出特征圖; P2、P3、P4、P5 為改進后的特征金字塔網絡輸出的多尺度特征圖.將這些特征圖送入RPN 中,根據K-means++算法選出的候選框進行目標檢測; 最后,將每個特征矩陣通過ROI pooling層縮放到7×7 大小的特征圖,接著通過一系列全連接層分類回歸,最終通過多次訓練達到預期效果.

圖1 改進Faster R-CNN 整體模型結構

如圖1 所示,Faster R-CNN 的損失主要包括RPN損失和ROI 損失,損失函數如下:

其中,i是批量數據中anchor 框的序號,pi為anchor 預測為目標的概率,p*i是真實的標簽信息(在RPN 損失中是二分類,在ROI 損失中是多分類);表示預測框的位置信息,t*表示目標框的位置信息;表示目標和非目標的對數損失,針對二分類問題,形式如下:是回歸損失,一般采用smooth L1 函數計算,形式如下:

RPN 損失包括分類損失和回歸損失,分類損失是二分類交叉熵損失,回歸損失是對anchor 的位置進行回歸微調.ROI 損失和RPN 損失相似,不同的是,ROI的分類損失是多分類交叉熵損失,ROI 的回歸損失是對ROI 的位置進行回歸微調.

1.1 膨脹卷積殘差網絡

在真實抽水蓄能電站操作場景中,某些設備的開關排列較為密集,如果拍攝角度偏離設備,那么一些開關的部分圖像信息會被其他開關遮擋,沒有明顯分隔邊界.開關狀態識別任務中開關種類有18 種,部分類型開關的圖像相似,如圖2 所示,3 種開關外觀相似,導致開關狀態在語義上很難有統一且清晰的定義.因此現有的深度模型要實現這樣的深層語義理解是十分困難的.

圖2 3 種開關及其狀態

卷積神經網絡在處理圖像特征圖時,為了提高網絡訓練效率,會在一些卷積層后使用下采樣操作,但是下采樣會丟失很多空間語義信息和細節信息,因此在層數較深的網絡模型中,深層網絡會失去很多淺層網絡的空間語義信息,ResNet[27]中引入捷徑的目的就是將淺層網絡的空間信息能夠傳遞到深層網絡,提高了淺層信息的利用率.開關圖像識別需要提取更多細節信息,所以本文使用殘差網絡ResNet50 作為骨干網絡來取代傳統的VGG16 網絡[28],網絡參數如表2 所示.網絡在卷積conv5 輸出之后,再通過1×1 的卷積實現通道聚合,降低參數量,最后通過全連接層實現分類.

表2 ResNet50 網絡結構

在深度網絡中,特征圖空間信息的丟失容易導致小目標信息的丟失.目前,這類問題無法完全解決,但是可以使用膨脹卷積[29]在不改變卷積核大小的情況下,通過改變擴張率(dilated rate)擴大感受野[30]來緩解上述問題.卷積核被膨脹卷積處理后感受野大小的計算公式為:

其中,n為膨脹卷積后感受野,k為原始卷積核大小,例如卷積核大小為3×3,k就是3,r為擴張率.

圖3 分別表示一個3×3 的卷積核在r取1、2、4時的感受野.圖3(a)的卷積核的擴張率r取1,卷積核感受野沒有變化,依然為3×3.圖3(b)的擴張率r取2,感受野擴大為7×7,由于空洞中填充的是0,不參與實際的計算,所以計算量沒有改變.圖3(c)的擴張率r取4,感受野擴大為15×15.

圖3 3 種擴張率下卷積核的感受野

特征圖經過膨脹卷積處理后大小變為:

其中,W為輸入特征圖的大小(寬或高),p為padding值,s為步長stride.

使用膨脹卷積不可避免地出現網格效應(gridding effect)[31],即膨脹卷積的卷積核在滑動時覆蓋到的有效區域呈現網格狀,丟失臨近點的有關信息,擴張率r越大這種問題越嚴重.所以,既要擴大感受野,又要降低網格效應的影響,本文采用綜合多個擴張率的膨脹卷積方式,在感受野擴大的同時,減少信息的丟失.具體方法是將一組不同擴張率的卷積進行并聯,均處理相同輸入的特征圖,把各個膨脹卷積輸出的特征信息融合在一起,那么多分支膨脹卷積模塊的最終輸出可以包含不同尺度、不同感受野的信息,小擴張率的卷積核提取小型開關目標的局部特征,大擴張率卷積核提取中、大型開關目標的局部特征.

圖4 展示了多分支膨脹卷積模塊,圖中模塊一共設置了3 條分支,擴張率分別為1、2、3,并將3 條分支輸出相融合.圖5 是對不同擴張率膨脹卷積輸出特征圖的融合,左側從上到下分別是擴張率為1、2、3 的膨脹卷積,右側為輸出的融合后的特征圖.

圖4 多分支膨脹卷積模塊圖

圖5 多分支特征圖的融合

Faster R-CNN 模型的基礎網絡使用的是ResNet50,具體參數見表2.在ResNet50 基礎上使用膨脹卷積進行改進,主要是將殘差塊中的3×3 普通卷積變為3×3的多分支膨脹卷積,改進前后對比如圖6 所示.

圖6 殘差塊改進前后對比

使用膨脹殘差網絡能夠在不擴大卷積核尺寸的基礎上擴大感受野,同時減少丟失的信息.不同尺度的目標能夠在不同的感受野下提取特征,豐富了殘差塊輸出特征圖的信息,同時也能夠讓小型開關目標在深層特征中有豐富的語義信息.而且,各個膨脹卷積分支之間權值共享,相較于原始殘差塊計算量不會增加,同時可根據不同的數據集調整多分支膨脹卷積殘差塊在卷積網絡中的位置來獲得適合數據集的網絡模型.

1.2 改進特征金字塔網絡

卷積神經網絡在特征提取時,底層網絡提取的是圖像的細節信息,層數越深的網絡提取的特征越抽象.圖7 是包含多個開關的設備圖像,由于拍攝距離較遠,所以圖像中開關的面積較小.

使用訓練好的ResNet50 對圖7 進行特征提取,并給出具有代表性的4 個卷積層輸出的特征圖,這些特征圖如圖8 所示.

圖7 多個開關的設備圖像

圖8 中越亮的地方,訓練時網絡越會關注,從圖8(a)和圖8(b)可知,淺層網絡較關注圖像的紋理和細節信息,圖8(d)的特征圖已經很抽象了,看不出開關的細節.

圖8 各卷積層輸出的特征圖

由第2.2.2 節可知,在拍攝距離較遠的情況下,一些小型開關在圖像中較小,此時開關目標的檢測和識別對細節信息要求較高.然而部分開關是中型的,也有大型開關,例如大閥門、閘刀等,需要兼顧高層的語義信息.所以特征提取網絡既要保留底層細節信息,還要兼顧高層語義信息.因此在膨脹卷積殘差網絡上加入特征金字塔網絡,融合多維信息特征進行開關狀態的檢測和識別.

圖9 所展示的是特征金字塔網絡結構,該結構一共兩個分支,左側自底向上的分支為特征提取,不斷下采樣輸出多個尺度特征,每一個方框都是一個尺度的特征圖,右邊分支的高層特征不斷進行2 倍上采樣.這種結構融合了高層特征和底層特征,讓每個尺度的特征圖都有豐富的語義信息.原Faster R-CNN 模型使用單一的特征提取網絡,如VGG-16、ResNet 等,僅在網絡輸出層做預測,由于特征提取網絡的卷積層較多,在卷積過程中丟失底層語義信息,不利于小目標開關的檢測.使用FPN 后,可以在底層輸出的融合特征圖上進預測,有利于關注細節信息的小目標開關的檢測.

圖9 多尺度特征金字塔網絡結構

但是特征金字塔網絡多尺度融合的特征圖中只有金字塔底部包含底層信息較多[32],頂部的特征圖經過多次卷積后已經丟失了很多底層信息,特征融合只是自頂向下融合,讓下層擁有上層的特征信息.為了解決這個問題,對FPN 結構進行改進,在原FPN 右側分支增加一個自底向上的特征增強分支,更加充分地融合高層和底層的語義信息,讓高層特征圖也有底層語義信息,改進后的FPN 模型結構如圖10 所示.

圖10 改進的多尺度特征金字塔網絡

FPN 改進后,因為從特征提取網絡的底層到特征增強分支頂層路徑上較短,卷積操作較少,所以在特征融合過程中底層信息丟失較少,特征增強分支的各尺度均含有底層信息.改進后的FPN,各層所包含的語義信息要比原始網絡多,尤其是底層以上的各層均含有更豐富的底層信息,更加有利于小型開關目標的檢測與識別.

1.3 基于K-means++的候選框尺寸設計

在目標檢測中,合適的候選框尺寸將決定最后分類回歸的效果.因為開關狀態數據集與公開的目標檢測數據集存在很大差別,主要表現在開關的形狀相似,分布密集.所以Faster R-CNN 原模型中的候選框尺寸不一定適合開關狀態識別任務,因此需要根據所有開關的真實邊界框尺寸來合理設計候選框大小和長寬比例.

本文使用K-means++聚類算法對開關的真實邊界框大小和寬高聚類,得到更適合開關的候選框尺寸,使模型候選框的尺寸與真實邊界框盡量吻合.

為了評估K-means++聚類的效果,使用輪廓系數(Silhouette coefficient,SC)作為開關真實邊界框的聚類評價指標,SC可以同時考慮簇內凝聚度和簇間分離度兩方面,從不同的K中選擇最優的結果.假設第i個樣本與同簇內其他樣本的平均距離為ai,到其他簇Cj的所有樣本的平均距離為bij,設bi={bi1,bi2,···,biK};ai衡量簇內凝聚度,bi衡量簇間分離度,根據ai、bi定義第i個樣本的輪廓系數SCi,如式(3)所示:

ai比bi越小,SCi的值越接近于1,表示樣本聚類越合理,反之SCi接近于-1,則表明樣本i與其他簇的樣本更相似,如果接近于0,說明樣本i在兩個簇邊界.數據集內所有樣本的SCi的平均值就是在取K時聚類算法的輪 廓系數SC,公式如下:

其中,n為開關目標總數.

K-means++聚類實驗前要先設置K的值,根據標注開關的經驗預測為K在3 到6 之間,實驗嘗試了K取3 到12,使用SC作為評價指標,其結果如圖11 所示.

圖11 不同K 值情況下的SC 值

由圖11 知K取4 時達到最佳效果,最高的SC值為0.636 94,K取4 也在經驗預測的范圍內.圖12 展示了K取3 到6 的實驗結果圖.

圖12 K-means++算法取不同K 值時的聚類結果

圖12(b)為最佳聚類效果,4 個簇的聚類中心分別為(135,153)、(56,68)、(535,238)、(363,512),不難發現,聚類中心(135,153)密集程度最高,聚類中心(363,512)密集程度最低.因此,對于開關狀態的識別可以更加關注中小型目標.計算4 個聚類中心點代表的面積,分別為: 20 655、3 808、127 330、185 856,對這些面積開平方取近似值得: 144、62、357、431,計算聚類中心橫縱坐標之比也是寬高比取近似值得:(1:1.2)、(1:1.2)、(1:0.5)、(1:1.5).最終,本文候選框大小為62×62、144×144、357×357、431×431,寬高比設置為(1:1.2)、(1:0.5)、(1:1.5).

1.4 Soft-NMS 抑制重疊候選框

本文模型在檢測開關時,由于特征圖的每個滑動窗口上都會生成多個候選框,所以相鄰的窗口會有多個候選框交叉重疊,使用非極大值抑制算法(non-maximum suppression,NMS)抑制候選框,刪去重疊的多余的候選框,找到檢測效果最佳的候選框,從而提高模型性能.NMS 算法使用前后的檢測窗口變化如圖13 所示.

從圖13(a)可以看出,在對采集到的開關圖像進行檢測時,開關上有很多交叉重疊的候選窗口,但并不是所有窗口都可以完整地包含目標開關,多數窗口只能檢測到一部分.此時,使用NMS 算法從圖13(a)中的候選框中選擇最優的窗口,如圖13(b)所示,這樣可以提高開關檢測的準確度,模型效果也會更好.

圖13 使用NMS 前后候選框圖示結果

假設某張圖像在檢測過程中,圖像內的一個開關上生成了n個 候選框,將候選框集合記為B={B1,B2,···,Bn},候選框對應的得分集合記為S={S1,S2,···,Sn},得分是候選框內有目標的概率大小,Si的計算公式如下:

其中,IoU為兩個候選框的交并比.

顯然,從式(5)中發現,NMS 算法會直接丟棄所有超過閾值p的候選框,導致相鄰的候選框的分數為0.如果相鄰候選框內含有類似大小的目標,那么兩個候選框IoU可能會高于p,相鄰目標的檢測會丟失一個目標候選框.

針對NMS 暴力抑制候選框的問題,本文使用了改進的非極大值抑制算法Soft-NMS[33].Soft-NMS 提出了兩種對候選框分數的加權,分別為線性加權和高斯加權,本文采用高斯加權方式,如式(6)所示.

2 實驗與結果分析

2.1 實驗設計

實驗所使用的數據集是第1 節中經過數據增強的設備開關狀態數據集,一共1 644 張圖像,開關約有3 600 個,分為18 種開關36 類狀態.以7:3 的比例劃分訓練集與測試集,訓練集1 151 張圖像,測試集493 張圖像.

在參數設置方面,優化器選擇SGD,學習率lr 設置為0.005,衰減系數weight_decay 設置為0.000 5,動量參數momentum 設置為0.9,批大小batch_size 設置為2,迭代次數epoch 設置為50 次.

在抽水蓄能電站真實的操作場景下,本文對目標檢測模型Faster R-CNN 進行了4 個方面的改進,分別為:設計了膨脹殘差網絡作為骨干網絡、使用改進后的特征金字塔網絡進行多尺度信息融合、使用K-means++算法聚類出后候選框尺寸、使用Soft-NMS 代替NMS.為了驗證改進的有效性,設計了以下5 組對比試驗:

(1)不同多分支膨脹卷積使用策略的對比實驗: 先驗證膨脹卷積對提升識別效果的有效性,然后對膨脹卷積的層組合進行實驗,得出最合適的膨脹卷積的層組合.

(2)特征金字塔結構改進前后的對比實驗: 使用膨脹殘差網絡作為骨干網絡,對比加FPN 與不加FPN 模型測試效果.

(3)使用原模型的候選框尺寸與K-means++算法聚類出的候選框之間的對比實驗: 驗證設計的候選框尺寸可以提升模型精度.

(4)Soft-NMS 與NMS 的對比實驗: 使用兩種篩選候選框的算法,測試最終模型效果.

(5)本文模型與其他目標檢測模型之間的對比實驗: 將改進后的Faster R-CNN 與原Faster R-CNN 模型、SSD、YOLO 進行實驗對比,原模型特征提取網絡均使用VGG16.該組實驗主要是為了驗證改進的有效性且將改進的Faster R-CNN 與其他目標檢測算法進行對比實驗.

衡量一個目標檢測模型的精準度需要一些評價指標來表示,對于目標檢測模型,常用的度量方法有精確率、召回率、平均精度、均值平均精度、交并比等.

(1)精確率(Precision)

精確率表示檢測出開關并正確識別出的開關狀態的數量占測試集中所有識別出的開關狀態的比例,簡記為P,計算公式如下:

其中,TP是檢測出開關并正確識別出開關狀態的數量,FP是檢測出開關但識別狀態錯誤的數量.

(2)召回率(Recall)

召回率表示正確檢測出的開關數量占測試集中所有開關總數的比例,簡記為R,計算公式如下:

其中,TP是檢測出開關狀態的數量,FN是沒有檢測出開關的數量.

(3)F1 分數(F1score)

F1 分數是Precision和Recall的調和平均值,簡記為F1,公式如下:

(4)準確率(Accuracy)

一般用來評估模型的全局準確程度,簡記為Acc,計算公式如下:

其中,TP是檢測出開關并正確識別出?開關狀態的數量,TN表示檢測出非開關狀態的數量,表示所有類開關的數量之和.

(5)平均精度(average precision,AP)

平均精度AP常被用來衡量模型對某一單個類別的檢測精度.事實上,AP是P-R曲線下的面積,也就是單個類別圖像的精度Precision和所有圖像數量的比值,通常AP越高,表示模型對這個類別的檢測性能就越好.單個開關狀態AP的公式如下:

其中,APswitch表示單個類別開關狀態的平均精度,是這一類別開關狀態的精度和,Ntotal是單個類別開關的總數量.

(6)均值平均精度(mean average precision,mAP)

均值平均精度mAP,它用來衡量模型某類圖像的檢測精度.通常mAP的值越高,表示此模型的檢測性能越好.mAP的計算公式如下:

其中,APswitch表示某類開關狀態的平均精度值,是所有類開關狀態的精度和,Nclassestotal是開關狀態類別數.

2.2 實驗結果分析

開關狀態識別效果評價指標主要使用Precision、F1score、Accuracy和mAP(在實驗中分別簡記為P,F1,Acc和mAP),IoU均設置為0.5.將從第2.1 節的5 個方面進行實驗并對比分析,驗證本文改進算法的有效性.

(1)不同多分支膨脹卷積使用策略的對比實驗

首先,通過一組實驗驗證膨脹卷積的有效性,將ResNet50 中的conv4 的殘差塊換成膨脹卷積,其結果如表3 所示.

表3 使用不同擴張率膨脹卷積的對比實驗(%)

由表3 結果可知,在開關數據集上,僅改變殘差塊的感受野大小可以提升模型檢測的效果.

從圖8 的特征圖中可以看出,conv1、conv2 輸出的特征圖與原圖像相比信息丟失較少,所以本文在conv3、conv4、conv5 這3 個模塊使用膨脹卷積,然后對conv3、conv4、conv5 使用多分支膨脹卷積的組合形式進行了實驗,結果如表4 所示.

由表4 可知,在ResNet50 中的conv3、conv4、conv5 使用多分支膨脹卷積在開關狀態數據集上效果最好,比原模型mAP高了6%.

表4 多分支膨脹卷積不同層組合的對比實驗(%)

(2)改進的特征金字塔結構使用前后的對比實驗

本文改進了FPN 結構,在原FPN 基礎上新加一條自底向上特征增強的分支,做了兩組對比實驗,分別在骨干網絡為ResNet50 和膨脹殘差網絡的Faster RCNN 模型上對比FPN 改進前后模型的精度.實驗結果如表5 所示.

表5 特征金字塔結構使用前后的對比實驗(%)

由表5 可知,在兩個骨干網絡上使用FPN 的效果都相當明顯,以ResNet50 為骨干網絡的模型精度提升了4.1%; 使用改進后的FPN,提升了對小目標的檢測能力,比改進前提升約0.8%,膨脹殘差網絡作為骨干網絡的模型提升了約0.5%.說明改進的FPN 對開關狀態的識別有作用.

(3)候選框聚類前后的對比實驗

以上一組實驗為基礎,在Faster R-CNN 的RPN 網絡中設置適合數據集候選框大小和寬高比例,將使用原RPN 的候選框尺寸和使用K-means++算法得出的尺寸進行對比實驗,結果如表6 所示.

表6 候選框聚類使用前后的對比實驗(%)

由表6 可知,在開關狀態數據集上候選框聚類對模型精度的識別有提升效果,主要原因是開關形狀都是規則的,大多數的開關具有相似的大小和高寬比例.所以候選框聚類對提升模型識別精度有效.

(4)使用Soft-NMS 與使用NMS 的對比實驗

原Faster R-CNN 模型使用的是傳統的NMS 算法來抑制重疊的候選框,物體重疊時,NMS 的暴力丟棄容易導致丟失目標,本文改進的模型使用Soft-NMS,提高了模型抑制候選框的效果,從而提升模型精度.

由表7 可知,Soft-NMS 對模型的識別效果有提升作用.因為數據集中含有較多的電壓開關,且這些開關緊密排列,在檢測這些開關時,各個目標的多個候選框容易重疊,Soft-NMS 比傳統的NMS 更有效地抑制重疊的候選框.

表7 使用Soft-NMS 與NMS 的對比實驗(%)

(5)Faster R-CNN 與其他目標檢測模型之間的對比實驗

本節主要介紹改進前后的Faster R-CNN 與YOLOv3、SSD 的比較實驗,其中,YOLOv3、SSD 均使用原始的骨干網絡,實驗比較結果如表8 所示.

表8 主流模型與本文模型的對比實驗(%)

本文模型在開關狀態數據集上比傳統的Faster RCNN 檢測精度提升了約7%.而且模型能較好地適用于抽水蓄能電站設備的開關狀態識別,滿足了預期的識別精度要求,能夠輔助監督抽水蓄能電站日常運維操作.

不難發現,模型的精確率Precision和F1score的數值較低,這是由于部分類沒有檢測出目標,識別出開關狀態,經過平均后數值較低.

為了進一步分析和驗證模型訓練的穩定性以及收斂性,對于改進的Faster R-CNN 模型,給出了模型的損失收斂曲線和精度收斂曲線.結果如圖14、圖15 所示.

從圖14 中的曲線可以看出,模型在迭代4 000 step 之后損失基本收斂,從圖15 中的曲線可以看出,模型精度在訓練40 epoch 之后基本收斂.所以模型的訓練過程穩定,收斂速度較快.

圖14 改進模型的損失收斂曲線

圖15 改進模型的mAP 收斂曲線

最后,對于改進的Faster R-CNN,測試模型在其他開關數據集上的檢測效果.改進后Faster R-CNN 對抽水蓄能電站設備開關狀態識別的效果圖,如圖16 所示.可以發現,模型可以很好地檢測出圖像中的開關,并且對開關狀態的分類準確率很高,能夠起到輔助監督的作用.

圖16 改進的Faster R-CNN 檢測識別效果

3 總結與展望

針對大型廠房中設備開關狀態識別問題,提出了改進的Faster R-CNN: 設計了膨脹殘差網絡作為骨干網絡,提升了模型特征提取的性能; 改進特征金字塔網絡進行多尺度融合,提升小型開關的檢測效果; 使用K-means++算法對開關的真實邊界框進行聚類,設計出更適合設備開關狀態數據集的候選框尺寸; 使用Soft-NMS 代替NMS,降低了NMS 暴力丟棄候選框對開關檢測的影響.最終,模型的mAP達到91.5%,并且已實際應用于抽水蓄能電站日常運維的設備開關狀態輔助識別,滿足復雜場景下的智能監管需求.

在設備開關狀態識別問題上,實際應用中由于拍攝角度可能嚴重偏離設備開關,從而影響采集的開關狀態圖像的識別精度,這一問題仍然值得進一步研究.

猜你喜歡
殘差卷積聚類
基于全卷積神經網絡的豬背膘厚快速準確測定
多級計分測驗中基于殘差統計量的被試擬合研究*
基于圖像處理與卷積神經網絡的零件識別
用于處理不努力作答的標準化殘差系列方法和混合多層模型法的比較*
基于數據降維與聚類的車聯網數據分析應用
基于深度卷積網絡與空洞卷積融合的人群計數
基于模糊聚類和支持向量回歸的成績預測
卷積神經網絡概述
基于密度的自適應搜索增量聚類法
測量數據的殘差分析法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合