?

基于深度學習的電廠消防器材移動檢測研究?

2024-01-29 02:23田維青唐云鵬王鑫靚景文林
電子器件 2023年6期
關鍵詞:消防器材器材尺度

田維青,唐云鵬,周 超,王鑫靚,景文林,張 萌

(1.貴州黔源電力股份有限公司,貴州 貴陽 550002;2.南京南自信息技術有限公司,江蘇 南京 210003;3.東南大學電子科學與工程學院,江蘇 南京 210096)

隨著我國經濟社會的高速發展與各項基礎建設的不斷推進,各種大小場景、事務中的安全隱患日益增多,安全問題越來越得到社會的廣泛關注,其中消防安全是安全問題中的重要一環,許多場景都格外重視消防安全,電廠也不例外。電廠是電力系統的核心,電廠的消防安全關系到電廠員工的生活安全與生產安全,關系到國家能源安全與電力系統的安全穩定以及廣大公民的民生福祉[1]。因此對于電廠而言,為了避免經濟損失、避免給現場員工帶來安全威脅,消防安全至關重要,防患于未然的同時,時刻監控消防器材的狀態是對消防安全的又一有利保障。

隨著計算機技術與人工智能的飛速發展,越來越多需要大量人力的工作開始交付由計算機或者機器人來完成。智能是知識與智力的總和,人能夠獲取知識并利用知識解決問題,比如圖像識別等。人工智能是通過計算機編程,讓計算機擬合人類學習知識與解決問題的能力[2]。通過監控攝像頭實時拍攝消防器材狀態并通過人力進行觀察,這種傳統方法智能化程度低,人力與時間消費大,如果監控人員疏忽懈怠,無法及時發現消防事故地點附近的消防器材移動,會對電廠與電廠人員安全造成無法估計的嚴重后果[3],這種方法無法真正實現對器材全天候無死角的監控。而利用人工智能領域的深度學習目標檢測技術[4],可以隨時將監控攝像頭拍攝的實時圖片傳送到服務器,利用算法進行檢測識別,真正實現對消防器材全天候的監控,讓電廠具備更先進的監控技術,減少人工成本的使用,使電廠更加數字化、智能化,推動電廠朝更先進的方向快速發展。

因此,利用器材移動檢測技術對消防器材進行智能檢測,及時發現器材的實時狀態,發現問題后進行預警,是電廠消防安全體系的重要組成部分[5]。器材移動檢測技術分為兩個部分:首先是利用目標檢測算法對攝像頭獲取的視頻中的每一幀進行檢測識別,找出每一個消防器材所在的位置以及分類;其次就是通過對比預置幀與當前幀,判別消防器材是否移動。

傳統的計算機視覺圖像處理算法有基于顏色、紋理、梯度等類型,這些方法存在細節處理弱、泛化性不強的缺點,而深度學習神經網絡可以有效解決傳統算法的這些問題[6]。目前國內對消防方面的深度學習應用較為薄弱,主要是應用基于卷積神經網絡的煙霧識別算法來進行森林火災的檢測,而對消防器材的檢測識別較少。深度學習目標檢測的任務是找出圖像中所有感興趣的目標并確定他們的位置,是人工智能計算機視覺領域的核心問題之一[7]?,F有的目標檢測網絡包括兩階段檢測器如Fast-RCNN、Faster-RCNN 等,一階段檢測器如SSD、YOLO、EfficientDet、CenterNet 等。兩階段檢測器精度較高,先提取候選框并調整成固定大小,再輸入深度神經網絡進行分類以及邊界框的回歸矯正[8],但由于選擇搜索等模板匹配的過程以及輸入深度神經網絡后計算大量重復而沒有共享計算,導致運算過慢,檢測速度不能滿足實時性,兩階段目標檢測算法適合在對準確性需求超過實時性的領域應用,比如醫療等;而一階段檢測器將目標檢測轉換成一個回歸問題,利用圖片作為網絡輸入,經過一個深度神經網絡,將回歸信息與類別信息一起輸出[9],使用邏輯回歸預測邊界框的置信度評分[10],極大提升了目標檢測速度。

小目標檢測是目標檢測技術中的重難點,使用電廠工業電視攝像頭采集現場圖片對工業現場消防器材進行檢測,器材目標不僅分辨率低,且易出現阻擋密集的情況。小目標具有分辨率低、特征表達不充分,檢測難度高[11]等問題。針對小目標檢測,可以使用多尺度學習、數據增強擴充數據集等方式來提高對小目標的檢測性能。

當前目標檢測算法都是基于anchor 的,網絡輸出在基礎anchor 上的長寬以及中心點的偏移量來完成對目標的回歸。anchor-based 的目標檢測網絡是非常有效的,但是依然存在一些問題:為了確保與GT(Ground Truth)框,也就是真實框,充分重疊,需要大量anchor boxes,在正負樣本之間會造成巨大的不平衡,負樣本數量遠遠超于正樣本,減緩訓練速度;anchor 的使用引入了許多超參數和設計選擇,很大程度上是通過自組織啟發法做出的,當與多尺度體系結構相結合時,情況會變得更加復雜;anchor 難以平衡小目標召回率與計算成本之間的矛盾,導致了小目標的正樣本與大目標的正樣本極度不均衡,使得模型更加關注于大目標的檢測性能,從而忽視了小目標的檢測。針對這些問題,可以采用anchorfree 方法,例如CornerNet、FCOS 等。

對于需要大數據訓練的深度學習目標檢測算法來說,擁有一個樣本數量多、種類場景多樣化的數據集,將模型輸出結果與真實結果對比計算損失函數,計算梯度,利用反向傳播算法對模型進行迭代優化,是至關重要的。公開數據集中關于消防安全的比較少,然而對比于跑冒滴漏這種不常見的現象,消防器材是隨處可見的,圖片獲取途徑較多,比如網絡搜索或者實地拍攝。同時,消防器材的多樣性、分辨率大小以及遮擋密集等,在手工制作數據集時也易于實現。

本文以YOLOv5 為基礎,收集消防器材圖片并標定數據集,針對消防器材的特點改進YOLOv5 算法,用廠站現有工業電視攝像頭獲取現場實時圖像數據,對區域內指定消防器材位置是否移動進行檢測,若區域內指定消防器材位置移動超過一定時間,向平臺發出警告,提取關鍵幀保存,從而杜絕電廠安全隱患。本文的貢獻有以下幾點:①收集消防器材圖片構建消防器材數據集;②給YOLOv5 算法增加一個尺度為4 倍的下采樣輸出,專注于改善小尺度器材的檢測;針對器材減小最大池化層池化核尺寸;添加Transformer Encoder;替換FCOS 檢測頭。

1 YOLOv5 原理

YOLOv5 算法的基本原理是先對圖像特征提取,將提取到的特征輸入特征金字塔網絡和路徑聚合網絡進行多尺度融合,最后經由檢測頭輸出三種不同尺度的特征圖,分別適合檢測大、中、小三種尺寸的目標,在訓練階段區分正負樣本計算損失函數后反向傳播,在檢測階段進行非極大值抑制得到最終結果。

1.1 輸入端

YOLOv5 算法需要對圖像進行預處理,使圖像尺寸適應網絡輸入,訓練時采用數據增強以提高模型性能。

YOLOv5 算法使用自適應圖片縮放的圖像預處理方法。常用的圖像縮放方法是將原始圖片統一縮放到一個標準尺寸,再送入檢測網絡??s放填充后不同尺寸圖片填充的黑邊大小都不同,而如果填充的比較多,就會出現信息冗余、影響推理速度的問題。YOLOv5 算法對原始圖像自適應地添加最少的黑邊,將長邊縮放為需要的尺寸,短邊等比例縮放,將縮放后的短邊填充為最小的32 的倍數。訓練時不采用自適應圖片縮放而是采用傳統填充的方式,而在測試、使用模型推理時,采用自適應圖片縮放的方式,可提高檢測、推理的速度。

YOLOv5 算法與YOLOv4 算法一樣,訓練時在輸入端使用Mosaic 數據增強。Mosaic 數據增強參考CutMix 數據增強(用兩張圖片進行拼接),采用4 張圖片進行隨機縮放裁剪排布的方式進行拼接[12],如圖1 所示,大大豐富了數據集,隨機縮放豐富了許多小目標,增強檢測網絡的魯棒性,同時可以減少訓練占用GPU 顯存。在使用網絡進行推理時不使用Mosaic 數據增強。

圖1 Mosaic 數據增強示例圖

1.2 YOLOv5 網絡結構

YOLOv5 的網絡結構由三部分組成:Backbone、Neck、Head,如圖2 所示。

圖2 YOLOv5 網絡結構圖

Backbone 部分由YOLOv4 的CSPDarkNet 改進而來,首先是Focus 層,將特征圖切片后拼接再經過一個卷積層,進行一次下采樣;隨后是四個卷積層與BottleneckCSP 層的組合,每一個組合都進行一次下采樣。BottleneckCSP 是一種殘差模塊,可以更有效地提取特征,將基礎層的特征映射劃分為兩部分,通過跨階段層次結構將它們合并,在減少計算量的同時可以保證準確率。最后一個組合卷積層與BottleneckCSP 層中間有一個SPP 層,使用不同尺寸的池化核實現不同尺度的融合,比單純使用k×k最大池化,更有效地增加主干特征的接受范圍,顯著分離最重要的上下文特征。主干網絡Backbone 一共經過5次下采樣,每次下采樣特征圖尺寸變為原來的1/2,第五次下采樣輸出的C5 特征圖尺寸是初始的1/32,也就是32 倍下采樣。將C3 特征圖(8 倍下采樣)、C4 特征圖(16 倍下采樣)、C5 特征圖輸出到下一部分Neck。YOLOv4 的CSPDarkNet 結構如圖3所示,可以看出YOLOv5 的Backbone 主要改進了殘差模塊,并且使用了Focus 替換第一個下采樣模塊以及在殘差模塊之間穿插卷積層。

圖3 YOLOv4 CSPDarkNet 結構圖

Neck 由特征金字塔網絡FPN(Feature Pyramid Network)和路徑聚合網絡PAN(Path Aggregation Network)組成,深層特征語義信息強,定位信息弱,淺層特征語義信息弱,定位信息強。FPN 自頂向下傳達強語義特征,將深層特征上采樣后與淺層特征融合,增強語義表達,PAN 自底向上傳達強定位特征,將FPN 融合后的結果用卷積層再次下采樣后與FPN 深層特征再次融合,增強定位能力。對比YOLOv4 的Neck 結構采用普通的卷積操作,YOLOv5 采用Backbone 中使用的BottleneckCSP 結構,加強特征融合能力。

Head 有三個分支,分別對應尺寸為32 倍、16倍、8 倍下采樣的特征圖,經過卷積層預測結果。在YOLOv1 中,直接對box 的位置進行預測,由于沒有類似RCNN 系列的候選框生成,網絡在前期訓練時非常困難,難以收斂。自YOLOv2 開始,引入了anchor box 機制,通過提前篩選(K-means 聚類)得到的具有代表性先驗框anchor,網絡回歸位置信息時預測box 中心相對于網格坐標的偏移量與box 寬高相對于anchor 寬高的偏移量,如圖4 所示,使得網絡在訓練時更容易收斂。

圖4 anchor 示意圖

YOLOv5 輸出三種尺度的特征圖,每一種尺度的特征圖都各自對應三個anchor。假如輸入尺寸為640×640,32 倍下采樣特征圖輸出尺寸為20×20,將圖片分成20×20 個較大的網格,對應尺寸較大的三個anchor,感受野最大,適合檢測大目標;16 倍下采樣特征圖輸出尺寸為40×40,將圖片分成40×40 個中等的網格,對應尺寸中等的三個anchor,適合檢測一般大小的目標;8 倍下采樣特征圖輸出尺寸為80×80,將圖片分成80×80 個較小的網格,對應尺寸較小的三個anchor,感受野最小,適合檢測小目標。每一個網格預測三個box 的anchor 偏移量、confidence以及分類概率。

1.3 損失函數

損失函數是YOLO 目標檢測算法的重要部分。第一代的YOLO 檢測器中,主要使用總方誤差來優化,在YOLO 算法的發展中對置信度與分類概率改進使用交叉熵損失,以及對定位回歸使用IoU-Loss。對計算真實框GT(Ground Truth)落在哪個網格內,利用四舍五入規則,找出最近的兩個網格,將這三個網格都認為是負責預測該GT。GT 與anchor 計算寬高比,如果寬高比例大于設定閾值,GT 與anchor 匹配度不夠,將該anchor 過濾暫時丟掉。正樣本參與回歸定位、置信度confidence 以及分類概率的loss計算,負樣本只參與置信度的loss 計算。

2 改進的YOLOv5 算法

本文在原有YOLOv5 算法的基礎上改進,增加一個尺度為4 倍的下采樣輸出,專注于改善小尺度器材的檢測;針對器材減小最大池化層池化核尺寸;添加Transformer Encoder;替換FCOS 檢測頭。改進的YOLOv5 算法網絡結構如圖5 所示。

圖5 改進的YOLOv5 網絡結構圖

2.1 增加輸出塊

在原本的YOLOv5 算法中,PAN 輸出中有3 個不同尺度的特征圖C3、C4、C5,分別對應8、16、32 倍下采樣的尺度。下采樣倍數越大,越適合檢測大目標,而在監控攝像頭場景下,消防器材尺寸一般比較小,同時還有器材遮擋等情況的出現,因此,在改進的YOLOv5 算法中,添加一個額外的C2 輸出塊,它的特征圖尺寸為4 倍下采樣,有助于檢測尺寸稍小的消防器材。

2.2 減小SPP 層池化核尺寸

在原本的YOLOv5 算法中,SPP 層使用不同的池化核,實現不同尺度的融合以增加接收域,使用了3 個內核大小:13×13、9×9、5×5。將其修改為更小的池化核:7×7、5×5、3×3,使用較小的核有助于更容易地檢測遮擋嚴重的器材以及尺寸較小的器材,提高整體消防器材檢測性能。

2.3 Transformer Encoder 模塊

使用Transformer Encoder 來代替路徑聚合網絡中的BottleneckCSP 模塊,Transformer Encoder 結構如圖6 所示,一共有兩個殘差連接,第一個殘差連接先通過層間歸一化后使用多頭注意力,多頭注意力將原本的特征由高維投影到低維多次,將多次投影的自注意力結果拼接后投影回高維,隨后是Dropout隨機舍棄一部分神經元,該操作可以緩解神經網絡過擬合,最后與shortcut 路徑也就是輸入特征相加。自從Transformer 問世以來,自然語言處理(Natural Language Processing,NLP)領域中廣泛使用的循環神經網絡(Recurrent Neural Network,RNN)逐漸被Transformer 取代,Transformer 成為NLP 的主流。隨著DETR(End-to-End Object Detection with Transformers) 目標檢測器與視覺Transformer 的問世,Transformer 開始應用于計算機視覺領域,是目前的主流趨勢,對計算機視覺與自然語言處理大一統起到了推動作用。Transformer 具有獨特的全局注意力機制,效果比原先沒有注意力機制要更好。由于在輸入Transformer 之前已經通過卷積神經網絡提取特征,卷積操作給特征圖已經帶來位置信息,因此在使用Transformer Encoder 時候無需再添加位置編碼。

圖6 Transformer Encoder 結構圖

2.4 替換檢測頭

原版的YOLOv5 在Head 部分僅使用一個卷積將不同尺度的回歸與分類信息全部預測,本文將其用FCOS 的檢測頭替換,檢測頭結構如圖7 所示。將分類與回歸分開預測,在特征圖的每個位置上預測C個分類參數與4 個距離參數(目標左側距離l,上側距離t,右側距離r以及下側距離b)以及1 個center-ness 參數反映該點距離目標中心的遠近程度,不再使用anchor。

圖7 FCOS 檢測頭結構圖

3 實驗

3.1 數據集

在基于大數據的深度學習算法中,數據集是保證算法性能的重要一環,保證數據種類、場景(遮擋、光照)、尺寸的多樣性是算法高泛化性和魯棒性的保證。由于公開數據集中關于消防器材比較少,選擇實地拍攝微型消防站圖片以及截取監控攝像頭視頻幀采集目標圖片,手工標定YOLO 格式標簽。數據集包含1 739 張圖片,包含消防帽、消防桶、滅火器、消防斧、消防鏟、滅火器箱六個目標分類。其中姿態、遮擋、疏密、光照、尺寸等有多樣性,加強了目標檢測的挑戰性,按照9 ∶1 的比例劃分訓練集和驗證集。

3.2 測試指標介紹

在目標檢測任務中,精度precision 是被檢索目標的準確率,召回率recall 是正確目標被檢索的比例。門限iou_threshold 是在計算precision 和recall 時匹配檢測框與真實框的IoU(Intersection over Union,交并比)閾值,只有IoU 大于這個閾值才算匹配成功。每一個類別都可以計算出其precision 和recall,取不同的置信度閾值conf_threshold,每個類別都可以得到一條PR 曲線,曲線下的面積就是平均精度(Average Precision,AP)的值。mAP 就是所有類的AP 值求平均。mAP@.5 是門限iou_threshold 取0.5 時的mAP,mAP@.5:.95 是門限iou_threshold 取0.5 到0.95 間的多個值時的mAP 的均值。

3.3 訓練與實驗結果

本次實驗環境為python3.9、pytorch1.12、cuda11.6、cudnn8.3.2,硬件平臺為Nvidia GeForce RTX 2080Ti GPU。

采用遷移學習技術,將官方在COCO 數據集上的預訓練權重作為初始權重,在初始模型的基礎上根據改進的YOLOv5 算法改變模型結構。根據自己的數據集微調訓練150 個迭代輪次,完成源域也就是COCO 數據集到目標域也就是消防器材的遷移。訓練過程中,目標檢測評估指標mAP@.5 達到最大0.927。保存最好的模型文件,訓練結果如圖8 所示,測試圖片結果如圖9 所示。

圖8 改進的YOLOv5 算法訓練結果圖

圖9 改進的YOLOv5 算法檢測消防器材測試圖

使用相同的超參數、數據集以及預處理過程,使用原本的YOLOv5 算法以及單獨加入各個改進方面的YOLOv5 算法進行消融實驗,訓練150 個迭代輪次,算法訓練結果對比如表1 所示。單獨加入各個改進方面的YOLOv5 算法比原本的YOLOv5 算法都有性能的提升;改進的YOLOv5 算法相比于原本的YOLOv5 算法準確率precision 和召回率recall 均有提高,算法最重要的評估指標mAP@.5 提升了0.028 3,mAP@.5:.95 提升了0.021 3。改進后的YOLOv5 算法在檢測效果上明顯有了較大的提升,使用改進后的YOLOv5 算法具有很高的可靠性。

表1 消融實驗結果表

將訓練好的模型轉化TensorRT 模型,部署在Nvidia GeForce RTX 2080Ti 的GPU 服務器上。TensorRT 是一款高性能深度學習推理SDK,包含深度學習推理優化器和運行環境,可為深度學習推理應用提供低延遲和高吞吐量。

4 消防器材移動檢測

對于每一個攝像頭,初始化每一種類器材的個數和位置。設置規則區域和超參數檢測間隔,若消防器材搬離原位置或者搬移出指定區域,持續一段時間后,則判斷消防器材移動,并保存移動前后關鍵幀,如圖10 所示,直到消防器材回歸原位。

圖10 器材移動前后關鍵幀

搬離原位置是一個比較嚴格的規則,對于初始狀態的每一個消防器材,假定該器材為m,在當前幀尋找是否有位置相近的同類器材,如果沒有,則判斷器材m 移動;如果有位置相近的同類器材n,計算器材m 與器材n 檢測框之間的IoU,若IoU 大于一定閾值,則判斷器材m 沒有移動,否則判斷該器材移動。

搬移出指定區域是一個比較寬松的規則,需要為每一個攝像頭指定規則區域。規則區域可以為每一個目標器材單獨設置,檢測到目標后在目標周圍自動生成規則區域;也可以單純地設置規則區域是攝像頭畫面區域,或者針對每一個攝像頭,手動設置規則區域。本文使用的方案是針對每一個攝像頭手動設置規則區域,對于每一類消防器材,若規則區域內器材數量減少,則判斷器材移動。

5 結束語

目前對消防方面的深度神經網絡應用較為薄弱,對消防器材的檢測識別較少。本文建立具有多樣性的消防器材數據集,通過增加輸出尺度、減小池化核尺寸、添加Transformer Encoder、替換FCOS 檢測頭改進了深度神經網絡目標檢測YOLOv5 算法,以對消防器材進行檢測并且判斷移動,對六種不同的消防器材有很高的識別準確率,為電廠消防安全體系提供了質量保證。

猜你喜歡
消防器材器材尺度
◆ 消防器材
消防器材
AV TOP 100!2020-2021年度優秀影音器材推薦榜簡評
財產的五大尺度和五重應對
◆ 消防器材
最貴的器材多少錢 Damian Demolder
宇宙的尺度
視聽器材個股表現
視聽器材個股表現
消防器材
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合