?

基于煙霧區域和輕量化模型的視頻煙霧檢測

2023-06-01 08:40蒲建飛吳帝勇袁定勝
成都信息工程大學學報 2023年3期
關鍵詞:煙霧殘差注意力

蒲建飛, 魏 維, 吳帝勇, 程 鵬, 袁定勝

(成都信息工程大學軟件工程學院,四川 成都 610225)

0 引言

森林是一種重要的生態資源,為人類生產生活提供重要的原材料。森林火災是一種極具破壞性的災難,不僅使生態環境受到嚴重破壞,而且給人類造成巨大的經濟損失,甚至危及生命安全。而發生森林火災時滅火的難度遠遠比城市火災大,因此對森林火災進行有效的預警就顯得尤為重要。傳統的火災探測系統一般采用溫度或煙霧傳感器,當火災發生時,生成的煙、溫度和光等物理量達到一定數值時,發出報警信號[1]。但這種探測系統僅適用于建筑物、隧道等的火災預警中,在高大空間的火災報警中,上述方法不能很好地適用。

近年來隨著機器視覺與圖像處理技術的不斷發展,基于視頻圖像的火災檢測技術引起了關注。這種新型火災檢測技術可以忽略地形地勢的限制,其檢測覆蓋面大,不存在檢測死角和空白,并且擁有高檢測率和能夠遠程實時預警的特點,因此逐漸成為森林火災預警的主要方案。其中,由于煙霧和火焰是火災的兩種主要表現形式,而煙霧產生于火焰之前,相比對火焰的檢測,對煙霧的有效識別能更及時地預警和預防森林火災的發生,因此對煙霧的研究越來越多。Russo A U 等[2]首先利用背景減法從輸入幀中去除背景,然后采用基于形狀的濾波方法獲取感興趣區域。根據感興趣區域的像素點計算局部二值模式的值并構建直方圖形成特征向量,最后利用支持向量機對形成的特征向量進行判別。Tang 等[3]則通過背景差法提取運動區域,并對每個運動區域進行處理以獲得局部信息。利用局部二值化模型提取每個塊的紋理特征。然后利用支持向量機對提取的特征進行分類。Liu 等[4]使用小型煙霧圖像塊與視頻中運動區域的圖像特征匹配進行煙霧識別。首先利用Vibe 算法提取視頻幀中的運動區域,然后提取運動區域的局部向量化特征和中心對稱的局部二值模式特征進行特征融合,將融合特征輸入支持向量機進行煙霧識別。Gao 等[5]在幀處理階段不提取火災煙霧特征(如紋理、顏色、頻率信息等),僅使用連續幀提取動態區域中的穩定點作為煙霧根候選點。在擴散模型模擬階段,采用所有煙霧根候選點信息生成模擬煙霧。最后實現基于顏色、動態區域和模擬煙霧的匹配算法辨別煙霧。Wang 等[6]設計了一種識別圓錐幾何特征的算法,用于區分煙霧圓錐區域和動態區域。然后,使用顏色濾波算法對這些圓錐形區域進行濾波處理。最后,通過紋理濾波算法將真實煙霧與候選煙霧區域區分。Zhou 等[7]采用最大穩定極值區域算法提取煙霧的局部極端區域。通過跟蹤極端區域獲取疑似煙霧區域,后利用提出的累積區域方法根據煙霧的運動特征來檢測煙霧。Wang 等[8]則利用RGB 和HSV 顏色模型獲取煙霧顏色特征,利用小波變換獲取背景模糊特征,計算像素比獲取煙霧輪廓特征,利用光流法獲取主運動方向的特征。然后,將獲取的各煙霧特征融合后輸入支持向量機進行煙霧檢測。上述方法均依靠人工設計的特征來進行煙霧檢測。但人工設計的特征容易受到環境的影響,當環境復雜人工設計的特征在進行煙霧檢測時往往出現高誤報和高漏報的情況。

隨著深度學習技術的發展,2015年,卷積神經網絡(convolutional neural network,CNN)在ImageNet 圖像分類競賽上超越了所有傳統圖像特征提取方法,首次超越受過訓練的人類的識別率,證明卷積神經網絡在提取圖像特征上擁有很強的能力。越來越多的研究者開始將基于卷積神經網絡的深度學習技術應用在視頻煙霧檢測上。Zhang[9]提出了一種使用遷移學習來檢測煙霧圖像的雙通道卷積神經網絡(DC-CNN):一個通道上使用帶有遷移學習的AlexNet 網絡提取廣義特征,一個通道使用純卷積神經網絡提取特定特征。Yuan 等[10]受到GoogleNet, Inception 模塊網絡結構的啟發,設計了更加適合煙霧識別的網絡模塊,提出DMCNN 網絡結構。相比ZF-Net、VGG16、Inception-v3 等網絡有著更好的識別效果。Yin 等[11]提出了一種基于視頻的深度神經網絡煙霧檢測方法,該方法有兩個獨立的網絡分別學習空間特征和運動特征。其中,空間網絡從原始幀學習特征,運動網絡學習相鄰兩幀的運動特征。之后,將其輸入RNN 網絡進行特征融合借此識別煙霧。Xu 等[12]提出了一種基于SSD 和多尺度深度卷積神經網絡的煙霧檢測器,并通過使用合成煙霧圖像樣本進行網絡訓練。對比基于ZFNet 的SSD,基于VGGNet 的SSD,該方法在煙霧檢測性能上顯著提升。利用卷積神經網絡這類的深度學習方法,雖然可以自動提取煙霧特征并擁有較好的煙霧識別率,但該類方法需要巨大的訓練數據且計算開銷大,無法做到對野外火災進行實時預警。

針對上述問題,本文提出一種基于疑似煙霧區域的神經網絡早期森林煙霧識別方法。該方法擁有以下優勢:(1)將殘差幀應用在運動物體檢測的同時,與提出的自適應暗通道掩碼相結合用于確定疑似煙霧區域,這樣可以減少后續處理的數據量,同時保證未丟失后面待識別的煙霧特征。(2)所提出的煙霧識別模型不厚重,參數量很小,能夠做到對捕獲到的疑似煙霧區域進行實時識別。(3)在所設計的輕量級模型中將自注意力和卷積相融合,使模型在提取煙霧局部特征的同時關注煙霧的全局信息。

總的來說,通過該方法能夠同時兼顧林火煙霧檢測的準確性和實時性。方法流程如圖1 所示。

1 疑似煙霧目標區域檢測

1.1 殘差幀堆疊檢測運動區域

常見的運動檢測算法有光流法,背景差分法和幀差法等。光流法利用圖像序列中像素在時間域上的變化以及相鄰幀之間的相關性,找到上一幀跟當前幀之間存在的對應關系,計算相鄰幀之間物體的運動信息。但大多數的光流計算方法計算量巨大,結構復雜,且易受光照、物體遮擋或圖像噪聲的影響,魯棒性差,不能做到對運動目標進行實時檢測。背景差分法是指將圖像序列中的當前幀和已經確定好背景圖像做減法,像素值差異超過一定閥值的區域為運動區域。其不足之處在于當場景變得復雜、不可預知時,如光照突然變化、運動物體進出場景時,選擇性的更新背景成為背景差分法的一大難點。幀差法是利用相鄰幀(或相鄰三幀)之間求取兩兩幀之間圖像灰度差的絕對值,當絕對值超過一定閾值時,可判斷為運動目標。其優點是算法實現簡單,程序設計復雜度低,能夠適應各種動態環境,有著比較強的魯棒性。缺點是對慢速運動的物體,特別是當物體在前后兩幀中幾乎完全重疊時,檢測不到物體。由于煙霧形成初期運動緩慢,單純地使用幀差法將很難檢測到緩慢運動的煙霧。

本文提出利用殘差幀堆疊[13]來獲取視頻中的運動物體。通常的殘差幀通過對相鄰兩幀進行幀差法獲取,但由于早期煙霧擴散緩慢,相鄰兩幀獲取的殘差幀不能很好地捕捉到疑似煙霧區域,因此本文提出的算法擴大幀間距離,利用相隔20 幀的兩幀來獲取殘差幀。獲取殘差幀的公式如下:

其中Framei,Framei-20分別代表第i幀圖像和第i-20幀的背景參考幀圖像,ResFramei代表獲取的殘差幀圖像,在實驗中發現T值為20 時效果較好。利用幀差法來獲取殘差幀雖然速度較快,但由于其固有的缺點不能提取出對象的完整區域,只能提取出邊界。所以,本文提出利用殘差幀堆疊來彌補該缺陷。受vibe 算法的啟發,首先將連續的多個殘差幀進行保存得到殘差幀集合M(x):

后對集合M(x)中的殘差幀堆疊得到當前視頻幀的運動前景。其具體的實現方法如下:

其中MoveFramei(x,y)表示當前視頻幀的運動前景,t值為20 代表集合M(x)中保存的殘差幀個數。

利用殘差幀堆疊雖能實時獲取視頻幀中的運動物體,但當捕捉到運動的煙霧后,由于煙霧擴散緩慢和幀差法固有的缺陷,煙霧后期將很難檢測到運動的煙霧,因此提出若有連續5 幀檢測到煙霧,則凍結前文提出的背景參考幀Framei-20。盡管殘差幀堆疊能有效去除視頻幀噪聲和鏡頭晃動對運動檢測的干擾,但是戶外環境往往是非常復雜的,如野外環境樹葉晃動、飛鳥突入鏡頭、行人、汽車均會對視頻幀的運動煙霧檢測形成較嚴重的干擾。因此,本文在利用殘差幀堆疊進行運動煙霧檢測的基礎上,引入自適應暗通道掩膜來進一步篩選出運動的煙霧。

1.2 自適應暗通道掩膜

通常彩色圖像包括3 個通道,即RGB 三通道,可以理解成一張圖片由3 層同樣大小的RGB(光學三原色:紅綠藍)三色堆疊而成,而圖片實質上是由一個個像素組成的,像素點上的每一種顏色由這三原色組合而成。暗通道先驗[14]指清晰無霧的彩色圖片中除天空區域(因為天空區域或者白色區域和霧的特征較為接近)外的任一局部區域像素至少有一個通道值很低,幾乎趨近于零。即在一個RGB 圖像中所有像素點取最低的顏色通道值所構成的新圖像稱之為暗通道。通過以上描述,一張圖像的暗通道的計算公式如下:

其中Jc表示圖像三通道中的一個,ω(x)表示以像素x為中心的區域,兩次最小值濾波的濾波半徑為

做近似計算,其中WindowSize 為最小值濾波窗口大小。

在自然環境中,早期的煙霧通常為白色,表現在暗通道上則是存在煙霧的區域擁有很高的像素值。因此,暗通道像素值的強度能夠在一定程度上作為檢測煙霧是否存在的方法。獲得暗通道后,可通過閾值判斷得到暗通道掩膜來劃分真實圖像中的疑似煙霧區域。具體計算公式為

其中DarkMask 即為所求的暗通道掩膜,但一般閾值T1是固定的,得到的掩膜無法適應野外的復雜環境,做到去除煙霧檢測的大部分干擾。因此,本文提出自適應掩膜來解決該難題,使掩膜的閾值隨環境變化而變化。具體方案是,利用殘差幀堆疊獲取到的運動前景和暗通道來改變閾值T1。首先將運動前景與暗通道并操作獲取在運動區域在暗通道上的映射,再對得到的映射圖像求像素平均值,該像素平均值即可視為暗通道掩膜的閾值。其計算公式如下:

其中MoveDarki代表第i幀圖像運動區域在其暗通道上的映射,MoveFramei(x,y)代表第i幀圖像的運動前景,Jdarki(X)代表第i幀圖像的暗通道,T1表示第i幀圖像暗通道掩膜的閾值,h,w表示視頻幀的高和寬。

通過殘差幀堆疊和自適應暗通道掩碼進行疑似煙霧區域檢測的效果如圖2 所示。由圖2 可以看到,殘差幀堆疊能有效去除視頻幀上的噪聲,并且彌補了幀差法獲取運動目標易形成的“孔洞”的缺點。自適應暗通道掩碼也能在獲取的運動前景的基礎上進一步去除如樹葉晃動、運行車輛等運動物體,從而得到較少且準確的疑似煙霧塊。

圖2 疑似煙霧目標區域檢測

2 融合自注意力機制的輕量型深度學習網絡設計

2.1 整體網絡設計

本文提出的融合自注意力機制的輕量型深度學習網絡如圖3 所示。該網絡模型主要包含兩大模塊:淺層特征網絡模塊,深層特征網絡模塊。具體來說,模型由一個卷積核為7×7 的卷積層、一個最大池化層、3 個淺層特征網絡模塊、3 個深層特征網絡模塊、1 個平均池化層,2 個全連接層組成。純卷積的淺層特征網絡模塊負責利用卷積操作對煙霧圖像的局部特征進行提取和組合,形成較長較廣的深層特征;深層特征網絡模塊將卷積和自注意力機制相融合,憑借其較好的抽象能力更好地提取煙霧的深層抽象特征,并增強整個網絡模型對特征的提取能力。卷積和自注意力機制相結合共同提取物體特征,使模型能夠在網絡模型不厚重的基礎上,對煙霧特征擁有更好的表征能力,并在視頻煙霧識別任務中取得較好的識別效果。

圖3 淺層和深層網絡相結合的輕量型的深度學習網絡

2.2 淺層特征提取模塊

受MobileNetV2[15]的啟發,提出嵌入位置注意力機制[16](coordinate attention)的倒殘差模塊(inverted residual block,IRB),利用該模塊進行煙霧的淺層特征提取。通常使用的注意力機制往往關注于哪些通道對整個網絡的識別性能提升最大,但都忽略了位置信息對物體特征提取的影響。位置注意力機制將位置信息融合在通道注意力中,在不丟失通道信息的同時關注不同位置的像素點的重要信息。其結構如圖4 所示。

圖4 位置注意力模塊結構圖

位置注意力使用AvgPool 操作將多維特征圖沿高和寬分解為兩個一維特征向量,并分別沿兩個空間方向通過Excitation 操作聚合特征。通過這種方式,位置注意力可以沿一個空間方向捕獲遠程依賴關系,同時沿另一個空間方向保留精確的位置信息。然后將得到的特征圖單獨編碼成一對方向感知和位置敏感的注意力圖,得到的注意力圖分別加權到輸入特征圖中從而增強神經網絡對感興趣對象的描述。

倒殘差結構如圖5(a)所示,由兩種卷積操作組成,分別為深度卷積(depthwise convolution,Dw)和逐點卷積(pointwise convolution,Pw)。深度卷積的一個卷積核負責一個通道,一個通道只被一個卷積核卷積,而常規卷積每個卷積核是同時操作輸入特征圖的每個通道。逐點卷積的運算與常規卷積運算非常相似,它的卷積核的尺寸為1×1×M,M為上一層輸出的通道數,逐點卷積會在深度方向上對上一步的特征圖進行加權組合,生成新的特征圖。倒殘差結構接收到上一層的特征圖后,先使用逐點卷積擴充特征圖維度,將低維空間映射到高維空間。因為在低維空間下,網絡無法提取到整體的足夠多的信息。而后使用深度卷積在高維空間下提取特征,卷積核的尺寸為3×3。最后,再次使用逐點卷積降低特征圖維度,與輸入倒殘差結構的特征圖維度一致,從而方便后續的殘差操作。

圖5 改進的倒殘差模塊

相比于傳統的殘差結構,倒殘差結構特征提取時不會損失信息,且計算量也大幅降低。這主要源于倒殘差結構使用深度可分離卷積(depthwise separable convolution)替換了標準卷積。

假設一個標準卷積的輸入特征圖維度為DF×DF×N,其內部卷積核尺寸為N×Fw×Fh×M,輸出的特征圖維度為DG×DG×N,則標準卷積的計算量如下:

深度可分離卷積包含逐點卷積和深度卷積兩個操作,進行逐點卷積時其計算量為

進行深度卷積時,其計算量為

所以,利用深度可分離卷積進行運算的總計算量為

深度可分離卷積和標準卷積的計算量之比為

本文采用的嵌入位置注意力機制的倒殘差模塊的結構如圖5(c)所示,位置注意力作用于倒殘差模塊的最后一個逐點卷積后,進行特征圖內部信息的權重再分配。文獻[16]將位置注意力作用于倒殘差模塊中深層卷積后,其結構如圖5(b)所示。本文在實驗階段設置了3 組對比實驗用于驗證有無位置注意力和位置注意力模塊嵌入位置對模型煙霧識別效果的影響。

2.3 深層特征提取模塊

通過淺層特征網絡模塊可以獲得較長較廣的深層特征,但由于卷積層的設計需通過受限的感受野來確保局部性,以及通過權重共享來確保平移等效性,其卷積核固有的局部性使卷積操作無法得到圖像中的全局信息。為更好地識別圖像中的對象,全局信息又必不可少。

自注意力機制能直接獲取圖像上任意兩點的遠距離依賴關系,在一定程度上與同特征圖大小一致的卷積核結構類似,避免了純卷積的過深網絡結構。而本文使用的多頭注意機制[17](multi-head self-attention,MHSA)的基礎單元為點積型自注意力機制(dot product attention),其實現方式如圖6 所示,可表達為

圖6 自注意力機制實現圖

其中的Q,K,V是3 個向量由特征圖經一層全連接層轉換得來,用于分析圖像各區域間的聯系。dk為矩陣Q,K的維度。

自注意力的計算可分3 步:通過Q,K計算各區域間的相似度,亦可稱為注意力的值;使用Softmax 函數對注意力值進行歸一化;將歸一化后的注意力值同V進行點積運算最終得到自注意力值。為防止dk過大導致Q,K進行點積運算的結果方差過大,從而讓后續的Softmax 函數無法進行梯度計算,引入進行內積縮放。另外,本文提及的自注意力機制引入相對位置編碼h,w[18-19],使模型在聚焦物體特征的同時考慮不同特征之間的空間位置關系。

在多頭自注意力機制中,輸入的特征圖被均分成h塊,每一個塊形成一個子空間。然后,這均分的h塊在各自的子空間下分別乘于不同的權重得到新的Q,K,V,各個子空間依靠新的Q,K,V計算各自空間下的自注意力值,將得到的自注意力值進行組合,然后映射成輸入向量的維度。最終,獲得多頭自注意力的值。其計算公式如下:

使用多頭注意力機制增加了模型獲取特征信息的能力,并且在不同子空間下獲取不同的特征信息,從而使得到的特征信息也更全面。

卷積只在局部小領域聚合上下文,避免了冗余的全局計算,但受限的感受野難以建模全局依賴。而自主注意力通過比較全局相似度,能自然地關聯長距離目標,但同時其計算量過大且在淺層編碼局部特征十分低效[20]。因此,本文設計了一種新的特征學習模塊,該模塊將卷積和自注意力有機地統一,發揮兩者的優勢,解決了特征提取時局部冗余和全局依賴兩大問題。該模塊如圖7(a)所示,將倒殘差結構中的深層卷積替換為多頭自注意力。此時,自注意力機制的計算維度過高,大大增加模型參數量。因此,借鑒Conv-NeXt[21]中倒殘差的設計,將替換的多頭自主注意力前移形成了圖7(b)結構。

3 實驗結果與分析

3.1 實驗數據集及評估指標

由于森林火災煙霧識別的研究者較少,環境復雜多變導致樣本獲取的難度較大,目前還沒有針對森林火災煙霧識別的標準數據集。所以,本文在公共數據集http:/ /staff.ustc.edu.cn/ ~yfn/vsd.html 的基礎上構建了一個新的數據集,其中包含煙霧圖片4200 張,非煙霧圖片16000。由于在分類任務中,各類數據圖片數量的相對平衡能顯著提升模型表現[10],因此本文通過水平翻轉、隨機旋轉和色彩抖動等數據增強技術對數據集中的煙霧圖片進行處理,得到新的煙霧圖片,讓煙霧和非煙霧圖片數量基本一致。最終獲得一個高質量的數據集用于模型訓練,數據集中部分煙霧圖片如圖8 所示。數據集數據分配詳情如表1 所示,煙霧圖片數量總計16016 張,非煙霧圖片數量總計16000。

表1 數據集中數據分配

圖8 數據集中的煙霧圖片

為了評價神經網絡模型的煙霧識別效果,本文采用準確率(accuracy rate, AR),檢測率(detection rate,DR)和誤警率(false alarm rate, FAR)作為模型評價指標,其計算公式如下:

其中TP(TurePositive)代表實際標簽為煙霧,同時被模型識別為煙霧的圖片數量。FP(FalsePositive)代表實際標簽為非煙霧,但被模型識別為煙霧的圖片數量。TN(TrueNegative)代表實際標簽為非煙霧,模型識別也為非煙霧的圖片數量。FN(FalseNegative)代表實際標簽為非煙霧,但被模型識別為煙霧的圖片數量。若模型識別效果優秀,則在評價指標上表現為高準確率,高檢測率以及低誤警率。

3.2 疑似煙霧塊縮放

在火災發生的早期,產生的煙霧是逐漸彌漫擴散的,算法捕捉到的疑似煙霧區域的大小是不定的。而本文設計的神經網絡模型的輸入形狀卻是固定的,為了方便網絡模型提取煙霧特征并辨別疑似煙霧區域是否存在煙霧,需將疑似煙霧區域的圖像數據轉換為網絡模型輸入的大小224×224。本文采用的縮放方法為雙線性插值,如圖9 所示。雖然在檢測過程中煙霧的形狀一直變化,但煙霧的顏色和紋理特征以及其他特征在同一圖像中總是相對一致的。因此,不管所獲取到的疑似煙霧塊形狀如何,統一使用雙線性插值將其轉換為網絡模型輸入的大小。

圖9 疑似煙霧區域縮放

3.3 網絡模型訓練

本文進行的實驗基于Window10 系統平臺,實驗環境為Python3.8,開發環境為Pycharm 和VScode,使用的深度學習框架為Pytorch1.7.0(GPU),CUDA 版本為10.2。硬件設備為Intel(R)Xeon(R)CPU E5-2603 v3 @ 1.60GHz,32GB RAM 和24GB NVIDIA TITAN RTX。

在進行神經網絡模型訓練過程中使用交叉熵作為損失函數Adam(Adaptive Moment Estimation)梯度下降算法,批處理圖片數量為16,初始學習率設定為0.001,學習率變化策略設置為模型訓練每經過5 次迭代,學習率調整為上一次的0.7倍, 而模型訓練總的迭代次數為100。

3.4 網絡模型分析

3.4.1 位置注意力機制對特征提取影響分析

本文在淺層網絡特征提取模塊中引入位置注意力機制來提升位置信息對物體特征提取的效果??紤]到位置注意力機制作用于倒殘差模塊內部的不同位置會影響特征提取的效果,從而影響神經網絡對煙霧的識別準確度。于是,本文針對位置注意力在倒殘差模塊中的位置設置了對比實驗。首先,對位置注意力在倒殘差模塊中的位置進行設置,其中未嵌入位置注意力為算法1,嵌入位置注意力于深層卷積后作為算法2,嵌入位置注意力于逐點卷積后為本文算法,其各自的模塊結構圖見圖7。然后,將3 種結構的神經網絡在本文提出的數據集上進行煙霧識別實驗。實驗各項評價指標如表2 所示。

表2 位置注意力嵌入位置分析 單位:%

從表2 可知,添加位置注意力機制能夠提升模型的煙霧識別能力,位置注意力機制不僅關注特征圖維度上的聯系,而且也考慮了位置信息對物體特征提取的影響。如將本文算法的煙霧識別效果與算法1 比較,其AR 和DR 分別提升了0.63%和0.94%,FAR 降低了0.32%。除此之外,從表2 還可發現,位置注意力模塊在模型中的作用位置也會影響模型的煙霧識別效果,將位置注意力作用于倒殘差模塊的逐點卷積后比作用于深層卷積后對模型效果的提升更好。如本文算法相比于算法2,其AR 和DR 分別提升了0.46%和0.88%,FAR 降低了0.07%。

3.4.2 Self-attention 與卷積融合方式分析

對于本文模型所采用的融合MHSA 的倒殘差結構的融合方式進行實驗分析。融合方式包含:(1)單純使用MHSA 替換掉倒殘差結構中的深層卷積,得到的模塊結構如圖7(a)所示。(2)在方式1 的基礎上將MHSA 前移,此時其結構如圖7(b)所示。然后,將這兩種融合方式在本文數據集上進行實驗,其實驗結果的各項評價指標如表3 所示。

表3 Self-attention 與卷積融合方式分析

從表3 可知,當使用方式1 對MHSA 與倒殘差結構進行融合時,其在測試集上的準確率僅為87.35%,檢測率為85.26%。而使用方式2 對MHSA 與倒殘差結構進行融合時,其準確率和檢測率為99.59%,99.63%,相比于方式1 分別提升了12.24%,14.37%,同時其誤檢率也大幅降低了10.13%,從10.56%下降到0.43%,而其模型參數量更是從45.11 M大幅下降到9.14 M。由此可見,在訓練數據有限的情況下,大幅提升輸入自注意力模塊的維度,不僅不能增強模型的特征提取能力,反而使模型參數量劇增。綜合而言,本文模型所采用的融合方式2 優于方式1。

3.4.3 與近年來其他方法對比

為驗證本文提出的神經網絡模型的性能,將模型與近幾年典型的神經網絡模型進行對比實驗。為公平比較,各個模型在訓練過程中的相關超參數保持一致,訓練過程中都使用本文提出的數據集,并且所有模型都從零開始訓練,訓練結果如圖10 所示。而訓練完成后的各模型在測試集上的表現如表4 所示。

表4 提出的模型法與其他經典模型比較

圖10 各網絡模型訓練和驗證精度圖

從表4 的數據結果可知,單純使用自主注意力機制的神經網絡模型在面臨訓練數據不足時,其模型表現遠不如純卷積模型。如swin-transformer 在測試集上其AR 和DR 僅為92.87%,91.69%,FAR 為2.49%,各項指標均低于本文算法和卷積模型。但將卷積和自注意力相結合后,其模型表現又強于卷積模型,如本文提出的神經網絡模型以及Botnet 在煙霧識別任務上其準確率,檢測率和誤警率均優于其他模型。本文模型在測試集上其AR 為99.59%,DR 為99.63%,FAR 為0.43%,其煙霧識別效果優于與之比較的其他模型。另外,本文所提出的神經網絡模型參數量大小為9.14 M。除mobilenetV3 外,參數量遠低于其他模型。但相比于mobileNetV3,本文在AR,DR 和FAR 上均表現更好。

為更直觀地分析模型在進行煙霧識別時的關注點,對神經網絡由淺到深不同層部分通道的特征圖進行可視化,如圖11 所示。上方為輸入模型識別的疑似煙霧塊,其中第一行展示的是神經網絡最大池化層后輸出的5 個通道的特征圖。由圖11 可以看出,在淺層,神經網絡已經學習到了煙霧的的輪廓特征。第二行是融合位置注意力的反殘差模塊輸出的部分通道特征圖,在這一層神經網絡不但注重煙霧的輪廓,也在學習煙霧的紋理特征。而第三行則是融合的Self-Attention 的變型倒殘差模塊輸出的部分通道特征圖,這里的輸出已經是神經網絡的深層輸出,從輸出的特征圖可以知道神經網絡已經定位到煙霧在圖片中的位置,并在圖片的煙霧區域提取煙霧的深層特征。

圖11 神經網絡由淺到深不同層部分通道特征圖

3.5 基于視頻的煙霧檢測結果分析

本文算法在多個實際煙火監控視頻中進行測試,其視頻數據來源于韓國啟明大學(https:/ /cvpr.kmu.ac.kr/)、中國科學技術大學火災科學國家實驗室(http:/ /smoke.ustc.edu.cn/datasets.htm)和土耳其比爾肯特大學(http:/ /signal.ee.bilkent.edu.tr/VisiFire/)。部分視頻數據的檢測結果如圖12 所示。其中,video1 ~video3為煙霧視頻,檢測距離由遠至近。video4 ~video5 為干擾視頻,主要包含自然環境下的云霧,晃動的樹葉,運動的汽車和行人。

圖12 煙霧測試視頻

為驗證本文所提出的方法的有效性,將模型表現較為出色且為輕量級模型的MobileNetv3 和Botnet、文獻[27] 的方法、去除疑似煙霧檢測步驟的本文方法與本文方法進行對比實驗,實驗結果如表5 ~6 所示。從表5 可看出,在video1 ~video3 等含煙霧視頻中,本文方法相比MobileNetv3、Botnet 和文獻[27]的方法均能提前檢測到煙霧的出現,且無論是遠距離煙霧還是近距離煙霧的檢測上,本文方法均表現出色。而從表6可得知,即使在煙霧類似視頻video4 ~video6 中存在與煙霧顏色相近的云霧,頻繁晃動的樹枝,運動的白色車輛和行人等煙霧干擾物時,本文方法在進行煙霧檢測時并未出現誤檢。這驗證了本文方法擁有較強的魯棒性。

表5 煙霧視頻測試檢測結果

表6 煙霧類似視頻檢測結果

在近距離煙霧檢測視頻video3 中,去除疑似煙霧檢測步驟的本文方法雖相較于其他4 種方法表現優異,但在遠距離煙霧檢測視頻video1 中卻無法檢測到煙霧。在video2 中,其他4 種方法的檢測速度慢于本文方法,且在煙霧類似視頻video4 ~video6 中檢測檢測煙霧時出現了極多的誤檢行為。這證明了本文提出的疑似煙霧檢測算法的有效性,該算法能極大地抑制云霧,晃動的樹枝、運動的白色車輛和行人等物體對煙霧識別的干擾,在本文所提出的煙霧檢測框架中發揮著巨大作用。

5 結束語

頻繁發生的森林火災已經成為世界森林地區的一個主要威脅,而發生森林火災時滅火的難度遠遠比城市火災大。因此,對森林火災進行有效的預警就顯得尤為重要。煙霧產生于火焰之前,通過利用林區監控視頻對煙霧的有效檢測能更加及時地預警和預防森林火災的發生。為提升檢測效率,提出利用殘差幀堆疊和自適應暗通道掩碼進行先期的疑似煙霧區域獲取。在此基礎上,設計了一個融合自注意力機制的輕量化網絡模型,用以對獲取的疑似煙霧塊進行快速識別。該模型相比于其他典型模型在煙霧識別時的準確率,檢測率和誤警率都表現出了更好的性能。實驗結果表明,本文所提出的早期森林火災檢測算法相比于其他同類型算法,在檢測速度上得到了極大的提升,且適用范圍也更廣闊,無論是遠距離煙霧還是近距離煙霧都能做到準確實時地檢測。不過,由于在進行煙霧識別時本文模型沒有充分考慮到煙霧的時空特征,導致針對緩慢運動的云霧存在誤檢,未來的工作計劃是構建更為有效的神經網絡模型來降低煙霧識別的誤檢率。

猜你喜歡
煙霧殘差注意力
基于雙向GRU與殘差擬合的車輛跟馳建模
讓注意力“飛”回來
薄如蟬翼輕若煙霧
基于殘差學習的自適應無人機目標跟蹤算法
影視劇“煙霧繚繞”就該取消評優
基于遞歸殘差網絡的圖像超分辨率重建
咸陽鎖緊煙霧與塵土
“揚眼”APP:讓注意力“變現”
A Beautiful Way Of Looking At Things
平穩自相關過程的殘差累積和控制圖
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合