?

基于雙曲嵌入的露天礦區暗光環境下道路多目標檢測模型

2024-03-01 09:53顧清華蘇存玲王倩陳露熊乃學
工礦自動化 2024年1期
關鍵詞:暗光雙曲露天礦

顧清華, 蘇存玲, 王倩, 陳露, 熊乃學

(1. 西安建筑科技大學 資源工程學院,陜西 西安 710055;2. 西安建筑科技大學 西安市智慧工業感知計算與決策重點實驗室,陜西 西安 710055;3. The Department of Computer,Mathematics and Physical Science Sul Ross State University,Alpine,TX 79830,USA)

0 引言

隨著自動駕駛技術不斷發展,露天礦區無人礦用卡車(以下稱礦卡)逐步投入應用。由于礦區環境特殊,道路場景復雜多變,在光照不足時會使礦區道路多目標識別不清、定位不準,進而影響檢測效果,給無人礦卡的安全行駛帶來嚴重安全隱患,因此亟需對露天礦區暗光環境下道路多目標精準檢測展開研究。

道路障礙物檢測方法主要包括基于機器視覺、基于毫米波雷達、基于毫米波雷達與其他傳感器融合的檢測方法3 類?;跈C器視覺的障礙物檢測方法應用較為廣泛,可分為雙階段檢測和單階段檢測。經典雙階段檢測算法(如R-CNN[1-3]等)需先生成候選框再進行目標檢測,檢測速度慢,不適用于對實時性要求較高的場景。而單階段檢測算法只需一次特征提取即可實現目標檢測,如單步多框目標檢測 (Single Shot MultiBox Detector, SSD)[4-6]、YOLO 系列[7-10]等,雖然檢測速度快,但檢測精度比雙階段檢測算法低,可通過改進模型來提升檢測精度,因此單階段檢測算法在道路障礙物檢測方面應用居多。文獻[11]在模型預處理階段進行數據增強,以提高YOLO 模型對小目標的檢測性能。文獻[12]針對結構復雜、參數龐大的SSD 模型進行骨干改進,以降低延時,提升檢測精度。文獻[13]通過對YOLOv3 模型進行圖像裁剪,生成適合網絡輸入的數據尺寸,并通過引入旋轉邊界框的方法實現目標的快速識別與定位。上述研究雖有效提升了單階段檢測算法的檢測精度,但均未考慮環境光照對檢測效果的影響。為此,許多學者針對環境光照對檢測精度的影響進行了相關研究。文獻[14]基于熱特征的負障礙物檢測,根據夜間環境下障礙物散熱情況,對紅外圖像進行局部強度剖析以確認障礙物,但障礙物附近的非目標物體會使周圍溫度上升,影響檢測準確率,且該方法僅限于在夜間應用。毫米波雷達抗干擾能力強,可解決外界天氣對障礙物識別的影響[15-16],但易受雜波干擾,分辨率較低,無法精確識別反射界面較小的物體。針對該問題文獻[17-18]提出將毫米波雷達與其他傳感器融合的方法,實驗表明該融合方法能夠解決單傳感器檢測不準的問題,但對于特殊場景的礦區,易受到濕度、溫度、大氣壓等因素的影響,不能在暗光環境下精確檢測障礙物,且使用成本過高,不利于礦區實際應用。文獻[19]受自然視覺視網膜機制啟發,開發了夜間圖像增強方法,該方法不受夜間濕度、溫度等因素影響,對車輛有較好的檢測效果,但有效的監控攝像機系統建立的前提條件難以滿足,適用范圍受限。

研究表明,現有檢測模型均有一定的弊端,不能有效解決礦區暗光環境對模型檢測效果的影響,同時對礦區小目標障礙物的識別也有較大誤差,不適用于礦區特殊環境下障礙物的檢測與識別,本文提出一種基于雙曲嵌入的露天礦區暗光環境下道路多目標檢測模型。首先,在模型預處理階段通過暗光環境增強算法提高圖像質量;然后,在模型加強特征提取部分引入全局注意力機制(Global Attention Mechanism,GAM),增加網絡對礦區小目標的特征偏好,提高目標特征表達能力;最后,在網絡的Head 層引入雙曲全連接層,解決因目標尺寸差距過大導致檢測難度大的問題,進而提升整個模型檢測精度與速度。

1 YOLOv5 算法

基于露天礦區對目標檢測精度及速度的要求,選用YOLOv5 單階段檢測算法,其網絡結構如圖1所示。

圖1 YOLOv5 網絡結構Fig. 1 YOLOv5 network structure

該網絡由Input、Backbone、Neck、Head 4 個部分構成。輸入的圖像分辨率為640×640。Backbone 包含數據預處理及特征提取2 個部分。預處理包括Mosaic(馬賽克)數據增強、自適應錨框計算及自適應圖像縮放;特征提取由Focus 切片結構[20]、跨階段局部網絡(Cross Stage Paritial Network,CSP)[21]層結構及空間金字塔池化(Spatial Pyramid Pooling,SPP)[22]3 個部分組成。Neck 采用特征金字塔(Feature Pyramid Networks, FPN) +路徑聚合網絡(Path Aggregation Network,PAN)[23-24]結構,對骨干特征提取的3 個有效特征層分別進行上下采樣,融合特征通道,以提升網絡整體性能。Head 將Neck 層提取的3 個加強特征層進行分類與回歸預測,對目標進行準確識別與定位。

2 基于改進YOLOv5 露天礦區暗光環境目標檢測方法

YOLOv5 模型未考慮暗光環境對檢測效果的影響,無法將此模型直接用于礦區暗光環境障礙物檢測。為解決暗光環境的影響,在模型的圖像預處理階段引入Retinex-Net 卷積神經網絡[25-26],對暗光圖像進行增強,提高圖像清晰度;針對數據集中特征過多而無重點偏好的問題,在加強特征提取部分添加GAM[27],聚集3 個維度上更關鍵的特征信息,這對小尺寸目標十分重要;為減少模型參數及處理過擬合問題,在模型預測部分嵌入雙曲全連接層,以提升網絡整體檢測效果。

2.1 Retinex-Net 暗光環境圖像增強

露天礦區存在非結構化道路坡度大、環境多變等特點,極易導致無人礦卡在暗光環境下難以準確檢測礦區道路目標。為解決礦區光照不均、遠距離暗光及低分辨率3 類不同場景對礦區車輛和行人檢測效果的影響,本文在YOLOv5 模型預處理階段采用Retinex-Net 網絡增強暗光圖像,提高圖像整體質量,以滿足礦區暗光環境的檢測需求。該模型結構如圖2 所示,效果如圖3 所示。該模型主要由分解模塊(Decom-Net)、調整模塊和重建模塊3 個部分組成。

圖2 Retinex-Net 網絡結構Fig. 2 Retinex-Net network structure

圖3 Retinex-Net 圖像增強前后效果對比Fig. 3 Image comparison before and after Retinex-Net enhancement

分解模塊主要由5 層帶有ReLu 的卷積神經網絡組成,將暗光圖像和正常光照圖像作為輸入數據對,共享網絡參數,得到暗光圖像的反射分量Rlow、光照分量Ilow及正常光照圖像的反射分量Rnormal、光照分量Inormal。利用Rlow,Ilow,Rnormal,Inormal之間的約束關系優化模型。該模型的損失函數由重建損失?recon、反射分量一致性損失 ?ir和光照分量平滑損失 ?is3 個部分組成。

式中: λi j為重構系數;Ri為圖像反射分量;Ij為光照分量;Sj為未分解的完整圖像,使模型分解出的反射分量和光照分量能夠重建對應的原圖; ?為梯度算子,包含水平和垂直梯度; λg為平衡結構意識強度系數。

式(3)通過反射分量為光照分量的梯度圖分配相應的權重,使得反射分量與對應的光照分量在確保圖像細節上盡可能平滑的同時,仍能夠保持圖像整體的邊界結構完整。

調整模型主要是對Rnormal和Inormal進行調整,采用BM3D 算法對Rnormal進行噪聲抑制,采用多尺度encode-decoder 架構對Inormal進行調整,使網絡能捕獲更大范圍的關于光照分布的上下文細節信息,以提高自適應調整能力。

2.2 基于GAM 的加強特征提取

針對礦區小尺度目標易被忽略、無特征偏好及在CSP 層結構中因避免梯度消失而導致顯存過大并產生特征弱化現象的問題,在YOLOv5 網絡加強特征提取階段引入GAM,以減少信息彌散,增強小尺度目標特征的表達能力,進而放大全局維度交互特征的能力。

基于GAM 加強特征提取的檢測模型如圖4 所示。首先將圖像數據分辨率調整至640×640,引入GAM 模塊;然后將調整好分辨率的圖像數據輸入網絡進行訓練,獲取相應訓練權重;最后利用權重進行預測驗證。

GAM 模塊如圖5 所示,其中C,W,H分別為輸入特征圖的通道數及其寬和高,其運算原理為

圖5 GAM 模塊Fig. 5 GAM module

式中:f1為網絡輸入的有效特征圖;為f1經過通道注意力模塊處理后的有效特征圖;Mc為空間注意力圖; ?為按照特征元素進行乘法操作。f_out為經過空間注意力模塊處理后最終的輸出特征圖;Ms為通道注意力圖。

該模型將f1輸入通道注意力模塊,使用三維排列來保留3 個維度上的信息和兩層的多層感知機(Multilayer Perceptron,MLP),來放大跨維度通道-空間依賴性;將在空間注意力模塊中使用2 個卷積層進行空間信息的融合,并從通道注意力模塊中使用與瓶頸注意力模塊(Bottleneck attention Module,BAM)相同的縮減比a,通過2 次7×7 的卷積保持通道數一致。本文在模型加強特征提取部分的4 個CSP 模塊后分別引入GAM,以解決卷積注意力模塊(Convolutional Block Attention Module,CBAM)中最大池化操作會減少特征信息的問題,使整個網絡更關注感興趣區域及全局特征。進行雙曲嵌入,二維Poincare 球模型如圖6 所示,嵌入模型如圖7 所示。

圖6 Poincare 球模型Fig. 6 Poincare ball model

圖7 Hyperbolic-YOLOv5 head 模型Fig. 7 Hyperbolic-YOLOv5 head model

2.3 基于雙曲嵌入的YOLOv5-Head 模型優化

通常復雜數據常表現出較高非歐氏的潛在聯系,無法給出較可靠的幾何表示,導致模型不能準確提取有效特征而影響檢測效果。具有負曲率的雙曲空間[28-30]有較強的數據建模能力,對于有層次結構的數據,該空間能夠使檢測模型更加緊湊,具有更強的物理可解釋性,且對網絡復雜性和訓練數據要求低,可解決參數冗余問題。雙曲空間常見推廣模型即Poincare 球,其是一個m維雙曲幾何模型,也稱為共形圓盤模型。該模型幾何中的點均在Poincare球的內部,幾何中心的測地線對應任意垂直于圓盤邊界的圓弧或圓盤的直徑。根據Poincare 球的幾何性質,可對實體進行層次性建模,這是探索嵌入結構層次性信息的關鍵性質。本文選擇Poincare 球模型針對模型因提取特征不全面而影響檢測效果的問題,本文將模型Neck 層輸出的3 個有效特征層嵌入雙曲空間進行全連接層分類。全連接變換即線性變換,將歐氏空間Y=Ax+b映射至雙曲空間,并進行雙曲空間中全連接運算,利用矩陣向量乘法構造。

式中:Y為模型對輸入數據處理后最終的輸出結果;A為所選參數;x為輸入網絡模型中的變量;b為線性變化的偏置參數;log0x為莫比烏斯標量乘法通過在切空間中以0 為點投影至x。

將歐氏空間全連接映射至雙曲空間進行處理后,再反映射回歐氏空間,此過程稱為雙向映射。指數映射定義了從歐氏空間到Poincare 球模型的映射,即

式中: ⊕c為雙曲空間中的加法運算;c為曲率值;為保形因子。

偏置可通過莫比烏斯平移表示,首先將偏置映射至Poincare 球模型原點切線空間,然后將其平移至含偏置的新切線空間,最后將結果反映射回原模型。映射關系為

式中: PT為Paallel Transport 并行傳輸; λ0, λx為并行傳輸對應的結果。

Poincare 球模型中的2 個變量x、Y求和定義為

莫比烏斯標量乘法等同歐氏空間乘法,當c=0 時退化為歐氏空間,即

式中:e為標量因子; ?c為雙曲空間下的乘法運算。

雙曲模型內部是指數型運算,該運算有利于模型獲取數據的底層信息,對目標精確分類。因此,將歐氏空間內的運算推廣至雙曲空間可提升模型整體的檢測效果。

3 實驗與分析

實驗平臺軟硬件配置見表1。在模型訓練參數的設置中,將輸入檢測模型的圖像尺寸調整至640×640×3,動量因子為0.937,模型訓練優化器為SGD,學習率下降方式選用cos,初始學習率為0.001,批次大小為8,置信度閾值為0.5,根據損失收斂確定模型迭代2 500 次。對比模型訓練參數與之保持一致。

表1 實驗平臺軟硬件配置Table 1 Hardware and software configuration of experimental platform

3.1 數據集構建

實驗數據集源于某露天礦,通過??低暭t外雙目攝像頭實地采集,共獲取788 張圖像。利用labelimg 對數據集進行標注,并按照(訓練集+驗證集)∶測試集=(8+1)∶1 的比例對礦區數據集進行劃分。由于礦區環境特殊,導致收集數據量過少,所以采用Mixup 數據增強方法將數據擴增至原數量的6 倍,再將圖像調至640×640 后輸入檢測模型。對于礦區場景的特殊性,將礦區非結構化道路上的檢測目標——小型廂車、礦卡、礦卡2、礦卡3、灑水車、挖機、電鉆挖機、行人、鏟土機、電車分為3 大類,即挖機、非同類型礦卡及行人。

3.2 模型評價指標

檢測模型可用混淆矩陣作為評價指標,通常用n行n列矩陣表示,見表2。

表2 混淆矩陣評價Table 2 Confusion matrix evolution

基于混淆矩陣的評價指標有精確率、召回率、平均精度、準確率、F1度量,其計算方法見表3。其中B為檢測的目標數量,檢測模型綜合評價指標越高,表示模型性能越好。

表3 混淆矩陣性能指標計算公式Table 3 Calculation formula of performance indexs of confusion matrix

3.3 實驗結果與分析

基于雙曲嵌入的露天礦區暗光環境下道路多目標檢測模型的檢測結果由遠端和車載顯示器展示,結果如圖8 所示。

圖8 基于雙曲嵌入的露天礦區暗光環境下道路多目標檢測模型檢測效果Fig. 8 Detection effect of road multi-object detection model based on hyperbolic embedding in dark environment in open pit mine

實驗結果表明:該模型不僅對露天礦區暗光環境下的大尺度目標分類與定位精度較高,對礦卡及較遠距離的小尺度目標,即行人也可準確檢測和定位,能夠滿足無人礦卡在礦區特殊環境下駕駛的安全需求。由圖8(a)、圖8(d)可看出,模型利用Retinex-Net 將暗光處的像素動態擴展,可提高整體可視化,降低光照對目標的干擾,提升檢測效果;由圖8(b)、圖8(e)可看出,對于礦卡、挖機及行人這類尺度差距較大的目標,模型利用GAM 后,對不同尺度特征用不同加權方式,弱化非檢測對象的特征表達,提高檢測準確性;由圖8(c)、圖8(f)可看出,對于常見低分辨率圖像,先處理光照,再在模型輸出階段通過雙曲模型獲得更底層的特征信息,可進一步提高圖像整體檢測效果。

為驗證礦區暗光環境道路多尺度目標提出的圖像增強、GAM 及雙曲全連接層的有效性,開展消融實驗進行性能驗證。以YOLOv5 網絡模型為基礎模型,分別驗證加入Retinex-Net、GAM、雙曲全連接層后的效果,并將3 種改進策略同時加入基礎模型,進行驗證,結果見表4??煽闯鲈赮OLOv5 網絡模型中分別使用Retinex-Net、GAM、雙曲全連接層后,模型的檢測準確率分別提升了4%,8.23%和14.51%,檢測速度分別提高了-0.87,0.25,1.42 幀/s;使用Retinex-Net、GAM 及雙曲全連接層后,模型檢測準確率達98.6%,檢測速度為51.52 幀/s,檢測性能明顯提升。

表4 消融實驗結果Table 4 Ablation test results

為了驗證本文模型的有效性,將其與YOLO 系列和SSD 目標檢測網絡進行對比,結果見表5??煽闯?,本文所提模型的準確率較SSD、YOLOv4、YOLOv5、YOLOx、YOLOv7 分別提高了20.31%,18.51%,10.53%,8.39%,13.24%,達到98.67%,對于礦區道路上的行人、礦卡及挖機的檢測準確性達97%以上。

表5 不同網絡性能對比Table 5 Performance comparison of different networks

4 結論

1) 基于雙曲嵌入的露天礦區暗光環境下道路多目標檢測模型不僅對露天礦區暗光環境下的大尺度目標具有較高的分類與定位精度,對礦卡及較遠距離的小尺度目標也可準確檢測及定位,滿足無人礦卡在礦區特殊環境下駕駛的安全需求。

2) 為了減少露天礦區多種暗光圖像對檢測效果的影響,采用Retinex-Net 算法進行圖像預處理,檢測準確率提高了4%。

3) 使用Retinex-Net 進行圖像處理、添加GAM模塊及雙曲全連接層的完整改進模型檢測準確率達98.6%,檢測速度保持在51.52 幀/s,可為礦區安全提供保障。

4) 基于雙曲嵌入的露天礦區暗光環境下道路多目標檢測模型準確率達98.67%,對于礦區道路上的行人、礦卡及挖機的檢測精度達97%以上。

5) 由于實驗所需數據收集難度大、危險系數高,使數據集數量有限,該模型檢測目標的置信度還未達到0.9。下一步應考慮如何增加數據量,并提高檢測物體的置信度。

猜你喜歡
暗光雙曲露天礦
基于深度學習的無人機遙感影像增強*
中國科學技術館之“雙曲隧道”
備戰鐵礦露天礦與掛幫礦同時開采穩定性研究
露天礦山土石方量的測量及計算
夏夜
雙曲型交換四元數的極表示
一階雙曲型偏微分方程的模糊邊界控制
基于Delphi-TOPSIS法的露天礦采區接續方案優選
河北將對1881個露天礦山開展環境治理
基于雙曲和代數多項式的HC-Bézier曲線
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合