?

基于分段線性激活的多任務行人目標檢測識別算法研究

2024-04-18 10:12朱亞旋張達明尹榮彬吳繼超
汽車文摘 2024年4期

朱亞旋 張達明 尹榮彬 吳繼超

【摘要】通過在已有檢測網絡結構的基礎上增加解耦預測支路,實現了車載攝像頭下行人位置、人頭位置、行人年齡與遮擋屬性識別任務,經過試驗論證了分類支路在不同網絡位置對檢測性能的影響。針對網絡部署中一些非線性激活函數算子不受工程環境支持這一問題,提出了一種使用分段線性函數來擬合非線性激活函數的方法。經過驗證表明,該方法既提升了網絡識別的性能又為工程部署提供了便捷性。

關鍵詞:多任務識別;解耦預測;擬合非線性;激活函數

中圖分類號:TP277? ?文獻標志碼:A? DOI: 10.19822/j.cnki.1671-6329.20220316

Research on Multi-Task Pedestrian Target Detection and Recognition Algorithm Based on Piecewise Linear Activation Function

Zhu Yaxuan, Zhang Daming, Yin Rongbin, Wu Jichao

(FAW(Nanjing) Technology Development Co., Ltd.,? Nanjing 211100)

【Abstract】 On the basis of the existing detection network structure, a new decoupling prediction branch is added to realize the multi-task recognition of pedestrian position, head position, pedestrian age and occlusion attributes under the vehicle-mounted camera in this paper. The influence of classification branch on detection performance at different network locations is demonstrated by experiments. Aiming at the problem that some nonlinear activation function operators in engineering applications are not supported by the deployment environment, a method using piecewise linear function to fit the nonlinear activation function is proposed, which not only improves the performance of network identification but also provides convenience for engineering deployment.

Key words: Multi -task recognition, Decoupling prediction, Nonlinear fitting, Activation function

縮略語

PAN? ? Path Aggregation Network

FPN? ? Feature Pyramid Networks

YOLOX You Only Look Once X

0 引言

隨著神經網絡技術與信號采集技術的發展,基于深度學習的視覺感知識別技術越來越多地應用于生產生活當中。而受限于硬件算力支持與工程應用環境的局限性,基于多任務集成、算子優化的神經網絡開發需求與日俱增。

在當前學術領域中,基于”編碼-解碼”(Encoder-decoder)結構的目標檢測網絡近年來不斷地刷新著各大公開數據集的指標記錄,其中YOLOX[1](You Only Look Once X)作為一個“無需設定錨框”(Anchor-free)方法,備受業界學者與技術人員青睞。然而,在實際智能網聯汽車研發需求中,除了對目標檢測與分類有識別需求外,圖像中目標的其他屬性,甚至圖像中除目標外的其他背景信息均有著智能化識別的需求,良好的多任務模型[2]是解決該類問題的首選方案。

通過設計網絡結構,實現目標位置與類別預測的同時,實現其他維度的屬性信息識別,再通過將網絡模型工程化部署至相應的硬件平臺,最后集成到產品中,是當前工業界的主流智能化開發流程。其中,如何設計一個好的多任務預測結構,如何快速而又穩定地將網絡模型部署到相應的硬件平臺是當前技術開發的主要挑戰。

在使用神經網絡進行訓練時,目前學術界常用的Mish[3]與Swish[4]激活函數均能很好地滿足梯度回傳需求,兩者函數形狀分布較為相似,且均滿足無上界有下屆、平滑、非單調的特性,性能在總體上優于Relu函數效果。然而,在實際部署中,因兩者計算方式復雜,不利于網絡特征量化后的數值計算,甚至Mish算子在一些部署環境中存在算子不支持的情況。

本文針對這一問題,提出了一種針對復雜激活函數映射進行擬合的方案,在保障網絡性能的基礎上,去除了激活函數中的非線性運算部分,方便了后續的工程化部署。同時,為了達到目標檢測與圖像內容分類任務的最優性能,本文通過試驗,探究了不同的識別任務之間的相互影響,基于不同的損失約束對網絡進行訓練。

1 多任務識別網絡

基于實際的生產應用需求,在YOLOX網絡結構的基礎上,增加了一個分類支路來實現目標檢測與圖片相關屬性分類的多任務識別,探究了分類支路在網絡不同位置處對檢測性能的影響。

1.1 解耦多任務支路

圖1為所采用的神經網絡方案處理流程,在原有的YOLOX網絡方案的基礎上,提出了一種解耦的多任務識別結構,輸入為待識別圖像,輸出則既有目標的檢測框與類別信息又有目標相關的其他屬性(如年齡、遮擋率、頭部遮擋率)信息。

從圖1可以看出,新增的分類支路的作用是判斷圖片中目標的年齡、目標的遮擋程度。相較于額外使用一個分類網絡模型針對相同的輸入圖像進行識別,將其集成至原有的目標檢測網絡,只需要在網絡結構上新增一個支路即可,在時效性上,后者具有巨大優勢。

圖2為目標新增屬性支路在網絡模型中的可拼接位置示意,可以看出,對于新增的網絡屬性分類,其既可以基于檢測支路的特征圖進行分類[5],也可以在檢測支路處理前接入解耦支路進行分類識別[6],本文基于這2種選擇分別進行了實驗。

1.2 多維度屬性分類

圖3為新增多屬性分類通道示意。本文所設計的網絡需要實現目標包括年齡階段(成人、小孩)、人體遮擋程度、頭部是否遮擋3個維度屬性,且屬性信息彼此之間相互獨立,針對這一情況,本文采用了“一頭多通道”的方式[7],將輸出的特征圖通道進行拆分,分別計算各自屬性損失。

根據不同分類任務實際分類類別數的情況,具體的損失函數的設計如式(1)所示

[Lcls= Lbce1+ Lbce2+ Lce3]? ? ? ? ? ? ? ? ? ? ? (1)

式中:[Lce]表示分類常用的多分類交叉熵損失函數,[Lbce1]為目標年齡的分類損失,[Lbce2]為目標頭部是否遮擋的分類損失,[Lce3]為整體遮擋程度的分類。

2 多任務損失配比方法

為了更好地了解不同任務支路同時訓練時彼此之間的相互性能影響,本研究通過對分類支路的損失添加比例系數k[8],如式(2)所示:

[Losstotal=lossdet+klosscls]? ? ? ? ? ? ? ? ? ? (2)

式中:[k∈(0.01, 2)],[Losstotal]為所有任務的損失總和,[lossdet]為檢測支路損失,[ klosscls]為分類支路的損失。

對于檢測支路,分別基于當前目標檢測領域常用的ciou、diou[9-10]損失函數進行訓練,而多屬性分類支路,考慮到屬性之間的獨立性,本文網絡訓練時采用的是1∶1∶1的比例即對不同屬性分類損失進行同等比重計算損失。

3 分段線性擬合方法

圖4和圖5分別為Mish和Swish[3-4]激活函數的分布形狀,其函數表達分別為式(3)和式(4)。

[f(x)=x·tanh (ln (1+ex]))? ? ? ? ? ? ? ? ? ? (3)

[f(x)=x·sigmoidβx]? ? ? ? ? ? ? ? ? ? ? ?(4)

式中:x為輸入特征張量元素值;β為該函數引入的超參,可根據實際應用場景調節。

可以看出Mish與Swish在(-∞,0)區間內的分布形狀較為相似,核心思想是當輸入的x值非常小時,其梯度值變化較小,而在趨近于0的一段區間內,存在非線性的同時,梯度分布有正有負[11]。

針對這一現象,基于使用正多邊形來擬合圓形的思想,提出了一種分段擬合的激活映射方式。該方法共分為2個階段,首先,使用過原點的線性函數與分段的邊界值來確定每個激活點位置,然后通過兩個相鄰的激活點來實現該分段區間的線性激活函數的映射。

3.1 激活點位置確定

圖6所示為本文所示方案的激活點位置選取的示意,其中每一個分界區間點橫坐標為x,其對應的激活點縱坐標f(x)的計算方式如式(5)所示:

[f(x)=x· e(x-α)β? ? ? ? ? ? ? ?x<αx· e(α-x)β? ? ? ? α

式中:[α]、[β]為該擬合方案的參數,實際應用時,可根據試驗效果來選取對應的值。

本研究經過試驗發現,在自采的車載行人數據集中,取[α=0]和[β=2]時模型識別效果最好,不同的取值對應的激活點分布見圖6。

3.2 分段線性擬合

在得到一系列指定區間的激活點之后,對相鄰的2個端點進行連接,得到分段的線性映射函數[12],這一系列分段的線性映射函數最終能夠擬合原有非線性函數映射的效果。

如圖7所示,當取[α=0]、[β=1]時,本方案與Swish及Mish函數的分布較為相近。相較于Swish所實現的非線性映射形態,本文提出的方法通過2個參數能夠實現在x < 0范圍[13]內引入非線性映射效果的同時,擁有更寬的值域映射區間,梯度分布較為均勻,有利于網絡的訓練和推理。

4 試驗結果與分析

為了驗證本文所提出的網絡結構的識別效果,現使用車載攝像頭進行圖片的采集,對包含目標的區域進行裁剪,得到11 197張圖片包含26 110個目標檢測框用于訓練,使用2 143張圖片包含5 149個目標框進行測試,由于車載相機成像分辨率較高,裁剪后的遠處行人較于原圖屬于較小的目標,且區域清晰度較低。

圖8為網絡識別的效果圖展示,其中矩形框部分為目標檢測的類別與區域信息,文字部分為對圖中目標的分類識別的結果。

針對前文所提出的一些問題,本文分別從分類支路位置、分類損失權重以及替換擬合函數后的模型性能表現3個方面進行了對比試驗并計算了量化指標。

4.1 分類支路對檢測支路的影響

表1為新增的分類支路與檢測支路在結構上是否解耦的性能表現,其中檢測支路主要預測人體(Person)、人頭(Head)和非機動車(Non-motor vehicle)3個類別目標框位置,而屬性分類支路既可以使用檢測支路的特征,也可以另起一個支路。

由表1可知,對于新增分類屬性的需求,將新增分類的支路與原有的檢測支路解耦,確實有利于神經網絡對兩個任務的學習。

在額外的分類支路已經解耦的條件下,由于分類支路與檢測支路雖然識別任務不同,但都是對圖像特征語義的理解與表達,兩者存在部分共同的特征編碼階段,因而兩個支路的損失函數梯度回傳而存在一定的相互影響。

本文在實際訓練時發現,分類支路的損失值(loss)收斂速度較快,故為了達到較好的綜合性能表現,避免因分類支路的網絡權重迭代影響目標檢測性能的表現,對分類支路的loss梯度回傳時的權重設置較小的比例,故設置k分別為0.01、0.10、0.50[14]時進行對比試驗, 結果如表2所示。

為了提升網絡對目標框的檢測性能,分別采用giou、ciou[15-16]損失函數與YOLOX網絡原生的損失函數進行對比試驗,結果如表3所示。

由表3可以看出,本文所涉及的網絡在使用YOLOX原生損失約束的條件下,檢測性能最好,初步分析可能是人頭的目標區域過小,而giou和ciou損失函數所計算的信息在目標過小時對檢測性能的促進意義不明顯。

4.2 擬合激活函數訓練

表4所示為使用本文的線性擬合方案與原生非線性激活函數在相同網絡結構下的訓練效果對比。

如表4所示,在同等網絡結構、訓練與驗證數據集條件下,使用本文自定義的分段激活函數進行訓練,個別類別的檢測效果甚至優于使用原激活函數時的效果,總體性能表現與原方案能夠保持對齊。

在試驗過程中發現,使用該方案并沒有產生額外的時間成本,因此,所設計的分段線性擬合激活方案能夠實現對常見非線性激活函數的完美替換。

5 結束語

本文通過試驗驗證了網絡模型訓練時,不同任務支路解耦對總體性能的影響,同時發現在人頭等小目標檢測方面,即使一些損失約束在理論上存在改進,但是實際網絡訓練時效果提升不大。

本文結合理論與實踐,提出了以分段線性函數擬合非線性激活函數的方法,試驗表明,該方法能夠完美地替換非線性激活函數在網絡中的作用。相較于傳統非線性激活函數,本文設計的擬合方法能夠映射的特征值域范圍更廣,在工程部署上更加便捷,同時沒有額外的時間成本,有著重要的理論研究意義與工程應用價值。

最后,受限于采集與標注條件,試驗所使用的圖片質量較為駁雜,選取的目標為車載攝像頭中的遠端行人與騎行人區域的裁剪,后續可以在數量更多、分辨率更高的數據集下進行試驗研究。

參 考 文 獻

[1] ZHENG G, SONGT LIU, FENG W, et al.YOLOX: Exceeding YOLO Series in 2021[C]. CVPR(Computer Vision and Pattern Recognition Conference), 2021.

[2] JIAN X. exYOLO:A Small Object Detector Based on YOLOv3 Object Detector[J]. Procedia Computer Science, 2021, 188(10): 18-25.

[3] PRAJIT R, BARRET Z, QUOC V L. Swish: a Self-Gated Activation Function[J]. Neural and Evolutionary Computing,arXiv.1710.05941.2017.

[4] ALEXEY B, CHIEN-YAO W, HONGYUAN M L. Yolov4: Optimal Speed and Accuracy of Object Detection[C]. CVPR, (Computer Vision and Pattern Recognition Conference),2020.

[5] 王彩云. 目標檢測的研究進展[C]. 中國計算機用戶協會網絡應用分會2019年第二十三屆網絡新技術與應用年會論文集, 2019.

[6] MENGTIAN L,YUX W, DEVA R. Towards Streaming Perception[C].ECCV(European Conference on Computer Vision), 2020.

[7] 張有健, 陳晨, 王再見. 深度學習算法的激活函數研究[J]. 無線電通信技術, 2021, 47(1): 115-120.

[8] 徐增敏, 陳凱, 郭威偉, 等. 面向輕量級卷積網絡的激活函數與壓縮模型[J]. 計算機工程, 2022, 48(5): 242-250.

[9] 朱亞旋, 張小國, 陳剛. 基于圖像紋理與矩特征的轉子繞線檢測研究[J]. 測控技術, 2018, 37(2): 16-19.

[10] 王攀杰, 郭紹忠, 侯明, 等. 激活函數的對比測試與分析[J]. 信息工程大學學報, 2021, 22(5): 551-557.

[11] 付志航. 基于空間與時間上下文的深度學習目標檢測算法研究[D]. 杭州: 浙江大學, 2019.

[12] 尤軒昂, 趙鵬, 慕曉冬, 等. 基于多任務學習的可見光與近紅外虹膜融合研究[J]. 計算機工程與應用, 2022, 58(21): 197-204.

[13] 王曉峰, 王昆, 劉軒, 等. 自適應重加權池化深度多任務學習的表情識別[J]. 計算機工程與設計, 2022, 43(4): 1111-1120.

[14] ROBERTO C, YARING, ALEX K. Multi-task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics[C].IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018.

[15] HAMID R, NATHAN T, JUN Y G, et al.Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression[C]. CVPR,(Computer Vision and Pattern Recognition Conference), 2019.

[16] ZHAO H Z, PING W, DONG W R, et al.Enhancing Geometric Factors in Model Learning and Inference for Object Detection and Instance Segmentation[J].IEEE Transactions on Cybernetics, 2022, 52(8):8574-8586.

(責任編輯 梵鈴)

【作者簡介】

朱亞旋(1994—),男,一汽(南京)科技開發有限公司,碩士研究生,研究方向為車載視覺障礙物、交通元素感知算法。

E-mail:zhuyaxuan@faw.com.cn

張達明(1994—),男,一汽(南京)科技開發有限公司,碩士研究生,研究方向為車載視覺車道線感知算法開發。

E-mail:zhangdaming6@faw.com.cn

尹榮彬(1989—),男,一汽(南京)科技開發有限公司,學士,研究方向為車載智能化高低階輔助駕駛技術合成。

E-mail:yinrongbin@faw.com.cn

吳繼超(1992—),男,一汽(南京)科技開發有限公司,碩士研究生,研究方向為基于車載信號的地圖定位算法。

E-mail:wujichao1@faw.com.cn

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合