?

基于改進DeepSORT和FastReID的室內多目標人員跨鏡識別與跟蹤

2023-07-15 01:42趙安新楊金橋楊浩波史新國付文旭王偉峰
西安科技大學學報 2023年3期
關鍵詞:注意力身份像素

趙安新,楊金橋,楊浩波,史新國,付文旭,劉 帥,王偉峰

(1.西安科技大學 通信與信息工程學院,陜西 西安 710054;2.陜西正通煤業有限責任公司,陜西 長武 713600;3.山東博選礦物資源技術開發有限公司,山東 濟寧 272073;4.西安科技大學 安全科學與工程學院,陜西 西安 710054)

0 引言

隨著大數據技術的不斷提升,人工智能技術也在不斷地發展成熟,基于深度學習算法與深度神經網絡的視覺識別技術已經應用于工業的各個領域[1]。除了如洗煤廠、煉鋼廠、汽車制造廠等工廠的車間內為了保證工人安全需要使用智能監控設備,當企業出現如流水線人手不足或者火災等應急情況下需要進行人員調度或者疏散人員時,需要清楚的了解人員的分布境況,以便指定合理的方案[2]。將目標檢測、目標跟蹤與行人重識別算法應用到辦公樓的監控設備中,既能夠幫助企業對人員進行合理管控,又避免了人眼查看監控因疲勞而忽視關鍵信息的問題,省時省力。同時,3種算法的結合使用能夠有效的增加識別與跟蹤的準確性[3]。

在實際應用中,多目標的智能識別與跟蹤往往面臨著檢測框重框和人員遮擋的問題。針對重框問題,譚芳喜等使用DIOU-NMS(基于Distance-IOU的非極大值抑制)去除冗余框,提升檢測精度[4]。張長倫等在NMS中融入了注意力機制,結合了位置信息和框的得分信息得到框的最終得分[5]。侯志強等提出一種雙閾值非極大值抑制算法,將傳統的(Intersection Over Union,IOU)指標替換為全局交并比指標(Generalized Intersection Over Union,GIOU),抑制多余的檢測框[6]。從以上研究可以看出,目前重框問題主要通過非極大值抑制(Non Maximum Suppression,NMS)算法來解決,以上算法雖然解決了重框問題,但并未考慮預測框和真實框的橫縱比和難易樣本之間的平衡問題。為了降低遮擋對人員追蹤的影響,學者們通過在網絡模型中添加注意力機制引導網絡學習圖片中需要關注的區域,薛麗霞等結合空間和通道雙重注意力機制提出一種網絡模型,提取到了更有針對性的特征[7]。CHEN等為解決注意力機制提取局部特征容易忽略地相關性特征的問題提出了一種多樣專注網絡(Attentive But Diverse Network,ABD-NET)[8]。ZHANG 等 設 計 一 種(Relation-a-ware Global Attention,RGA)模型,對于提高特征的表示能力效果顯著[9]。雖然注意力機制能夠有效的降低遮擋帶來影響,但現有的注意力機制還無法徹底解決遮擋問題。文獻[10]指出ReID模型能夠有效增加軌跡關聯的準確性,緩解目標被遮擋的問題,而目前人員跟蹤中使用的ReID模型相對簡單,難以提取到更好的外觀信息。為此,文中提出一種基于優化DeepSORT和FastReID的多目標人員識別與跟蹤的方法,使用(Efiicient General-ized Intersection Over Union,EIOU)-NMS算法代替YOLOv5s原有的NMS算法,EIOU-NMS算法計算了預測框和真實框的寬高之間的差異值,既解決重框問題,又降低了難易樣本不平衡的帶來的影響。在FastReID的特征提取網絡中引入NEUFA注意力機制,并使用優化后的FastReID網絡替換DeepSORT原有ReID網絡,緩解了跟蹤過程中的遮擋問題。此外,為了保證人員在被遮擋時能夠準確識別,建立了動態人員圖像庫并根據人員的像素坐標校正FastReID的識別結果。

1 人員目標檢測算法

目標檢測的目的在于找到圖像中感興趣的部分并進行分類與定位,被廣泛應用在視頻分析中[11-13]?,F階段目標檢測方法主要分為單階段法和兩階段法,兩階段法先通過如邊界箱和選擇性搜索等區域選擇法進行候選區域的生成,再使用卷積神經網絡對樣本進行分類,典型的兩階段目標檢測算法有快速區域卷積神經網絡(Faster R-CNN)[14]和掩模卷積神經網絡(Mask R-CNN)[15]等。兩階段法雖然準確度高但相比單階段法速度相對較慢,單階段法直接通過卷積網絡提取樣本特征預測不同目標物的類別信息與位置信息。單階段法提升了算法的運行速度,能夠滿足實時檢測的要求,典型的單階段目標檢測算法包括YOLO(You Only Look Once)[16]系列和SSD(Single Shot Multibox Detector)[17]系列。

表1對比近年來經典的目標檢測算法,可以看出,YOLOv5s的平均精度(Average Precision,AP)和每秒傳輸幀數(Frames Per Second,FPS)均高于其他算法,故本研究采用YOLOv5s進行人員檢測。

表1 目標檢測算法性能對比Table 1 Performance comparison of target detection algorithms

非極大值抑制(Non Maximum Suppression,NMS)算法通過調整目標檢測框與最高得分的預測框之間的交并比IOU來抑制多余的目標框,IOU是預測框與真實框之間的交并比,IOU損失是指1減去IOU的值,IOU和IOU損失函數見下式。

式中 B為預測框面積;Bi為真實框面積。IOU損失雖然可以表達出預測框和真實框的檢測效果,但當預測框和真實框不相交時,IOU損失就恒等于1,無法繼續進行學習。此外,IOU損失函數還無法判斷預測框與真實框之間的位置關系。而EIOU損失函數[18]計算了預測框和真實框中心點的標準化距離和2個框寬與高之間的差異,使得預測框與真實框不相交時,EIOU損失函數依舊可以尋找下降梯度。EIOU損失函數計算見下式。

式中 b和bgt分別為預測框與真實框的中心點;ρ為b和bgt之間的歐式距離;d為預測框和真實框的最小外接矩形的對角線距離;ω,ωgt,h,hgt分別為預測框和真實框的寬和長;Cw,Ch為覆蓋預測框和真實框的最小外接矩形的寬度和長度。

因此采用EIOU-NMS算法替換了YOLOv5s中原有的NMS算法。EIOU-NMS算法將人員檢測準確率由90.4%提升到91.2%,提升了0.8%,召回率由94.8%提升到95.2%,提升了0.4%。

圖1對比NMS優化前后的檢測結果,圖1(a)是優化前的檢測結果,圖1(b)是優化后的檢測結果,可以看出優化后的NMS成功去掉人員檢測中多余的預測框。

圖1 NMS優化試驗Fig.1 NMSoptimisation test

2 Deep SORT多目標跟蹤

目標跟蹤通過找到圖像中感興趣的區域,在后續視頻幀中對其進行跟蹤,在監控安防與無人駕駛等領域都起著關鍵作用[19-21]?;诟櫟哪繕藬的?,可以分為單目標和多目標跟蹤,現階段研究主要通過獲取目標外觀特征和視頻每一幀中的目標信息來進行跟蹤。

DeepSORT作為一種端到端的跟蹤算法,能夠同時提取了人員的外觀信息和運動信息,因此研究使用DeepSORT算法進行多目標跟蹤。但由于DeepSORT中的使用的ReID特征提取網絡結構簡單,為了獲得更具針對性的行人特征,需要使用其他ReID模型替換DeepSORT中原有的ReID模型。表2將FastReID[22]與其他典型的行人重識別算法做了對比,可以看出在大型公開數據集Market 1501,DukeMTMC中的Rank 1和mAP值均高于其他算法,所以在DeepSORT中使用FastReID特征提取網絡。

表2 不同行人重識別算法在大型數據集上的表現Table 2 Performance of different person re-identification algorithms on large datasets

為了降低遮擋帶來的影響,在替換DeepSORT的特征提取網絡之前在FastReID的Bottleneck中添加了注意力機制,如圖2所示,在FastReID的Bottleneck中添加了NEUFA[23]注意力機制。表3記錄FastReID添加不同注意力機制之后在Mar-ket1501數據集上的表現,其中FastReID+NEUFA的mAP值和Rank值均是最高的。

總之,低輻射的研究一直伴隨著CT的發展,從設備的硬件不斷升級,軟件的功能不斷完善,到圖像算法的不斷改進,被檢查者所受到的輻射劑量越來越低,在CT輻射安全管理的模式下,三種肺部CT采集方式所得到輻射劑量有差異,70Kv有效劑量最低,雙能方式的有效劑量次之,常規120Kv最高。

圖2 Bottleneck中添加注意力機制Fig.2 Attention mechanism added to Bottleneck

表3 不同注意力機制在Market 1501數據集上的表現Table 3 Performance of different attention mechanisms on Market 1501 dataset

改進后的DeepSORT模型在跟蹤時ID跳變次數由13次減少為8次,在原有的基礎上減少38 46%。

3 基于動態圖像庫和像素坐標的人員重識別

人員重識別(Person Re-identification)利用計算機視覺,將多個攝像機拍攝的同一人員的圖像關聯起來,人員第1次被攝像機拍攝到的圖像會被保存到一個圖像庫,當人員被另一個攝像機拍攝到時,當前圖像會在圖像庫中進行匹配識別,識別出準確的身份信息。文中使用FastReID進行人員的重識別,針對由于遮擋導致的人員身份錯誤識別或者識別不到的問題,在FastReID的Bottleneck中添加了NEUFA注意力機制。表4記錄了Fas-tReID添加不同注意力機制在測試視頻中的表現,FastReID添加NEUFA之后的誤識別次數和None的數量均低于其他注意力機制。其中None的數量為未識別到的人員數量,誤識別次數指的是錯誤識別到的人員次數,比如將人員A錯誤識別為人員B。

表4 不同注意力機制在測試視頻中的表現Table 4 Performance of different attention mechanisms in test videos

3.1 動態人員圖像庫

由于在公司辦公樓內的人員基本是固定的,所以提前建立好人員圖像庫用來進行人員的身份匹配。張海燕等將Market1501數據集上捕捉到的人員姿態劃分為8個標準姿態骨架,如圖3所示,基于此在人員圖像庫內提前放置每個人員在8個不同方向的行走圖像[24]。為了能夠在人員遮擋時準確識別到人員的身份信息,圖庫內還需保存人員身體被部分遮擋的圖像。

圖3 標準姿態骨架Fig.3 Standard stance skeleton

攝像機鏡頭可劃分為遠景鏡頭、中景鏡頭、近景鏡頭和特寫鏡頭[25]。其中遠景鏡頭拍攝到人員的全身像,中景鏡頭拍攝人物膝部以上的活動情形,表現人物手臂活動范圍,近景鏡頭拍攝人員胸部以上圖像,特寫鏡頭則拍攝人員肩部以上的頭像。其中中景鏡頭、近景鏡頭和特寫鏡頭可以看成人員被遮擋的情況。以上遮擋可以看成橫向遮擋,而遮擋除了橫向遮擋之外還有縱向遮擋,因此對于每個人員需要存儲他的全身圖像、頭部圖像、胸部以上的圖像、膝部以上的圖像和半身像。

考慮到以上因素,需要在人員圖像庫內提前放置每個人員在8個不同方向的行走圖像,每個方位的圖像包括人員全身圖像、頭部圖像、胸部以上的圖像、膝部以上的圖像和半身像,共計40張圖像。除了預設的圖像,圖像庫還會根據人員的識別信息存儲與圖像庫內已有的圖像特征差異較大的人員圖像。

圖像的存儲通過計算人員之間的余弦相似度,余弦相似度得分閾值設定為0.6,當得分大于等于0.6時確定為目標人員,當有多人得分均大于0.6時,取最高值,得分越高說明與圖像庫內的某一張圖像越相似。為了存儲到與初始圖像特征差異較大的圖像,需要在能夠確定人員身份的情況下保存該人員得分分值較低的圖像,該分值越接近0.6越好,這樣存儲到的圖像才能夠與初始圖像有較大的區分度。動態圖像庫在測試視頻中的表現見表5。添加了動態人員圖庫的FastReID算法將None的數量由169次減少到123次,誤識別的次數由34次減少到19次,添加了注意力機制與動態人員圖庫后,None的數量由169次減少到108次,誤識別的次數由34次減少到17次,相較單一添加注意力機制,同時添加注意力機制與動態人員圖庫2種方法對于減少遮擋引起的人員錯誤識別與無法識別的問題收益更大。

表5 動態圖像庫在測試視頻中的表現Table 5 Performance of motion picture library in test videos

3.2 根據像素坐標校正人員身份信息

在人員識別的過程中,添加注意力機制和建立動態人員圖庫能夠有效減少由于人員部分遮擋導致的人員無法識別和錯誤識別的次數,而當人員被嚴重遮擋時,以上2種方法仍然無法準確識別到人員的身份信息。因此,提出一種根據像素坐標校正人員身份信息的方法,如果該人員在遮擋的上一幀程序正確識別到了該人員的身份信息,就可以根據上一幀的人員信息校正當前幀的人員信息,該方法的步驟如下。

步驟2:判斷當前幀是否存在None或者誤識別現象,如果沒有,保存當前幀的人員信息,作為下一幀的校正依據。如果有,則計算每個人員之間的像素距離,判斷該人員在前一幀和當前幀之間的距離是否小于閾值。

步驟3:如果距離小于閾值,查看該人員身份是否發生改變,如果發生改變,則使用前一幀保存的正確信息進行校正。如果距離大于閾值,則判定前一幀與當前幀不是同一個人,該人員直接使用當前幀的身份信息。

步驟4:校正完成后保存當前幀人員信息,作為下一幀校正依據。

上述步驟中,人員在前一幀與當前幀的距離指的是人員前一幀與當前幀的檢測框上邊框中心點的距離,通過兩點之間的距離公式計算,兩點間的距離見式(4)。

式中 d為前一幀與當前幀人員檢測框上邊框中心點的距離;x,x0分別為前一幀和當前幀上邊框中心點的x坐標;y,y0分別為前一幀和當前幀上邊框中心點的y坐標。距離的閾值應不小于人員在前一幀與當前幀移動的最大距離,閾值的取值依賴于視頻的分辨率,采樣間隔和人員的移動速度。本研究采用型號為DH-IPC-HFW4443M-I1的大華攝像機,攝像機距離地面3 m,俯拍角度為30°。攝像機的分辨率為1 280×720,采樣間隔為1,人員移動的平均速度為1 m/s,人員每一幀在x軸和y軸上移動的像素距離均不超過5個像素單位,因此,當前試驗環境下閾值th=當視頻分辨率、人員平均速度和采樣間隔發生改變時,人員每一幀所能移動的最大像素距離也會發生改變。當分辨率發生變化時,視頻幀內所包含的像素點的個數也會變化,但人員在前一幀和當前幀在x軸和y軸上所能移動的最大像素距離與視頻幀中x軸和y軸總長度的比值不發生改變,因此當視頻分辨率發生變化時,基于該比值可以求出其他分辨率下人員所能移動的最大像素距離。以1 m/s的速度為基準,當人員移動速度變為原來的x倍時,每一幀內人員的移動的最大像素距離也會變為原來的x倍。同樣的,當采樣間隔變為原來的x倍時,人員在前一幀和當前幀能移動的最大像素距離也會變為原來的x倍,例如當采樣間隔由1變成4時,人員在相鄰2次采樣之間所能移動的最大像素單位會變為原來的4倍??紤]以上因素,確定閾值的表達式為

式中 th為閾值;l1,l2分別為在當前分辨率下,人員在一幀內沿x軸所能移動的最大像素單位與x軸總長的比值和沿y軸所能移動的最大像素單位與y軸總長的比值;px,py分別為目標分辨率的寬度與高度;f為FastReID進行人員識別時的采樣間隔;v為人員的運動速度。該運動估計方法的流程如圖4所示。

圖4 運動估計流程Fig.4 Movement estimation flow

表6對比注意力機制、行人動態圖庫和根據像素坐標校正人員身份信息(簡稱運動估計)3種不同方法在測試視頻中的表現,數據顯示,在Fas-tReID中分別加入3種方法都能夠減少None的數量和誤識別的次數,將注意力機制、人員動態圖像庫和運動估計的方法結合之后,None的數量減少為34次,減少了79.8%,誤識別次數減少為3次,減少了91.2%,相較于只使用一種或者2種方法,能夠更準確的識別到人員身份,充分證明了上述方法對于正確識別人員身份信息的有效性。

表6 運動估計在測試視頻中的表現Table 6 Performance of motion estimation in test videos

使用人員像素坐標校正人員身份信息的效果展示如圖5所示:在第654幀中,白衣男子的身份信息,本應未fu,但是由于身體部分被遮擋,被Fas-tReID錯誤識別為了yao。在第838幀中,帶眼鏡的黑衣男子的身份信息,本應為shen,但是由于身體部分被遮擋,FastReID未識別到該人員。通過該方法成功的校正了白衣男子和戴眼鏡黑衣男子的身份信息。

圖5 運動估計校正人員身份信息Fig.5 Movement estimation correction of person identification information

4 跨攝像機的人員識別與跟蹤

為了提升人員識別與跟蹤的效果,將目標檢測、行人重識別與行人跟蹤技術結合起來,構建的框架如圖6所示,對于輸入的視頻流,首先使用YOLOv5s進行人員檢測,將人員檢測框傳入到DeepSORT中,DeepSORT將人員特征信息輸入到FastReID中,FastReID通過將視頻中提取到的人員特征與人員查詢圖庫內的圖片進行匹配,從而識別出人員身份信息。

圖6 整體框架Fig.6 Overall frame

采用深度學習框架Pytorch 1.9.0,NVIDIA Ge-Force GTX 1650顯卡,在Windows 64位系統下進行試驗研究。選用2臺大華DH-IPC-HFW4443M-I1型號的攝像機,攝像機1拍攝辦公室內的場景,攝像機2拍攝辦公室外走廊的場景,攝像機距離地面2.5 m,俯拍角度30°。試驗場景如圖7所示。

圖7 試驗場景Fig.7 Test scenario

試驗結果如圖8所示,為了保護人員隱私,在比較清晰的人員面部打了馬賽克,后續試驗結果做了同樣處理。人員沿走廊走向辦公室,在辦公室行走一圈后停止前行。圖8(a)是攝像機2拍攝到的走廊的視頻截圖,圖8(b)是攝像機1拍攝到的辦公室內的視頻截圖,圖8(a)和圖8(b)均存在人員相互遮擋的現象。圖中藍色的線條是人員的跟蹤軌跡,右上角的英文字母是FastReID賦予的人員身份信息,可以看出在測試視頻中,無論處于哪個場景,行人的身份信息都沒有發生改變??梢娢闹刑岢龅目蚣茉谌藛T部分身體被遮擋的情況下能夠準確的識別和跟蹤到目標人員。

圖8 人員跨鏡跟蹤Fig.8 Personnel tracking across the camera

5 結論

1)結合改進后的YOLOv5s人員檢測算法、DeepSORT人員跟蹤算法與FastReID行人重識別算法實現了室內人員的跨鏡識別與跟蹤。

2)使用DeepSORT算法進行人員跟蹤,優化了DeepSORT的檢測器YOLOv5s算法的中的非極大值抑制算法和DeepSORT的特征提取網絡,降低了人員跟蹤過程中的ID跳變次數。

3)使用FastReID進行人員重識別,結合注意力機制、人員動態圖像庫和運動估計的方法降低了遮擋造成的人員無法識別與識別錯誤的次數。

猜你喜歡
注意力身份像素
像素前線之“幻影”2000
讓注意力“飛”回來
“像素”仙人掌
éVOLUTIONDIGAE Style de vie tactile
跟蹤導練(三)(5)
“揚眼”APP:讓注意力“變現”
身份案(下)
A Beautiful Way Of Looking At Things
他們的另一個身份,你知道嗎
高像素不是全部
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合