?

基于人物屬性提取的行人重識別改進算法

2024-03-27 16:21梁冰銳李宏杰
現代計算機 2024年1期
關鍵詞:紋理行人特征

梁冰銳,周 衛,王 奔,李宏杰,楊 靜

(1. 廣西民族大學電子信息學院,南寧 530006;2. 廣西民族大學人工智能學院,南寧 530006;3. 廣西民族大學數學與物理學院,南寧 530006)

0 引言

行人重識別(pedestrian re-identification,ReID)是使用計算機視覺技術來判斷圖像或視頻隊列中是否有特定行人,或識別可能源和非重復攝像機視圖的現有視頻序列中的目標行人的技術。行人重識別問題作為圖像檢索的子問題被廣泛關注。在監控視頻中,由于攝像機的分辨率和拍攝角度,通常無法使用高質量的面部照片,因此在人臉識別失敗的情況下,行人重識別將成為非常重要的替代技術。

與傳統的視頻監控相比,ReID 在實際應用場景下的數據來源非常多樣化,不同的攝像設備之間存在較大差異,行人外觀易受穿著、遮擋、姿態和視角等因素影響,ReID 對算法也有較高的要求。

在行人屬性識別中,獲取了行人的高層語義信息,與低層特征不同,高層特征對視覺變換和成像條件的變化具有相對魯棒性。雖然在實驗室領域已經有很多研究成果,但在工程運用中依舊還頗具有挑戰性,因為有很多因素,如視覺、光線和分辨率都會對實驗結果造成影響。

目前行人屬性識別的基本方法是將整個圖片放進同一個CNN 網絡,并輸出多個代表屬性的標簽進行分類?;谶@個最基本的方法,目前最新的工作主要集中在如何對不同粒度、不同規模的屬性進行識別,如何通過提取場景中的上下文信息輔助屬性的識別,以及如何提取不同屬性間的相關性信息。不同粒度屬性的提取通過建立不同網絡層次的分支分別進行提取,再將不同分支提取的特征進行拼接作為最終特征。

1 相關工作

1.1 行人重識別現狀

近年來,在行人重識別方面,已有一些研究成果。Chen等[1]提出用mAP(mean average precision)作為算法的評價標準,指出使用mAP 作為評價標準能更好地比較方法的優劣。而Zheng等[2]將CMC 曲線和mAP 結合作為評價標準。Yan 等[3]提出了RFA-Net,先提取圖像的顏色特征,然后與LSTM(long short term memory)結合,獲得基于序列的特征,充分利用序列數據集的信息,然后再進行匹配。Mclaughlin 等[4]提出將輸入的信息分為外觀特征和光流信息,將CNN 和RNN 網絡相結合,在RNN 層上加入時域池化層使得該網絡可以處理任意長度的視頻,進行聯合調參。Zhou等[5]提出利用深度神經網絡將特征學習和度量學習統一在一個框架下,進行訓練和推理。Liu等[6]提出基于累積運動上下文的視頻人物重識別,采用了時間和空間分離的二路卷積網絡結構,將獲得的表觀特征和運動特征融合,作為RNN的輸入,和目前現有的方法相比,該方法的Rank-1 非常高。接下來,基于Transformer 的方法[7-8]也得到了越來越多的關注。和CNN 比較,TransReID[9]的Rank-1達到了明顯的改善,Rank-1超過了87%。但是,由于訓練CNN 和ViTs 的巨大差異,使用ViTs視覺的Transformer時,ViTs在Rank-1上獲得了較差的性能。

1.2 行人屬性提取研究現狀

在行人屬性提取方面,Li等[10]在基于深度層次內容信息的人體屬性識別中訓練CNN網絡,從所有檢測部位中選取最具描述屬性的人體部分;并結合整體人體作為姿態深度表示。Liu 等[11]提出了一種基于注意力機制(attention-based)的深度神經網絡, 提出多方向注意機制模塊(multi-directional attention,MDA),提取多層特征,包含局部和全局特征,進行多層特征融合,進行細粒度的行人屬性分析。

1.3 行人重識別和人物屬性提取數據集研究現狀

在基于視頻的行人重識別研究中,VIPER作為使用最廣泛的數據集,RANK-1的精確度從2008 年的12.0%[12]提升到2015 年的63.9%[13];與此同時,自2010—2016 年以來,CHUK 上的Rank-1獲得了56.7%的增長。因為這些數據集的規模都不大,就算使用了深度學習,其特征和度量方法所得到的最好結果仍然是近似于手工計算出來的。然而,在Market-1501 上,深度學習的計算精確度得到了顯著提升。2015—2016 年,Market-1501 數據集的Rank-1 的精確度從43.42%[14]提升至74.04%[15]。

基于視頻的行人重識別數據集研究近幾年來也引起了研究人員的重視。iLIDS-VIDRank-1準確率從2014 年的23.3%[16]提升至2016 年的58%[17],2017 年,有研究者提出基于上下文以及聯合CNN、RNN 的AMOC 方法[18-20],Rank-1可以達到68.7%,同樣,Zhou 等[21]通過將從數據集MARS 上獲得的CNN 特征運用到PRID2011上,使得其Rank-1 準確率達到76.3%;而在MARS 上,Rank-1 準確率達到68.3%。2017 年,Zhao 等[22]在iLIDS-VID、PRID2011 以及MARS上的Rank-1 準確率分別達到了55.2%、79.4%以及70.6%,在MARS上的mAP也有所提高。2021年Fu 等[23]在LUPerson 上通過收集未標記的人物圖像來構建大規模預訓練數據集,結果表明在LUPerson 數據集上基于CNN 的SSL 預訓練與ImageNet-1k預訓練相比提高了ReID性能。

2 現有數據測試及說明

在針對現有行人重識別算法的測試中,目前公認的數據集為Market1501 數據集以及Duke數據集。以下是對兩個數據集的大概介紹。

2.1 Market1501數據集

Market1501 的行人圖片采集自清華大學校園的六個攝像頭,一共標注了1501 個行人。其中751 個行人用于訓練集,750 個行人用于測試集。其中gallery 集中含有標注的750 個行人的19732張圖片,query集中含有標注的750個行人的3368張圖片。

2.2 DukeMTMC-reID 數據集

DukeMTMC-reID 的行人圖片采集自Duke 大學校園的八個靜態攝像頭,一共標注了1812 個行人。其中,1404 個行人被超過兩個攝像頭捕捉到,而408 個行人只被一個攝像頭拍攝到。其中gallery 集中包含702 個行人和408 個干擾行人,共17661 張圖片。query 集中包含了702 個行人,共2228張圖片。

2.3 自制數據集

自制數據集采集于廣西民族大學的四個靜態攝像頭,一共標注了54 個行人。其中,query中含有54 個行人的368 張圖片,gallery 集中含有54個行人的4025張圖片。

對目前國內外比較先進、泛化性強的幾種行人重識別算法進行了調研、代碼復現和測試。其中,選取了TorchReID、TransReID、TransReID-ssl三種有典型代表性的算法進行詳細說明,見表1。

表1 幾種行人重識別算法的交叉測試表

使用自制數據集進行測試后的數據見表2。

表2 使用自制數據集測試的詳細情況表

從表2 可以看出,由于現有的ReID 方法大多是在同一數據集上進行訓練和測試,使用交叉數據集進行測試的結果都不理想。從整體的測試結果來看,現有的ReID 算法都體現了很強的過擬合的風險。因此可以得出目前現有的ReID 算法并不能很好地適用于工程層面,還需要進行一系列改進的結論。

3 模型

3.1 整體架構

由現有算法測試結果可知,由于現有的行人重識別算法都是使用相同數據集進行訓練和測試的,訓練出來的模型均存在很強的過擬合問題,在跨域條件下的測試表現十分不理想,因此均不適用于工程條件下的行人重識別任務。

本文提出了一種改進的行人重識別方法,將傳統基于Transformer 的行人重識別方法與行人屬性提取方法結合,此方法可以增加ReID 算法識別的魯棒性以及泛化性,在非同一來源的跨域行人重識別任務中有不錯的表現。方法的整體結構如圖1 所示,由ReID 模塊、行人屬性提取通路模塊以及注意力機制模塊三部分組成。

圖1 模型層次圖

算法的整體流程如下:

(1)將當前被查詢的query 圖片送入reid 通道提取特征值,并且匹配出gallery 庫中相似度最高的Top10圖片;

(2)同時將此query 圖片使用paddleseg 算法去除背景得到query’,將去除背景的query’圖片送入AlphaPose 中根據人體關鍵點分割上半身與下半身輪廓;通過HSV 色域空間比對query’的顏色信息,灰度共生矩陣分布計算所得的query’的紋理信息,其中上下衣顏色屬性通過獨熱編碼歸為10 類10 種顏色,上下衣紋理屬性以余弦相似度形式進行存儲;

(4)將所得到的query 圖片的人物屬性值、query圖片通過ReID算法得到的rank10的行人特征匹配值、query 圖片通過ReID 算法得到的rank10 的10 張圖片的人物屬性值一同送入注意力機制模塊進行結果整合,最后即可輸出該query圖片的匹配成功的rank圖片結果。

3.2 ReID模塊工作流程

ReID 模塊選取了TransReid-ssl 算法作為baseline,將query 圖片輸入Transformer 網絡(如圖2 所示),提取特征,并根據閾值在gallery數據庫中找到匹配閾值最高的Top10圖片作為最后結果,并進行可視化輸出,輸出結果如圖3所示。

圖2 ReID模塊的Transformer網絡模型

圖3 分別使用market1501(a)與自制數據集(b)的ReID匹配結果

數據集中含有標注的750 個行人的3368 張圖片。

圖3(a)為使用Market1501 所訓練的模型,測試數據集為Market1501 所測試出來的query 圖片當前匹配閾值最高的Top10 的圖片;圖3(b)為使用Market1501 數據集所訓練的模型,測試數據集為自制數據集所測試出來的當前匹配閾值最高的Top10的圖片。

3.3 人物屬性提取模塊工作

人物屬性提取算法可以在更加細微的層面提取出待檢測行人圖片的特征,例如:性別、頭發長度、袖子長度、下身服裝長度、下身服裝類型、是否戴帽子、是否背背包、是否提手提包、上半身服裝顏色、下半身服裝顏色、年齡等屬性。由于由人物屬性提取算法提取到的人物屬性是語義級別的特征,魯棒性強,因此在跨鏡條件下,部分人物屬性特征可以起到輔助行人重識別判斷的作用。

在輔助判斷行人重識別的行人屬性特征的屬性選擇上,以跨鏡、魯棒性強作為篩選條件,本文認為選擇上身衣物顏色、上身衣物紋理、下身衣物顏色、下身衣物紋理這四種人物屬性特征為輔助行人重識別的參數較為合理。

人物屬性提取模塊(person-attribute moudle)是對從query 庫中抽取出來的待問詢圖片進行人物屬性提取的算法模塊。

本例患者腫塊較大,呈分葉狀,增強掃描病變實性部分與邊緣明顯強化,與文獻報道相同[3][4][5],腫瘤內伴有較多點狀、條狀、塊狀鈣化,與文獻報道有所不同,提示EMC病灶內可伴有較多鈣化,這為進一步認識EMC提供了依據??傊瓻MC臨床及CT表現缺乏特征性,確診主要依據病理組織學及免疫表型。

人物屬性提取模塊分為三步:

(1)通過PaddleSeg 將人物背景與人物主體進行分離,如圖4 所示。PaddleSeg 是一個基于PaddlePaddle 深度學習框架的語義分割庫,用于解決圖像語義分割問題。在本文所述的人物屬性提取的方法中,使用了PaddleSeg 提供的語義分割模型和數據增強方法,可以實現對圖像中人物和背景的分割。

圖4 運用PaddleSeg對人物進行背景與主體分離

(2)通過基于深度學習的人體姿態估計庫AlphaPose 對分離背景的人物圖像進行人物姿態關鍵點解析,并且根據人物的姿態關鍵點進行人物上下裝的切分。結果如圖5所示。

圖5 AlphaPose切割分離的人物上下裝衣物

(3)對上一步分離的人物上下裝切分圖片進行顏色與紋理的識別。主要流程如圖6所示。

圖6 顏色、紋理判定主要流程

首先輸入當前幀切分出來的人物上裝或下裝圖片,將圖片從RGB 顏色空間轉為HSV 色域空間,并遍歷表3 所示的顏色列表生成掩碼圖像,然后對掩碼圖像進行二值化操作找出輪廓,更新主要顏色并且計算上下裝的紋理的灰度共生矩陣。

表3 10種HSV色域空間值

通過人物屬性提取算法,進一步篩選出行人在攝像頭內切片數據的語義級別的特征,如圖7 所示,包括切片行人的上衣顏色、下裝顏色、上衣的紋理灰度共生矩陣數據、下裝的紋理灰度共生矩陣數據。

圖7 行人的上下衣顏色屬性以及紋理灰度共生矩陣屬性

3.4 注意力機制模塊設計方法

3.4.1 行人屬性提取的參數選擇

通過人物屬性提取算法,進一步篩選出行人在攝像頭內切片數據的語義級別的特征,包括切片行人的上衣顏色、下裝顏色、上衣的紋理灰度共生矩陣數據、下裝的紋理灰度共生矩陣數據。

3.4.2 激活函數的選擇

選擇Heaviside 函數作為激活函數。對人物衣物屬性特征進行二分類。如果匹配則選擇,不匹配則過濾刪除掉Top10中的圖片。

3.4.3 注意力機制模塊的設計

如圖8 所示,通過將當前query 圖片的Top10 的mergin 值、當前query 圖片的人物上下衣的紋理灰度共生矩陣的余弦距離、通過簡單函數篩選過濾的人物上下衣顏色值作為參數輸入,輸入至注意力機制模塊中,最后輸出當前query圖片的gallery庫篩選結果。

圖8 注意力機制的設計

4 實驗與分析

4.1 實驗數據

本文使用Market1501數據集與上文所提的自制數據集進行訓練與測試。均使用Market1501數據集進行訓練,測試集分別使用Market1501與自制數據集。具體數據見表4。

表4 實驗數據詳細信息表

本文使用Rank-1 準確率、精確率P、召回率R作為行人重識別的衡量指標,其定義如式(1)~式(2)其中TP是正確匹配的人物圖片的數量,FP為錯誤匹配的人物圖片的數量,FN為沒有進行匹配的人物圖片的數量。

Rank-1 準確率表示模型在給定一個查詢圖像后,將數據庫中與查詢圖像最相似的正確匹配項排在第一位的準確率。

4.2 實驗設置參數

為了驗證本方法的可行性,本文與Trans-ReID 模型進行對比,驗證本方法在跨域行人重識別方向上的改進效果。

本實驗的環境配置見表5。

表5 環境配置表

4.3 實驗數據

為了驗證本方法的可行性,本文與Trans-ReID 模型進行對比,驗證本方法在跨域行人重識別方向上的改進效果。本文提出的基于人物屬性提取的行人重識別改進算法的效果見表6。

表6 改進算法與原算法比較情況

本文提出的改進算法的人物匹配結果如圖9所示。

圖9 TransReID-ssl+PA-A算法匹配人物圖片輸出結果

本文的TransReID-ssl+PA-A 改進算法在跨域條件下的Rank-1值達到81%,高于TransReID-ssl模型,說明通過基于人物屬性提取的行人重識別改進算法能夠很好地提高行人重識別算法在跨域條件下的準確率,在一定程度上加快了行人重識別算法在工程上應用的步伐。

5 結語

針對行人重識別算法在工程應用上對rank-1的命中率的高要求、對算法模型泛化性的高要求,本文提出了一種基于人物屬性提取的行人重識別改進算法。本文的主要貢獻有:①通過數據集之間的交叉測試以及使用自制數據集對現有行人重識別算法的泛化性做了詳細的測試;②提出了基于人物屬性提取的行人重識別方法,在行人重識別方法中引入了人物屬性作為第二通道,通過注意力機制對行人重識別結果進行二次篩選,得到更為精確的rank-1 結果;③針對行人重識別,從工程運用的角度設計并制作了自制數據集,從是否打傘、更換衣物、跨鏡等角度捕捉行人圖片。

猜你喜歡
紋理行人特征
毒舌出沒,行人避讓
基于BM3D的復雜紋理區域圖像去噪
如何表達“特征”
不忠誠的四個特征
路不為尋找者而設
使用紋理疊加添加藝術畫特效
抓住特征巧觀察
TEXTURE ON TEXTURE質地上的紋理
我是行人
消除凹凸紋理有妙招!
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合