?

近鄰中心迭代策略的單標注視頻行人重識別*

2021-02-25 12:16張云鵬王洪元吳琳鈺顧嘉暉
軟件學報 2021年12期
關鍵詞:集上行人控制策略

張云鵬,王洪元,張 繼,陳 莉,吳琳鈺,顧嘉暉,陳 強

1(常州大學 信息科學與工程學院,江蘇 常州 213614)

2(社會安全信息感知與系統工業和信息化部重點實驗室(南京理工大學),江蘇 南京 210094)

行人重識別(person re-identification)旨在解決跨攝像機檢索匹配行人圖像或視頻的問題,主要有兩種方法:基于圖像的行人重識別和基于視頻的行人重識別.前者利用行人圖像匹配同一行人在不同攝像機視圖下的行人圖像[1-5],后者直接利用信息更加豐富的行人視頻片段匹配同一行人在不同攝像機視圖下的行人視頻[6-8].而基于視頻的行人重識別與現實世界的應用更為貼切,從而在近期引起了極大的關注.現有的基于視頻的行人重識別的方法主要依賴于完全標注的視頻片段.由于標注數據的成本過于巨大,因此研究依賴少量標注的半監督視頻行人重識別具有極大的應用價值.

單標注樣本學習是半監督學習的一種.單標注樣本視頻行人重識別的關鍵在于如何準確地對大量無標簽視頻片段進行標簽估計[9-11].其常見的方法是:在迭代過程中先將數據嵌入特征空間,以每個行人唯一的有標簽視頻片段特征作為固定度量中心,無標簽視頻片段根據與固定度量中心的距離為其分配偽標簽.初始有標簽數據和每次選定的偽標簽數據合并作為新的數據集,進行下一次訓練.如圖1 所示(圖中共有3 類數據:實心圓表示無標簽數據,顏色表示各自真實的分類;空心圓表示該類的初始有標簽數據特征;虛線圓內與空心圓顏色不同的點則表示偽標簽標注錯誤的數據,以空心圓為中心選取一定比例的偽標簽數據用于下一次訓練):隨著選取用作下次訓練偽標簽數據的增加,標注錯誤的偽標簽數量也極大地增加.因此,以上這種固定度量中心的方法是有缺陷的.在這種情況下,當有標簽數據在特征空間中處于類的邊緣或者遠離類的中心,隨著選取偽標簽數據的增加,將會得到大量不準確的偽標簽數據,而過多的不可靠的偽標簽數據在迭代過程中將會嚴重影響模型的性能.

Fig.1 Common label evaluation methods圖1 常見標簽評估方式

為了在每輪訓練過程中得到更多的正確偽標簽視頻片段用于下一次訓練,本文提出了一種新策略:近鄰中心迭代策略(neighborhood center iteration,簡稱NCI).每一次迭代訓練后,在特征空間中找出所選取的偽標簽視頻片段和有標簽視頻片段特征每一類的中心點,作為其下一輪預測無標簽視頻片段的偽標簽的度量中心點.隨著選取偽標簽視頻片段的數量逐步增加,本文的策略能更加準確地加入復雜的無標簽視頻片段用于下一次訓練.此外,傳統的行人重識別特征學習主要依賴于三重損失[12]等函數,其計算量大,因此,本文提出一個損失控制策略,聯合訓練交叉熵損失(crossentropy loss)和在線實例匹配損失(online instance matching loss,簡稱OIM Loss)[13],既能有效地縮小類內距離,又能使得訓練過程更加地穩定高效.

本文的主要工作如下:

(1) 提出訓練策略NCI,該策略中提出的新標簽評估準則能有效地提升無標簽視頻片段的偽標簽預測準確率和最終算法的精度;

(2) 提出損失控制策略,聯合訓練CrossEntropy Loss 和OIM Loss,使得訓練過程更加的穩定.

相對于最新的半監督和單標注學習方法,本文的方法在MARS 和DukeMTMC-VideoReID 兩個大型數據集上都有很好的性能提升.

1 相關的研究工作

對于監督視頻行人重識別,新出現了許多基于深度學習的方法[14-18],如:文獻[14]將細化循環單元模塊和時空線索聚合模塊用于恢復缺失幀和利用上下文信息,從而獲得行人視頻片段的特征表示;文獻[17]提出時空注意力感知學習方法,旨在視頻序列的時空上關注視頻中行人的重要部分,以解決行人圖像質量因不同的時間空間區域變化而變化的問題;文獻[18]提出了判別聚合網絡方法,直接聚合原始視頻幀,且結合度量學習和對抗學習的思想生成更多的判別圖像,減少每個視頻處理的圖像幀數,誤導性信息的低質量幀也可以得到很好的過濾和去噪.對于無監督的視頻行人重識別,文獻[13]提出了半監督行人檢測的OIM Loss,它也可用于無監督的視頻行人重識別;文獻[19]提出了一種自底向上聚類方法(bottom-up clustering,簡稱BUC)來聯合優化CNN 和無標簽樣本間的關系,并且在聚類過程中利用了一個多樣性正則項來平和每個聚類的數據量.

以往的半監督行人重識別方法大多數是基于圖像[20-23]行人重識別.近期出現了不少半監督視頻行人重識別方法,如Zhu 等人[24]提出了一種基于半監督交叉視圖投影的字典學習方法;也出現了一些單標注視頻行人重識別任務的方法,如Liu 等人[10]用有標簽的樣本初始化模型,計算出與查詢集樣本最接近的k個樣本并且刪除其中的可疑樣本,再將其余樣本添加到訓練集中,重復該過程直到算法收斂為止;Ye 等人[11]提出了一種動態圖匹配(dynamic graph matching,簡稱DGM)方法,該方法迭代更新圖和標簽估計,以學習更好的特征空間;Wu 等人[9]使用一個逐步利用無標簽視頻片段的策略(exploit the unknown gradually,簡稱EUG),先用有標簽視頻片段初始化網絡模型,再根據與有標簽數據的距離將偽標簽數據線性合并到訓練集中進行后續的訓練;文獻[25]用了一個單標注樣本漸進學習的方式(progressive learning,簡稱PL),將標簽數據、偽標簽數據和索引標簽數據這3 個部分在迭代過程中聯合訓練模型.但是文獻[10,11]中采用靜態策略來確定每次訓練所選擇的偽標簽數據的數量的方法是不合理的,因為初始模型可能不健壯,只有少數偽標簽預測在初始階段是可靠和準確的,如果選擇與后期訓練相同數量的數據,則不可避免地會出現更多錯誤的偽標簽數據.而文獻[9,25]中將有標簽視頻片段特征作為固定度量中心也會得到大量不準確的偽標簽數據.因此本文提出了近鄰中心迭代策略,從一定程度上解決偽標簽錯誤率低的問題.

2 近鄰中心迭代策略

2.1 基本框架

在迭代訓練過程中,采用的是一種常見的漸進學習方式[9],每次訓練選取一定比例可靠的偽標簽視頻片段 用于下一次訓練.S表示選取下一次訓練的偽標簽數據的候選集:

本文方法的具體框架如圖2 所示,采用ResNet-50 結構的端到端模型作為特征提取網絡,且在分類層前面加上了一個全連接層和一個時間平均池化層.對于每一個視頻片段,當所有圖片被提取為幀級特征后,時間平均池化層將所有的幀級特征合并,作為視頻片段的特征表示.

初始訓練時,使用唯一有標簽視頻片段集合L來初始化模型,再用訓練好的模型提取U中無標簽視頻片段特 征,每個無標簽視頻片段的偽標簽由特征空間中距離最近的度量中心點的標簽進行分配,然后產生每個無標簽 視頻片段的選擇指示器si,并根據公式(1)來得到候選集S.在之后的迭代中,每次候選集S和初始的標簽數據L合并為新的數據集D,D=S∪L.D則作為下一次訓練用的訓練集.且在訓練過程中,S隨著訓練次數的增加而不斷地 擴大.

Fig.2 Overall framework of NCI strategy圖2 NCI 策略整體框架

2.2 標簽評估標準

以往的標簽評估方法[9,25]中,有標簽數據作為固定度量中心,在每輪訓練中為最近的無標簽數據進行偽標簽分配.如圖1 所示,這一方法是有很大弊端的:原始有標簽視頻片段在特征空間內同類中的相對位置是固定的;且當原始有標簽視頻片段在特征空間中處于同類的邊緣或者遠離類中心的點時,每次訓練會預測出更多錯誤 的偽標簽,隨著選取偽標簽數據S的增大(例如圖中選取80%),選取到不可靠數據的概率變得更大.

針對這種情況,提出了一種新的標簽評估標準.在迭代過程中,利用得到的可靠集合D中每個類的中心,作為 下一次訓練預測偽標簽的度量中心點.具體來說,每次訓練結束,訓練完的模型提取無標簽視頻片段的特征并嵌 入特征空間,此時,無標簽數據特征與上一次訓練所得的集合D中每個類的中心(初次訓練D中每個行人只有一 個初始數據,則以此為類中心)依次計算距離,距離最近的類的標簽則為該無標簽視頻片段的偽標簽.然后,無標簽視頻片段與為其分配偽標簽的度量中心的距離排序,按比例選取距離較小并帶有偽標簽的無標簽視頻片段 作為可靠偽標簽數據候選集S,并與L合并為D,作為下一次訓練的數據集.依次迭代,直至用完所有無標簽視頻 片段.這樣能夠使得每次選取的度量中心更準確地反映出特征空間內每個類中的特征的集中趨勢,能夠更加接近類的真實中心,使得每次預測的偽標簽更加準確.

如圖3 所示(圖3 共有3 類:實心圓表示無標簽數據特征,空心圓表示該類的初始有標簽數據特征,五角星代 表上一次訓練所得集合D的類中心,虛線圓內與空心圓顏色不同的點則表示偽標簽標注錯誤的數據,此時則以 五角星為中心選取一定比例的偽標簽數據用于下一次訓練):當初始訓練后,以唯一有標簽樣本為中心點選取20%的數據,在之后訓練中依次以新的中心(五角星)為度量中心點選取40%,80%的數據.可以明顯地看到:前一次迭代選取的偽標簽數據與初始有標簽數據合并之后產生的新的度量中心點更加接近類的真實中心,而相比于圖1 預測出更多正確的偽標簽.因此,近鄰中心迭代策略中的標簽評估標準,能夠極大地提高每次偽標簽預測的準確率,進而提高最終結果.

數據樣本的集中趨勢描述有平均數、中位數等,本文分別用平均中心和中位數中心計算特征空間的樣本中心.由于MARS 數據集采樣的攝像頭較多且場景較為復雜,可能在特征空間中離群點較多,因此使用中位數中心 更為合適.DukeMTMC-VideoReID 數據集場景相對簡單,則使用平均中心更合適.用R表示D中所有類的中心的 集合,其中,平均中心公式可表示為

其中,Rk表示第k類樣本新的度量中心點,Dk表示D中第k類樣本的集合,N為Dk中元素的個數.

Fig.3 NCI label evaluation method圖3 NCI 標簽評估方式

2.3 動態抽樣策略

由于前幾次用于訓練的數據較少,模型的性能較差,預測的無標簽視頻片段的偽標簽可靠的數量較少,因此,若前幾次訓練每次選取過多的偽標簽數據,會極大地影響最終的模型性能.因此,本文采用了漸進的動態抽樣策略.其中,每個無標簽視頻片段與所有度量中心的距離的最小值可表示為

其中,xi∈U,Rk∈R表示新的度量中心點,φ(·)表示該無標簽視頻片段在特征空間中的特征.對于偽標簽數據的選 擇,通過選擇指示器st將一定比例較小的d(xi)對應的無標簽視頻片段xi作為可靠的偽標簽數據采樣到訓練中:

其中,mt表示當前輪次選取偽標簽數據的數量.隨著迭代次數t的增加,選取可靠偽標簽數據的數量會逐步增加:mt=mt-1+p·nu,p∈(0,1).其中,p表示迭代過程中選取偽標簽數據數量的增長率.比較好的選擇是將p設置為一個很小的值,這意味著mt逐步增大,并且每一步的變化很小.這種設置隨著迭代過程逐步優化,模型性能會非常穩定地提高,并最終獲得令人滿意的性能.

3 損失函數訓練策略

常用的OIM Loss 利用來自有標簽行人視頻數據的特征形成查詢表,與批次樣本之間的進行距離比較.另外,那些無標簽視頻片段可以被視為負樣本,將它們的特征存儲在循環隊列中并進行比較.不僅適用于單標注視頻行人重識別訓練場景,并且相比于其他損失函數收斂得更快更穩定.OIM Loss 可以表示為

其中,XOIM表示視頻片段的特征矩陣,V表示每個類代表性的特征,C表示提取的特征X與每個類的余弦距離.而 CrossEntropy Loss 也是常用的損失函數,在深度訓練中有著比較穩定和準確的效果.用XCe表示最終視頻片段的特征矩陣,則CrossEntropy Loss 可表示為

基于以上兩個損失函數,為了單標注視頻行人重識別的訓練過程更加穩定、模型性能更佳,本文提出了一個有效的損失函數訓練策略,聯合訓練OIM Loss 和CrossEntropy Loss 兩個損失函數:

其中,pCe和pOIM表示訓練過程中兩個損失評估的精度;β是一個可變參數,用于動態分配權重.損失函數的評估精度高,則分配大一點的權重;評估精度低,則分配小一些的權重.通過動態地調整訓練權重,使得在訓練過程中模型能夠更加穩定,表現得更加魯棒,無標簽數據的偽標簽精度更高.通過兩個大型數據集上的實驗,也驗證了本文的損失控制策略的有效性.

4 實驗與分析

4.1 數據集

MARS[7]數據集是視頻行人重識別任務中最大的數據集,數據集包含1 261 個行人,共有17 503 個視頻片段和3 248 個干擾視頻片段.其中,625 個行人用于訓練,636 個行人用于測試.訓練集中每個行人平均有13 個視頻片段,每個視頻片段平均有816 幀.

DukeMTMC-VideoReID[26]數據集包含1 812 個行人,共有4 832 個視頻片段.并將行人分別劃分為702,702和408 份,分別用于訓練、測試和干擾.總共2 196 個視頻片段用于訓練以及2 636 個視頻片段用于測試和干擾.每個視頻片段平均有168 幀.

本文使用累積匹配特征(cumulative matching characteristic,簡稱CMC)曲線和平均準確率(mean average precision,簡稱mAP)來評估每次迭代模型的性能,并使用符號M表示最終預測無標簽視頻片段偽標簽準確率.

4.2 實驗設置

在兩個數據集中,為每個行人隨機選擇攝像機1 中的一個視頻片段作為初始化有標簽數據集L.如果攝像機 1 沒有該行人,將在下一臺攝像機中隨機選擇一個視頻片段,以確保每個行人都有一個用于初始化的視頻片段.

實驗中,本文使用ImageNet[27]預訓練去掉最后的分類層的ResNet50 作為NCI 的初始模型.采用動量為0.5且權重衰減為0.000 5 的隨機梯度下降(SGD)優化方法.整體學習率初始化為0.1,并在最后15 個周期衰減為0.01.在用損失函數控制策略訓練的時候,由于初始數據過少,本文使用CrossEntropy Loss 來進行前幾次迭代的訓練,以獲得穩定的偽標簽數據;之后使用本文提出的損失函數控制策略,使得實驗過程更加穩定、效果更好.

4.3 實驗對比

4.3.1 參數分析

當訓練循環到第t步,本文會選擇t×p比例的帶有偽標簽的無標簽視頻片段用作下一次的模型訓練.其中,增長率p的影響見表1、表2.p取0.05~0.3 時,p值越小,rank-1,mAP的精度越高.且當p=0.05 時,rank-1,mAP和偽標簽的精度最高,模型性能最好.如圖4 所示,當p取0.05,0.10 和0.20 時,前面幾次迭代3 張圖曲線間的間隙不大,然而后面曲線間的間隙則越來越大,并且p取0.05 時的曲線明顯高于0.10 和0.20.原因是錯誤標簽評估在迭代過程中會不斷累積,選取偽標簽越多錯誤的累積影響越大.因此,增長率p擴大的越緩慢,選取的正確偽標簽越多,從而模型精度rank-1,mAP越高.綜合分析,p值取小一些效果會更好.本文以下闡述以p=0.05 和p=0.1 的結果進行比較.

在選取特征空間的數據中心點時,本文使用了平均中心和中位數中心.結果見表1:p取0.05~0.3 時,在MARS 數據集上,中位數中心比平均中心偽標簽精度明顯更高.其中:當p=0.05 時,中位數中心比平均中心預測偽標簽精度高 1.63%;當p=0.10 時,中位數中心比平均中心偽標簽精度高2.43%.而p取 0.05~0.3 時,在DukeMTMC-VideoReID 數據集上,平均中心比中位數中心偽標簽精度明顯更高.其中,p=0.05 時,平均中心比中位數中心偽標簽精度高0.8%;當p=0.10 時,平均中心比中位數中心偽標簽精度高0.87%.因此,本文實驗選用中位數中心作為MARS 數據集的標簽評估方式,平均中心作為DukeMTMC-VideoReID 數據集的標簽評估方式.

Table 1 Comparison of center selection method correct rate表1 中心選取方式正確率的對比區性 (%)

Table 2 Comparison of NCI and EUG results表2 NCI 與EUG 結果對比 (%)

Fig.4 Results of different values of parameter p on the MARS dataset圖4 參數p 不同值在MARS 數據集上的結果圖

4.3.2 近鄰中心迭代策略的有效性

如表2、表3 所示,表示p取0.05~0.3 時,NCI 策略相比于EUG 在rank-1accuracy(%)、mAP(%)、偽標 簽準確率M(%)有著全面性的提升.

? 當兩種方式均取p=0.10 時,在DukeMTMC-VideoReID 數據集上,NCI 的rank-1 精度提升2.61%,mAP精度提升3.84%,偽標簽的預測精度提升1.61%;在MARS 數據集上,NCI 的rank-1 精度提升2.78%,mAP精度提升6.12%,偽標簽的預測精度提升4.04%;

? 均取p=0.05 時,在DukeMTMC-VideoReID 數據集上,NCI 的rank-1 精度提升1.61%,mAP精度提升3.17%,偽標簽的預測精度提升1.13%;在MARS 數據集上,NCI 的rank-1 精度提升1.93%,mAP精度提升3.35%,而偽標簽的預測精度提升1.97%.

綜合以上分析能得出,增長率p取0.05~0.3 時,無論是rank-1,mAP精度還是偽標簽的準確率,均有了極大的提升.由此得出,本文提出的NCI 相比于最新的策略EUG 有著全面的性能提升.

4.3.3 損失控制策略的有效性

表3 是聯合NCI 和損失控制策略分別在DukeMTMC-VideoReID 和MARS 數據集上的實驗結果與NCI 在rank-1accuracy(%)、mAP(%)、偽標簽準確率M(%)的比較,以驗證損失控制策略的有效性.如表3 所示,NCI 和損失控制策略聯合訓練的結果與NCI 進行比較可得:

? 當均取p=0.10 時,DukeMTMC-VideoReID 數據集上,rank-1 精度提升6.1%,mAP精度提升7.5%,偽標簽準確率提升5.36%;在MARS 數據集上,rank-1 精度提升0.7%,mAP精度提升0.6%,偽標簽的準確率提升0.51%;

? 當p=0.05 時,DukeMTMC-VideoReID 數據集上,rank-1 精度提升5.9%,mAP精度提升7.6%,偽標簽的準確率提升4.82%;在MARS 數據集上,rank-1 精度提升2%,mAP精度提升2.9%,偽標簽的準確率提升3.48%.

Table 3 Comparison of loss control strategy results表3 損失控制策略結果的對比 (%)

綜合以上分析,本文提出的損失控制策略能有效地提升NCI 的性能,最終提升模型的性能.同時,表3 在同等p值下的實驗結果對比,能依次證明本文的NCI 和損失控制策略提升效果明顯.

4.3.4 與其他方法比較

表4 是本文的方法NCI 和損失控制策略分別在DukeMTMC-VideoReID 和MARS 數據集上,與其他方法在rank-1accuracy(%)和mAP(%)的比較.表4 中,與本文的對比方法有OIM,BUC,DGM,Stepwise,EUG 和PL 等方法.本文提出的方法相比其他方法對單標注視頻行人重識別性能都有明顯的提升.本文提出的方法 NCI 在DukeMTMC-VideoReID 數據集上,最高使rank-1 達到74.40%,mAP達到66.40%;在MARS 數據集上,最高使rank-1 達到64.60%,mAP達到45.80%.而在NCI 加上提出的損失控制策略之后,在DukeMTMC-VideoReID 數據集上,最高使rank-1 達到80.30%,mAP達到74.00%;在MARS 數據集上,最高使rank-1 達到66.60%,mAP達到48.70%.性能遠超過DGM,Stepwise,EUG 和PL 等方法.

NCI 和損失控制策略聯合訓練的最終結果與無監督的方法OIM 和BUC 相比,在DukeMTMC-VideoReID和MARS 數據集上有著明顯的優勢.相比于單標注視頻行人重識別最新的方法EUG 和PL 有很大提升.

? 當p=0.05 時,在DukeMTMC-VideoReID 數據集上,rank-1 分別提升了7.51%,7.4%,mAP上分別提升了10.77%,10.7%;在MARS 數據集上,rank-1 分別提升了3.93%,3.8%,mAP上分別提升了6.25%,6.1%;

? 而當p=0.10 時,在DukeMTMC-VideoReID 數據集上,rank-1 分別提升了8.71%,8.5%,mAP上分別提升了11.34%,11.2%;在MARS 數據集上,rank-1 分別提升了3.48%,3.2%,mAP上分別提升了6.72%,6.5%.

Table 4 Comparison of accuracy between NCI and other methods表4 NCI 與其他方法的結果的對比 (%)

綜合以上分析,說明本文NCI 和損失控制策略聯合訓練,相比于同類的方法有很大的提升,從而驗證了本文提出的近鄰中心迭代策略和損失控制策略的有效性和優越性.

5 結束語

單標注學習的錯誤標簽估計會嚴重降低模型的魯棒性,無標簽視頻片段的標簽估計對于單標注視頻行人重識別至關重要.針對這個問題,本文提出了一種近鄰中心迭代策略.該策略從簡單可靠的無標簽視頻片段樣本開始,逐步更新用于預測偽標簽的度量中心點,獲取更加可靠的偽標簽數據來更新模型.每次選取的可靠偽標簽數據以較慢的速度增加.此外,本文提出了一種新的損失訓練策略,能使得訓練過程更加穩定又能縮小類內距離,從而獲得可靠的偽標簽數據和更魯棒的模型.本文方法的有效性在MARS 和DukeMTMC-VideoReID 兩個大規模數據集上得到了很好的驗證.

猜你喜歡
集上行人控制策略
毒舌出沒,行人避讓
Cookie-Cutter集上的Gibbs測度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
工程造價控制策略
路不為尋找者而設
R語言在統計學教學中的運用
現代企業會計的內部控制策略探討
我是行人
鋼鐵行業PM2.5控制策略分析
曝光闖紅燈行人值得借鑒
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合