?

大數據環境下基于遷移學習的人體檢測性能提升方法

2015-07-22 21:50陳駿龍劉亞洲唐曉晴
現代電子技術 2015年14期
關鍵詞:遷移學習大數據

陳駿龍+劉亞洲+唐曉晴

摘 要: 大數據環境下,可用于人體檢測的數據樣本數量迅速增長。這些數據樣本在清晰度以及所包含的判別信息等方面有較大差別,導致這些數據無法直接使用。傳統基于遷移學習的人體檢測方法主要針對沒有目標域樣本或者目標域樣本很少的情況,無法充分利用大量的數據樣本。針對這一問題,提出基于遷移學習的人體檢測性能提升方法,該方法根據遷移學習的思想,利用分類器的特性計算源樣本與目標樣本間的相似性并根據樣本分布圖,篩選目標樣本更新分類器。相對于已有方法,該方法充分利用了數據,且在不增加檢測時間的基礎上對檢測性能有一定的提升。

關鍵詞: 大數據; 遷移學習; 人體檢測; SVM

中圖分類號: TN911?34; TP391.4 文獻標識碼: A 文章編號: 1004?373X(2015)14?0001?05

Performance improving method of human detection based on transfer learning in

big data environment

CHEN Junlong, LIU Yazhou, TANG Xiaoqing

(School of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing 210094, China)

Abstract: In the big data environment, the number of data samples for the human detection increases rapidly. There is a great difference between sharpness and discrimination information in these data samples, so the data cannot be used directly. The traditional human detection methods based on transfer learning are suitable for the situations of no target domain sample or few domain samples only. In view of the above problems, a performance improving method based on transfer learning theory for human detection is proposed. The characteristics of classifier are utilized to calculate the similarity between source samples and target samples according to the idea of transfer learning. The selection of target samples is executed to update the classifier according to sample distribution. Compared with the existing methods, this method makes full use of the data, and improves the detection performance without addition of more time.

Keywords: big data; transfer learning; human detection; SVM

0 引 言

近年來人體檢測一直是目標檢測的熱門主題,在智能監控、車載系統以及交通系統等應用中處于核心地位,吸引了許多研究人員從事這一研究。由于人體姿態、衣著和背景的頻繁變化讓其成為計算機視覺研究的一大挑戰。目前用于人體檢測的方法很多,例如較早的Haar特征[1]、對其進行的優化[2?3]、目前流行的HOG特征[4]以及根據HOG特征改進的可變形部件模型(Deformable Part Models)[5]等。

隨著人體檢測的發展,用于人體檢測的數據樣本數量也在不斷增長。例如常用數據庫:MIT[1],INRIA[4],Caltech[6]等,根據時間的變化,數據樣本數量呈現出不斷增長的趨勢。2000年建庫的MIT只有900多行人樣本,2009年建庫的Caltech有30萬行人樣本,行人樣本數量增加了300多倍。

現有方法通常使用一次原始數據訓練模型,無法應對一些場景的變換。針對場景的變化,許多研究人員利用遷移學習的思想對行人檢測進行了優化。遷移學習的目標是有效地利用先驗知識,達到更快,更好地解決新問題的目的[7]。目前遷移學習已經廣泛地應用在自然語言處理[8?9]和模式識別[10?11]等領域。文獻[12]利用遷移學習解決了在特定場景下的行人檢測問題,提出了基于分類一致性的學習模型,該模型有效地提高了檢測效果。還有直接添加樣本的方法[13],這個方法迭代約10次后性能可達到最大值。文獻[14?15]根據目標域中兩類樣本的分布,更新源樣本的權值,本質上就是從源樣本中選取與目標樣本相似的部分進行訓練,這個方法迭代2次后就可達到最佳效果。上述方法解決了場景變換對檢測的影響,但是這些方法無法有效地利用已有目標樣本[16?19]。

本文主要基于遷移學習的思想,針對大量已有的數據,從樣本選擇方面入手,依據樣本間的相似性和樣本的分布特征對數據篩選。該方法能夠有效地應用已有數據樣本,提升檢測性能。

1 大數據環境下基于遷移學習的人體檢測

1.1 人體檢測所用特征及分類器

本方法采用方向梯度直方圖(HOG)特征與支持向量機(SVM)分類器[4]。HOG特征對圖像的幾何形變和光照的變化都能保持很好的不變性。特征提取方法:將檢測圖像分為N個胞元(Cell),由若干個胞元組合為一個塊(Block),整副圖像由可重疊的若干塊構成,通過統計每塊包含的胞元在各方向上的梯度分布,組成圖像的HOG特征。支持向量機(SVM)是一種基于VC維與結構風險最小化原理的機器學習方法。通過尋找最佳分類平面,使兩類不同數據點間隔最大,從而對數據進行分類。SVM對于小樣本非線性以及高維數據有很好的分類效果。

1.2 遷移學習

遷移學習可以從現有的數據中遷移知識幫助學習。它的目標是利用從一個環境中學到的知識去幫助新環境中的學習任務,因此遷移學習不會像傳統機器學習那樣做同分布假設。傳統的機器學習與遷移學習的大致流程[20]如圖1所示。遷移學習方面的工作主要分為以下3個部分:同構空間下基于實例的遷移學習,同構空間下基于特征的遷移學習與異構空間下的遷移學習?;趯嵗倪w移學習具有更強的知識遷移能力,基于特征的遷移學習具有更廣泛的知識遷移能力,而異構空間的遷移學習具有廣泛的學習與擴展能力。

遷移學習常用符號表示如下:D表示域,由特征空間[χ]與邊緣概率分布P(X) 兩部分組成。其中X是一個特定的學習樣本,[X={x1,x2,…,xn}∈χ],[xi]是對應于這個學習樣本的第i個特征向量。通常情況下,如果兩個域不同,那么他們的特征空間或者邊緣概率分布就不同。給定一個域[D={χ,P(X)}],任務[T]由兩部分組成:標簽空間[Y]和目標預測函數[f(?)],表示為[T={Y,f(?)}]。目標預測函數[f(?)]只能通過學習訓練數據[{xi,yi}]得到,其中[xi∈X],[yi∈Y]。給定實例[x],可以用目標檢測函數[f(?)]預測對應的結果[f(x)]。

遷移學習定義:給定源域[DS]與源域的任務[TS],目標域[DT]與目標域的任務[TT],用源域[DS]與源任務[TS]的知識,當[DS≠DT]或者[TS≠TT],改進目標域[DT]中的目標預測函數[f(?)]的能力。

圖1 傳統機器學習與遷移學習的區別

三類遷移學習:

(1) 同構空間下基于實例的遷移學習:其基本思想是源域與目標域之間存在差異,但仍有部分樣本之間存在關系,這部分樣本比較適合訓練針對目標域的檢測器。此類的目標是從源域訓練數據中找出與目標域數據相似的實例,將這些實例遷移到目標域的學習中去。其關鍵技術是如何過濾源域中與目標域差異較大的數據。

(2) 同構空間下基于特征的遷移學習:其基本思想是利用互聚類算法同時對源域與目標域數據進行聚類,產生一個公共的特征表示,新的特征比原始特征更優。通過把目標域數據表示在這個新的空間里,以實現遷移學習。根據源域中有無有標記數據又分為基于特征的有監督遷移學習和基于特征的無監督遷移學習(自學習聚類)。

(3) 異構空間下的遷移學習(翻譯學習):主要用于解決源域與目標域數據分別屬于兩個不同特征空間的問題。

1.3 基于遷移學習思想模型更新策略

基于遷移學習思想模型更新策略主要利用了同構空間下基于實例的遷移學習思想并對其擴展,更新策略過程如圖2所示。利用目標域與源域的相似性過濾數據,篩選目標域的數據用于更新檢測模型。

圖2 基于遷移學習的模型更新過程

傳統的遷移學習方法根據樣本特征分布直接篩選源樣本,如圖3所示,樣本點距離表示其相似性,并采用K近鄰等聚類方法選擇樣本[21],K近鄰等方法的參數等只能根據經驗選擇并且對結果影響很大。

圖3 INRIA庫樣本與VIRAT庫樣本分布圖

本文介紹的策略使用分類器對目標域與源域樣本打分,根據得分分布篩選目標域樣本,最終更新模型,很好地克服這一問題,且在衡量相似性方面,傳統方法將特征投影至低維根據距離確定相似性,其過程中會損失一定的判別信息;本方法使用分類器得分衡量相似性,對特征的使用更加充分。

基于遷移學習思想的模型更新策略:給定源域[DS]和源任務[TS]及目標域[DT]和目標任務[TT],當[DS]與[DT]相似但不相等,且[TS=TT=T]時,利用分類器對[DS]與[DT]打分,根據得分分布,對目標域[DT]進行篩選得到[DT′]。

本文使用通用分類器(SVM)對各個樣本打分,根據得分的分布衡量目標域與源域樣本的相似性。如圖4所示,源域與目標域樣本所占比例最大的位于各自的中間位置,可以看出這一部分的樣本最能代表各自的域。根據這個理論,將目標域樣本分為3個部分:分數最高(max)、分數中等(mid)以及分數最低(min)。根據圖4可得分數的高低所代表的意義如下:

(1) max:與源域樣本交集最大,代表[DT]中與[DS]最相似的數據,根據SVM分類器的特點可知這一部分數據樣本距離分類面最遠(識別為正樣本),最容易分辨。同時,在同構空間中對目標域與源域樣本都有很好的判別能力,因此這部分數據包含判別信息最多。

(2) mid:目標域中所占比例最大,與源域有一定交集,代表[DT]中與[DS]相關但有一定區別的數據,這部分數據在[DT]中處于主導地位,在數量上占有很高比例,根據SVM分類器的特點可知,這部分樣本位于分類面附近,包含一定的判別信息。

(3) min:與源域樣本幾乎沒有交集,代表[DT]中與[DS]最不相似的數據,根據SVM分類器特點可知這部分數據距離分類面最遠(識別為負樣本),包含判別信息最少。

圖4 樣本得分分布圖

在篩選數據時選擇max與mid樣本,過濾min樣本。min樣本包含判別信息最少,可能會對分類器產生負作用;max樣本包含了大量的判別信息;mid包含了目標域的大部分特征。因此在max樣本中加入mid樣本可以使分類器在保證檢測能力的基礎上向目標域遷移。

具體算法如下所示:

基于遷移學習思想的模型更新策略:

/*初始化通用檢測器*/

(1) 用源域數據訓練模型:對[DS]數據提取HOG特征,用SVM分類器訓練模型;

(2) 加入難例:用訓練好的分類器對負樣本重新檢測,把檢測為正的樣本作為難例;

(3) 訓練通用檢測器:把難例加入負樣本,重新訓練檢測器,得到通用檢測器;

/*數據篩選*/

(4) 篩選目標域數據:用通用檢測器對[DT]打分,按分數把數據分為max,mid,min三類,選擇max和mid兩類數據構成[DT′],過濾min;

/*更新檢測器*/

(5) 對過濾后得到的數據[DT′],提取HOG特征,用SVM訓練模型;

(6) 重復步驟(2);

(7) 重新訓練得到最終模型:加入步驟(6)中得到的難例,重新訓練,得到最終的模型。

2 實 驗

2.1 實驗數據集與評測方法

源域數據選擇的是INRIA行人數據庫,INRIA數據庫中行人的正樣本有2 416張,分辨率為64×128,如圖5所示,負樣本有1 218張,每張負樣本隨機取10個64×128的圖像塊。目標域數據選擇的是Caltech行人數據庫,Caltech庫是由行車記錄儀拍攝得到的,特點是數據量大,用于訓練的0~5有6萬多個正樣本,樣本間質量差異較大,如圖6所示,min中樣本肉眼也不易分辨。Caltech中用于測試的6~10則包含了大量的被遮擋以及低分辨率的行人目標,是目前最有挑戰的數據庫之一。

圖5 INRIA庫正樣本

圖6 各分段樣本示例

實驗使用漏檢率(Miss Rate)和每張圖片中誤檢數(False Positive Per Image,FPPI)來衡量檢測效果[6]。漏檢率即未檢測出的行人樣本與行人樣本總數的比值,如式(1)所示:

[missrate=FalseNegativeTruePositive + FalseNegative] (1)

誤檢數代表將每張待檢測圖片中錯誤標記為正樣本的數量。

2.2 實驗結果與分析

與Dalal提出的基于HOG特征的行人檢測[4]對比,在目標域中也選擇大約2 000個正樣本,負樣本與文獻[4]中的方法一致,對1 218張INRIA的負樣本隨機截取12 180張。

(1) 檢測出難例數量與迭代次數。Dalal在文獻[4]中提出了在訓練出第一個檢測器后對負樣本檢測,將檢測出的樣本作為難例加入負樣本重新訓練,提出了迭代1次上述操作后難例減少,并且隨著迭代次數的增加檢測效果不變。在篩選數據后也重復了這一步驟,使用max樣本訓練所得結果如圖7所示,可以看出難例與檢測效果的變化與Dalal所得結果一致,因此在后面對比實驗中只選擇加入1次難例的結果。

圖7 難例數量變化與檢測效果

(2) 對數據的篩選。如前文所述,將目標域數據分為max,mid與min,在每個分段中分別選擇2 000個正樣本用于訓練,并根據樣本得分分布得出的假設,選擇1 000個max樣本與1 000個mid樣本聯合訓練,并且在樣本中隨機選擇2 000正樣本用作對比。

圖8 實驗結果對比圖

如圖8(a)所示,實驗結果證明了本文的假設。對于min來說,幾乎沒有判別信息,可以看出其漏檢率達到了100%(無檢測能力),同樣包含了部分min樣本的隨機選擇(Random)樣本漏檢率為92%,這也說明了大數據環境下數據樣本雖然很多,但由于樣本的質量有所差異,因此無法直接使用。對于mid與max樣本漏檢率分別為63%與66%,而選擇max與mid樣本的實驗結果漏檢率也達到了63%,證明了本文的假設是成立的。

圖8(b)則提供了使用本策略更新后的檢測器與原始檢測器的分類效果對比,相對于原始基于HOG特征的行人檢測,我們的方法在漏檢率上有了5%的提升。在時間及計算量方面,相對于原始方法,只增加了一次模型訓練,檢測過程與原方法一致,檢測時間沒有增加。

3 結 語

大數據環境下用于行人檢測的數據樣本數量很多,然而由于樣本之間存在差異,這些數據無法直接使用。本文針對這一場景提出了基于遷移學習的提升人體檢測性能的方法,與傳統遷移學習方法相比,充分利用了已有數據樣本,與傳統人體檢測方法相比解決了數據樣本無法直接使用的問題。

參考文獻

[1] PAPAGEORGIOU C, POGGIO T. A trainable system for object detection [J]. International Journal of Computer Vision, 2000, 38(1): 15?33.

[2] DEPOORTERE V, CANT J, VAN DEN BOSCH B, et al. Efficient pedestrian detection: a test case for svm based categorization [C]// Proceedings of Workshop on Cognitive Vision. [S.l.]: [s.n.] 2002: 1241?1248.

[3] VIOLA P, JONES M J. Robust real?time face detection [J]. International Journal of Computer Vision, 2004, 57(2): 137?154.

[4] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection [C]// Computer Vision and Pattern Recognition. Montbonnot:[s.n.], 2005: 886?893.

[5] FELZENSZWALB P Fl. Object detection with discriminatively trained part?based models [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627?1645.

[6] DOLL?R P, WOJEK C, SCHIELE B, et al. Pedestrian detection: A benchmark [C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL, USA: IEEE, 2009: 304?311.

[7] PAN S J, YANG Q. A survey on transfer learning [J]. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(10): 1345?1359.

[8] URIBE D. Domain adaptation in sentiment classification [C]// Proceedings of 2010 Ninth International Conference on Machine Learning and Applications. [S.l.]: ICMLA, 2010: 111?121.

[9] ZHUANG F. Concept learning for cross?domain text classification: a general probabilistic framework [C]// Proceedings of the Twenty?Third international joint conference on Artificial Intelligence. [S.l.]: [s.n.], 2013: 654?661.

[10] GOPALAN R, LI R, CHELLAPPA R. Domain adaptation for object recognition: An unsupervised approach [C]// Procdeedings of 2011 IEEE International Conference on Computer Vision. [S.l.]: ICCV, 2011: 612?634.

[11] JHUO I H. Robust visual domain adaptation with low?rank reconstruction [C]// Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: CVPR, 2012: 6247924.

[12] 于立萍,唐煥玲.基于分類一致性的遷移學習及其在行人檢測中的應用[J].山東大學學報:工學版,2013,43(4):26?31.

[13] WANG M, WANG X. Automatic adaptation of a generic pedestrian detector to a specific traffic scene [C]// Proceedings of 2011 IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: CVPR, 2011: 5995698.

[14] WANG Meng, LI W, WANG X. Transferring a generic pedestrian detector towards specific scenes [C]// Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, RI USA: IEEE, 2012: 3274?3281.

[15] WANG X, WANG M, LI W. Scene?specific pedestrian detection for static video surveillance [J]. IEEE Trans on PAMI, 2014, 36(2): 361?374.

[16] MUNDER S, GAVRILA DM. An experimental study on pedestrian classification [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(11): 1863?1868.

[17] ESS A, LEIBE B, VAN GOOL L, et al. Depth and appearance for mobile scene analysis [C]// Proceedings of 2007 IEEE 11th International Conference on Computer Vision. [S.l.]: IEEE, 2007: 1?5.

[18] OVERETT G, PETERSSON L, BREWER N, et al. A new pedestrian dataset for supervised learning [C]// 2008 IEEE Intelligent Vehicles Symposium. [S.l.]: IEEE, 2008: 123?128.

[19] ENZWEILER M, GAVRILA D M. Monocular pedestrian detection: Survey and experiments [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(12): 2179?2195. [10.1109/TPAMI.2008.260].

[20] DAI Wen?yuan, YANG Qiang, XUE Gui?rong, et al. Boosting for transfer learning [C]// Proceedings of the 24th international Conference on Machine Learning. [S.l.]: ACM, 2007: 234?239.

[21] LIANG F. A sparse coding based transfer learning framework for pedestrian detection [C]// Proceedings of Advances in multimedia modeling. [S.l.]: Springer. 2013: 272?282.

猜你喜歡
遷移學習大數據
從認知角度探討大學英語網絡教學模式
奇異值分解與移移學習在電機故障診斷中的應用
基于大數據背景下的智慧城市建設研究
一種基于遷移極速學習機的人體行為識別模型
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合