?

基于參數字典的多源域自適應學習算法

2020-12-04 07:50鄭雄風汪云云
計算機技術與發展 2020年11期
關鍵詞:源域字典樣本

鄭雄風,汪云云

(1.南京郵電大學 計算機、軟件、網絡空間安全學院,江蘇 南京 210023; 2.江蘇省大數據安全與智能處理重點實驗室(南京郵電大學),江蘇 南京 210023)

0 引 言

遷移學習利用相關的源域知識輔助目標域學習,以解決目標域數據或數據標簽稀缺的問題,目前已得到機器學習領域的廣泛關注。在推薦系統中,遷移學習利用評分完善的電影數據幫助推薦無評分記錄的書籍,解決冷啟動問題;在室內wifi定位中,借助遷移學習,利用前時刻已有設備采集的信號數據,幫助學習新設備和未來時刻產生的信號。其實,遷移學習廣泛存在于人類活動中,一個人學會了自行車,便很容易學會開電動車;熟悉五子棋,則可將知識遷移到學習圍棋中。遷移學習的關鍵在于如何找到源領域和目標領域間的相關性進行遷移。

近年來,大量遷移學習方法被相繼提出[1-2]。根據所遷移知識形式的不同,現有遷移分類學習方法可大致分為4大類:(1)基于樣本[3-5]的遷移學習方法,通常采用對源域樣本采樣或加權的方式,選擇或側重與目標域相關的樣本輔助目標域學習。如TrAdaBoost[4]和域適應支持向量機(domain adaptation support vector machine,DASVM)[6]等;(2)基于特征的遷移學習方法,關注并遷移源域特征或特征參數中的相關知識,如特征增廣方法[7-8]、遷移成分分析(transfer component analysis,TCA)方法[9]和聯合域適應(joint domain adaptation,JDA)方法[10]等;(3)基于模型的遷移學習方法,其假設源域和目標域的模型參數之間存在一定的相似性或聯系,將源域模型參數遷移至目標域中。如域適應機(domain adaptation machine,DAM)[11]和域選擇機(domain selection machine,DSM)[12]等;(4)基于關系的遷移學習方法,實現關系型域間的知識遷移。在關系型域中,數據的呈現形式為關系而非獨立同分布的樣本,如社會網絡數據。在針對該類知識的遷移學習中,研究者們常采用統計關系型學習技術[13],如馬爾可夫邏輯網絡(Markov logic networks,MLNs)[14]。

而根據源域個數的不同,遷移學習又可分為單源域和多源域學習。多源域自適應學習旨在從多個源領域中挖掘相關知識以輔助目標域的學習。目前多源域自適應學習方法主要有兩類[15-19]:一是在遷移過程中對各源域賦予權重,描述各源域和目標域間的相關性。Chattopadhyay等人[15]提出多源域加權方法(conditional probability based multi-source domain adaptation approach,CP-MDA),用于衡量各源域和目標域的條件分布差異;Sun等人[16]利用各源域和目標域間的邊緣分布差異對源域樣本進行加權,同時利用條件分布差異對各源域進行加權;Duan等人[11]在支持向量回歸模型中引入數據依賴的正則化項,對各源域進行選擇或加權。另一類則是通過多源域分類器集成進行知識遷移。Schweikert等人[17]提出用于基因組序列分析的域自適應方法,尋求各源域分類器和目標域分類器間的凸組合;Sun等人[18]則提出多源域自適應的動態貝葉斯學習框架,利用無標簽目標域數據上的拉普拉斯矩陣獲得各源域的先驗,并利用k近鄰距離計算似然。

此外,隨著深度神經網絡機器學習的發展,遷移學習又可分為傳統遷移學習和深度遷移學習。Zhao等人[19]通過構建一個新的泛化邊界,利用對抗神經網絡實現多個源域的知識遷移。Hoffman等人[20]將多個源域的交叉熵損失和其他損失分布加權組合。Zhang等人[21]從因果關系的角度研究多源域自適應問題,通過考慮因果模型的不同模塊隨著多個域變化狀況,挖掘出合適的遷移知識。

現有多源域自適應學習方法通常僅關注各源域和目標域間的知識遷移,并不考慮各源域間的知識共享和共性信息。即各源域的知識遷移是相互獨立的,源域間的相關性并沒有被考慮和利用。因此,該文嘗試利用各源域間的相關性指導遷移學習。而字典學習可以挖掘數據的本質特征,因此在多源域自適應學習中利用字典學習,挖掘各源域的共性信息,提出基于參數字典的多源域自適應學習方法(multi-source domain adaption based on dictionary learning,DL_MSDA)。DL_MSDA通過學習多個源域模型參數的共享字典,挖掘各源域間的內在關系,并將其遷移至目標域模型參數的學習中,提升目標域學習模型的準確性與可靠性。

1 相關工作

1.1 域自適應機

Duan等人[11]提出域自適應機DAM,通過最大均值差異(maximum mean discrepancy,MMD)衡量每個源域與目標域間邊緣分布差異,并對各源域進行加權,約束目標域的擬分類輸出與各源域對目標域分類輸出相近,如圖1所示。

圖1 DAM算法原理

在獲得各源域與目標域間的相似性權值后,其目標函數刻畫如下:

(1)

1.2 字典學習

(2)

2 算法框架

2.1 問題定義

2.2 算法模型

2.2.1 基于目標域數據的學習

基于結構風險最小化理論和流形正則化約束,僅利用目標域數據的學習模型構建如下:

minΩ(fT)+μVL(fT)+γMf(PT)

(3)

其中,Ω(fT)為用戶控制目標域分類器復雜度,VL(fT)為目標域有標簽樣本的分類損失。第三項是流行正則化項,用于刻畫數據分布的流形結構:

(4)

W是樣本相似性矩陣,其中元素為:

(5)

對于目標域數據的學習,其原理與半監督學習一致,在確保有標簽的樣本分類正確的同時,保持無標簽樣本數據的流行結構。

2.2.2 基于參數字典學習的知識遷移

首先,對于每個源域學習一個分類器參數Ws∈Rd×c。為了更好地挖掘源域間的共享信息,對k個源參數學習共享字典D,并將其遷移至目標域分類參數的學習中,指導目標域分類,算法框架如下:

(6)

聯合式(3)和式(6),并基于平方損失函數,提出基于參數字典的多源域自適應學習框架:

(7)

同時,采用非線性隨機傅里葉特征[22]對樣本進行非線性映射,近似逼近非線性高斯核函數。對給定數據X,利用Bochner定理生成h維隨機特征:

(8)

2.3 算法優化

采用ADMM(alternating direction method of multipliers)[23]對式(7)中目標函數進行求解,即交替迭代方式優化每個參數。

(10)

(11)

(12)

(13)

基于FISTA (fast iterative shrinkage thresholding algorithm)[24],該問題為近端(proximal)正則化問題,可由下式迭代求解:

(14)

其中:

(15)

(16)

其中,Sλγ(·)是軟閾值算子,且Sλγ(·)=sgn(x)·(|x|-λ)。

算法流程如圖2所示。

圖2 DL_MSDA算法流程

3 實驗結果與分析

3.1 數據集和實驗設置

該文選擇了3組經典多源數據集進行實驗,其中各個源域之間都滿足不同分布。

3.1.1 Office+Caltech數據集

Office數據集包含三組數據集:Amazon (Amazon購物網站的商品圖像),Webcam(網絡相機拍攝的低分辨率圖像)和DSLR(數碼單反相機拍攝的高分辨率圖像)。Caltech也是常用的目標識別數據集。每個數據集包含下列10類物體的圖像數據:雙肩包、旅行自行車、計算器、耳機、電腦鍵盤、筆記本電腦、電腦顯示器、電腦鼠標、咖啡杯和投影儀,且每類樣本數都不盡相同,數目在8到151之間,樣本總數為2 533。圖3顯示了各數據集中電腦顯示器的圖像。實驗中提取出了每個域圖像的4 096維的DeCAF6特征,并將所有特征進行了標準化處理。

圖3 目標識別數據中的電腦顯示器在不同數據集中的圖像

3.1.2 PIE數據集

PIE數據集包含68種共計11 554幅面部圖像,其中每幅圖像由32×32個像素構成。采用了五個不同照明和姿勢條件下拍攝的面部圖像數據集進行實驗,使用SURF特征提取方法,并對特征進行標準化處理。圖4展示了PIE數據集中姿勢的變化,分別是PIE05(左側)、PIE07(向上的姿勢)、PIE09(向下的姿勢)、PIE27(前擺姿勢)。

圖4 不同姿勢下拍攝的面部圖像

3.1.3 YalB數據集

該數據集由不同光照條件下38人的2 414張面部圖像組成,每幅圖像分辨率是32×32。圖像的處理和文獻[23]中一樣,將數據集劃分為了五個子集(Y1-Y5,從第一行開始依次為Y1,Y2,Y3,Y4,Y5,見圖5)。子集1由正常光照條件下的266張圖像組成(每人7張圖像);子集2和3由受試者的12張圖像組成,表征輕微到中等的亮度變化;子集4(每人14張圖像)和子集5(每人19張圖像)體現了嚴重的光照變化。

圖5 不同光照條件下的人臉樣本

3.2 對比方法及參數設置

實驗中,源域樣本皆為有標簽樣本,目標域包含部分有標簽樣本。將DL_MSDA與多源域自適應學習算法DAM進行了對比,其中DAM采用文獻[11]中的參數設置。此外,還采用SVMS和SVMT作為基礎對比方法,SVMS僅利用源域樣本學習并對目標域分類,SVMT僅利用目標域樣本進行學習。對每個數據集組合,實驗重復運行了20次并取平均分類精度。

DL_MSDA中源域參數模型可通過任意分類方法得到,如SVM、C4.5等。實驗中,采用線性SVM結合傅里葉特征變換得到源域分類參數。對每個數據集,分別從目標域的每個類中隨機選取1個樣本作有標簽樣本,用于訓練,其他樣本歸為無標簽樣本,用于測試。實驗中涉及5個參數取值為:α=1,β=5,λ=0.1,γ=30,μ=0.1。最大迭代次數設為100。

3.3 實驗結果

表1給出了DL_MSDA與其他算法在不同源域-目標域組合下的分類準確率,其中每個數據集下最高準確值加粗表示。表2和表3分別是PIE數據集和Yale B數據集上的分類性能。

表1 Office+Caltech數據集上實驗平均準確率 %

表2 PIE數據集上實驗平均準確率 %

表3 Yale B數據集上實驗平均準確率 %

3.4 參數分析

本節對正則化參數α和β進行實驗分析,研究其對DL_MSDA性能的影響,從而分析源域相關知識對目標域分類性能的影響。α,β的取值范圍為[0.000 1,0.001,0.01,0.1,1,5,10],λ的取值同α,其余參數值固定。圖6給出了Office+Caltech數據集上4種不同組合下DL_MSDA的性能圖。

圖6 Office數據集中不同源域下的參數分析

由圖6可看出,當α和β取值趨近于0,僅利用目標域數據進行學習;隨著α和β取值不斷增大,模型的分類準確率有了明顯的提升,這表明DL_MSDA可以有效地從多個源域中學習到共享知識并幫助目標域學習。但是當α,β取值過大時,模型由源域知識主導,忽略了目標域自身信息,因此分類準確率也隨之降低。因此,用多個源域間的共享信息輔助目標域數據學習,可有效提升目標域的學習性能。

4 結束語

提出的基于參數字典學習的多源域自適應(DL_MSDA)學習框架,能夠有效利用多源域間的共享信息,解決目標域僅有少量有標簽樣本的多源域自適應學習任務。字典學習較其他多源域自適應學習框架可以更多地探索各個源域之間的共享信息,并把這些重要信息傳遞到目標域分類模型的學習過程中。實驗表明,DL_MSDA可有效提升目標域分類模型的分類精度。DL_MSDA算法僅通過多個源域模型參數的共享字典進行遷移,挖掘源域參數間的共享知識,而后續工作將考慮從數據空間出發,進一步拆分字典為多源域共享字典和每個源域特有字典,在挖掘源域間的共享知識進行遷移的同時減少負遷移,提升目標域的學習性能。

猜你喜歡
源域字典樣本
字典的由來
規劃·樣本
人大專題詢問之“方城樣本”
大頭熊的字典
淺析《離騷》中的跨域映射現象
隨機微分方程的樣本Lyapunov二次型估計
正版字典
從映射理論視角分析《麥田里的守望者》的成長主題
“官員寫作”的四個樣本
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合