?

淺談度量學習

2018-10-21 10:49王楠鑫蔣玉婷
科技信息·中旬刊 2018年9期
關鍵詞:分類器度量矩陣

王楠鑫 蔣玉婷

摘要:本文主要介紹了一種常用的機器學習方法——度量學習。度量學習旨在學得一個合適的距離來優化分類器的性能,提高分類器的效率。本文對度量學習的基本概念做簡介,并分析5E38見的度量學習形式和方法,最后討論了一些度量學習研究中的前沿問題。

關鍵詞:度量學習

一、度量學習簡介

在機器學習任務中,樣本之間的距離是一個十分重要的因素,絕大多數機器學習模型和算法都直接或間接地使用了樣本之間的距離。比如,在常見的“K近鄰”分類器中,樣本間的距離很大程度上影響了最終分類效果的好壞[1]。實際上,幾乎所有分類算法都可以在某個特定的距離下等價于“近鄰分類器”。在機器學習任務中,我們也常常通過特征選擇、特征提取等手段來對尋找數據更好的表示,或是達到降維的目的,而尋求數據更好的表示或降維最終是為了在得到的子空間中學習,這本質上就是基于子空間中的距離進行學習。既然如此,我們完全可以直接尋找一個合適的距離,并利用這個學到的距離來完成各種任務??梢哉f,各種特征選擇、特征提取和表示學習方法都相當于是在做度量學習??偠灾?,度量學習的目的就是尋找一個合適的距離定義,使得在這種距離定義下,相似樣本離得較近,而不相似樣本離得較遠,進而來優化某個機器學習任務。

距離往往用來衡量對象之間的相關性。常見的距離有歐幾里得距離、馬氏距離[2]、余弦距離、曼哈頓距離等。一般來講,距離度量是一個二元函數,它需要滿足四個條件:非負性、自反性、對稱性和三角不等式。若某個二元函數d滿足非負性、對稱性和三角不等式,且,則稱d為一個“偽距離度量”,它具有距離度量的大部分性質,也常用于機器學習任務。

二、基于馬氏距離的度量學習

為了能夠學得一個合適的距離,首先必須將距離“參數化”,即使用某些參數來定義一個距離函數。最常用的選擇是“馬氏距離”,它相當于考慮樣本各個特征權重和特征間相關性的歐式距離,定義為:

其中我們要求矩陣是一個半正定矩陣,即學到的馬氏距離實際上是一個“偽度量”。要學一個馬氏距離,實際上就是要學一個矩陣。如此一來,我們就可以依據這樣一種距離的定義形式來構造各種優化問題,從而完成各種機器學習任務。一般來說,基于馬氏距離的度量學習任務可以以優化問題的形式描述為:

其中L是某個關于的目標函數。比如說,訓練樣本給我們提供了一些弱監督信息,即某些樣本是相似的,某些樣本是不相似的。設P表示相似樣本對構成的集合,即若y)∈P本X和Y是相似的;設N表示不相似樣本對構成的集合,即若y)∈N本X和Y是不相似的?,F在我們希望在學到的距離下,相似樣本間的距離較小而不相似樣本間的距離較大,那么可以將優化問題構造為:

上式表示我們希望尋找一個矩陣,使得在這種馬氏距離下,相似樣本的距離之和盡量小,而不相似樣本的就離之和盡量大。有時,我們只需要不相似樣本之間的距離達到某個既定的閾值即可,而不需要其盡量大,那么優化問題可以寫為:

這相當于對原優化問題的第二項取“hinge”損失。由于通過這樣一種方式學得的距離考慮了數據提供的弱監督信息,使得相似樣本距離小而不相似樣本距離大,所以往往可以提高分類器的性能。

前文說到,使用降維方法本質上是在學習某種特定的距離度量,而馬氏距離也可以認為是對原空間的樣本做映射之后的歐式距離。設原數據樣本∈R^D,矩陣,那么它可以將數據樣本映射為R維。在映射后的空間中,兩個樣本X和Y之間的歐式距離為:

若將替換為一個矩陣,那么就得到了與馬氏距離相同的形式。我們可以將直接使用馬氏距離表示的度量學習問題稱為“Mahalanobis Distance Metric Learning”,簡稱為“MDML”[3],而將基于映射矩陣的度量學習問題稱為“Projection Distance Metric Learning”,簡稱為“PDML”。我們可以看出,一旦學得了映射矩陣就可以獲得相應的馬氏距離矩陣,也就是說這兩種表示之間是相通的,但在使用時仍有一些區別。從優化的角度來講,若使用“MDML”,則目標函數往往是關于矩陣的線性函數,雖然相似樣本間的距離和不相似樣本間的距離符號相反,但線性函數必定是凸函數,這使得我們往往可以構造關于矩陣的凸優化問題。若使用“PDML”,目標函數往往是關于矩陣P的二次函數,而且相似樣本間的距離和不相似樣本間的距離符號相反,雖然凸函數的非負線性加權仍是凸函數,但前后兩部分的凹凸性相反,從而整個優化問題的凸性得不到保證。凸優化問題在求解時有很好的性質,比如必定可以找到全局最優解等。也就是說,使用“MDML”更方便于優化。但是,從映射矩陣的角度考慮問題也有其意義,比如可以考慮映射的正交性,可以降低計算開銷等。

三、度量學習中的前沿問題

度量學習是一個十分值得研究的話題,度量學習領域中也存在一些待解決的問題。本部分將介紹一些關于度量學習可能的研究主題。

考慮多個度量的學習。度量學習的最終目的是提高分類器的性能,一個具體的距離度量就好比是一種空間變換,或是一種特征提取的方法。我們知道,某個單一的簡單的學習器可能不會具有特別號的效果,受此啟發,我們可以在度量學習中引入多個不同的距離,對不同類的樣本設計不同的距離度量,甚至對每一個樣本都設計一個特定的距離度量。實際上這一思路在機器學習中十分常見,比如“Gaussian Mixture”,比如“Ensemble”??梢赃@樣的角度來理解多度量學習:不同的類的樣本會來自不同的分布,而不同的分布會具有不同的規律,也就具有不同的適用于分類的特征,所以使用多度量是合理的。另外,從映射矩陣的角度來考慮,學習一個馬氏距離相當于學習一個線性映射,而簡單的線性關系未必能很好地刻畫數據之間的聯系,通過引入多個線性變換,可以使得模型具有更強的表示能力。

參考文獻:

[1]彭凱,汪偉,楊煜普.基于余弦距離度量學習的偽K近鄰文本分類算法[J],上海交通大學自動化系系統控制與信息處理教育部重點實驗室,2014

[2]梅江元.基于馬氏距離的度量學習算法研究及應用[J],哈爾濱工業大學,2016

[3]楊緒兵,王一雄,陳斌.馬氏度量學習中的幾個關鍵問題研究及幾何解釋[J],南京林業大學信息科學技術學院,揚州大學信息工程學院,2013

猜你喜歡
分類器度量矩陣
學貫中西(6):闡述ML分類器的工作流程
不欣賞自己的人,難以快樂
突出知識本質 關注知識結構提升思維能力
基于GARCH—VaR模型的股票市場風險度量研究
基于GARCH—VaR模型的股票市場風險度量研究
三參數射影平坦芬斯勒度量的構造
多項式理論在矩陣求逆中的應用
基于AdaBoost算法的在線連續極限學習機集成算法
一種統計分類方法的學習
矩陣
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合