基于元學習個性化推薦研究綜述

2024-02-28 01:26吳國棟劉旭旭畢海嬌范維成涂立靜

計算機工程與科學 2024年2期

吳國棟,劉旭旭,畢海嬌,范維成,涂立靜

(安徽農業大學信息與人工智能學院,安徽合肥 230036)

1 引言

隨著互聯網飛速發展,信息量的爆炸式增長帶來了信息過載[1]問題。信息過載導致消費者獲取有用信息并做出有效決策的成本逐漸增加,影響了消費者的用戶體驗。推薦系統作為過濾信息的有效工具[2],通過對用戶的歷史交互信息進行統計分析,挖掘用戶的偏好信息,再根據偏好信息預測該用戶是否喜歡給定的項目,或者識別該用戶感興趣的K項集(top-K推薦問題)[3],以此為消費者過濾冗余信息并進行個性化推薦[4],有效地緩解了信息過載問題。傳統的推薦算法一般可分為基于內容的推薦、基于協同過濾的推薦和混合推薦[5]。推薦結果根據預測對象的不同,可以分為評分預測和點擊率預測。2種預測都對用戶的顯式或隱式反饋進行特征提取。而傳統的推薦系統只利用用戶-物品交互類的顯式反饋[6]信息作為推薦依據實現推薦。但是,在很多場景中,用戶-物品交互信息有限,新用戶和新物品甚至沒有交互信息,不可避免地產生了難以快速自適應推薦的問題,例如冷啟動[7]等。

基于內容的推薦通過尋找與用戶交互的歷史物品相似的物品為用戶進行推薦[8],只需利用當前用戶與交互物品的特征屬性信息,因此不受其他用戶的限制,可解釋性較好。但是,音樂、電影等場景提取屬性特征困難,因此基于內容的推薦更加適用于文本、新聞等便于計算物品相似度領域的推薦,且存在較嚴重的用戶冷啟動問題?；趨f同過濾的推薦是目前最流行的方法,其根據應用對象的不同劃分為基于用戶的協同過濾和基于物品的協同過濾[9]。其中,基于用戶的協同過濾利用用戶的歷史交互信息挖掘用戶偏好,并根據偏好對品味相似的用戶互相推薦物品或信息,自動地從用戶的行為數據中獲取用戶的偏好,因此對推薦場景無限制,應用更加廣泛,但是由于依賴用戶-物品評分矩陣,推薦系統的固有缺陷仍然存在,其存在的數據稀疏性問題[10]和嚴重的冷啟動問題導致推薦質量較差,難以滿足用戶個性化需求[11]?；旌贤扑]揚長補短,將不同的推薦算法通過各種方式組合后,結合不同算法的優點并彌補各種算法的不足來實現推薦,是實際應用中常采用的推薦方式,在緩解冷啟動問題以及數據稀疏性問題上,優于基于內容和基于協同過濾的推薦方法。傳統的推薦方法利用用戶的行為信息等輔助信息完成推薦,但由于輔助信息的分布不均勻且規模較大等問題,導致傳統的推薦方法仍然面臨著嚴峻的挑戰。尤其是當新物品或者新用戶進入到推薦系統中時,相關用戶-物品交互次數較少,系統無法提供精確的推薦,是目前推薦系統亟待解決的難題之一——冷啟動問題。此外,從眾多可用的推薦算法中自動選擇最適合當前問題的算法,為不同偏好的用戶實現個性化推薦算法選擇也是制約推薦系統發展的一大難題。

元學習(Meta Learning)[12,13],因其具有從之前一系列任務中學習到有用的先驗知識,再利用少量樣本數據快速學習新概念或技能的能力,可以有效挖掘元知識幫助系統選擇合適的推薦算法,也為緩解推薦系統冷啟動問題提供了一個新的研究方向。本文對元學習在推薦上的模型以及應用分類進行了廣泛的研究,主要工作有以下3點：

(1)對現有通過元學習技術提供個性化推薦的研究進行了詳細的回顧。從元學習技術緩解推薦系統冷啟動問題的視角,將現有研究分為3類,并分別介紹各類當前研究的優點與不足。

(2)對元學習緩解自適應推薦問題進行了分類,并將元學習自適應推薦研究分為算法的自適應選擇和模型的自適應選擇。

(3)指出當前研究中存在的問題,展望了元學習推薦未來主要研究方向。

本文的主要結構安排：首先對元學習的相關知識進行介紹;第2節對元學習在不同冷啟動場景中應用的相關理論進行系統地分析;第3節對元學習在自適應推薦領域研究進行詳細探討;第4節對元學習的自適應推薦進行研究;第5節對元學習在推薦系統領域的研究存在的不足進行具體分析;第6節對元學習在推薦系統中研究的未來發展方向進行展望;第7節為本文的總結。

2 元學習

元學習又被稱為“學會學習”(Learn to Learn),是目前深度學習領域的重點研究方向之一。傳統的機器學習在大量的數據集支持下學習一個特定分類或者回歸任務,存在當數據集的數量較少時無法快速學習、新的未觀測任務場景中表現較差等問題。在典型的機器學習基礎上,元學習提供了一個新的學習范式,先面向多個任務聯合訓練學習到有用的先驗知識,然后在未來新場景任務時利用先驗知識引導訓練過程更快更好,增強學習器在多任務時的泛化能力。元學習可以在各種環境中使用[14],且在較多領域都取得較好的成果,例如小樣本學習(Few-shot Learning)[15-17]方法是元學習在監督學習領域的應用。

了小樣本學習可以通過新物品的少量示例樣本完成精準的分類任務,解決了傳統機器學習泛化能力弱、訓練成本高等問題。以每個獨立的少量樣本數據構成的機器學習任務組成元訓練任務集(Meta-train Set)與元測試任務集(Meta-test Set),其中每個任務的訓練數據集稱為支持集,測試數據集稱為查詢集。下面以小樣本學習中一個N分類問題“N-wayK-shot”為例,介紹小樣本學習流程(如圖1所示)。

Figure 1 N-way K-shot problem of few-shot learning圖1 小樣本學習N-way K-shot問題

元測試任務集Ttest中的每項任務中,支持集與對應的查詢集對應N種數據類別,選取K+m個樣本作為每個任務的樣本集,K是支持集每個類別下的樣本數量,剩余m個樣本作為查詢集,控制m=0和m=1分別實現機器學習領域的單樣本學習(One-shot Learning)[18]和零樣本學習(Zero-shot Learning)[19]。實際訓練過程中,為了保證元訓練與元測試階段的一致性,Ttrain的任務中設置了相同的參數N和K。通過不斷地適應Ttrain中每個具體任務,使訓練的模型具備一種抽象的學習能力。

元學習方法有多種分類標準,通常將元學習方法分成3類：基于度量的方法、基于模型的方法和基于優化的方法[20]?；诙攘康姆椒ê突谀Ｐ偷姆椒ǖ难芯恐攸c在分類任務上。與基于模型的方法相比,基于優化的方法[21]的一個關鍵優勢是可以在更廣泛的任務分配上取得更好的表現?；趦灮姆椒橥扑]系統領域研究提供了一個新方向,在推薦系統領域應用最為廣泛。部分基于優化的方法專注于學習一個好的模型初始化參數,其中Finn等人[22]提出了一個基于優化的“模型無關元學習”MAML(Model Agnostic Meta-Learning)框架,在實際中應用更為廣泛。

Figure 2 Schematic diagram of MAML training process圖2 MAML訓練過程示意圖

MAML由內外雙層循環構成,以任務作為訓練數據的單位,內循環使用梯度下降最小化損失得到每個任務的局部最優參數,通過局部最優參數梯度更新初始化參數θ。MAML可以匹配任何使用梯度下降算法訓練的模型,并能應用于各種不同的學習問題,如分類、回歸和強化學習等。但MAML也存在一些不足：MAML使用雖然不限制任何的深度學習模型,但需要模型結構都相同,只學習初始化參數,整體泛化能力較弱;二次梯度可能存在不穩定等現實問題。在基于MAML的思想上,Nichol等人[23]還進一步提出一階梯度下降的FOMAML(First Order MAML)算法,避免了大量的計算,但同時也丟失了很多有用的信息,因此在泛化能力上仍存在缺陷。文獻[23]提出一種基于參數優化的小樣本學習算法Reptile,同時尋找對任務分布敏感的初始參數,并廣泛適用于具有相似內在特征的任務中。Reptile算法與FOMAML本質上是相同的,但Reptile的計算效率和內存占用要優于FOMAML的,且效果優于MAML的。

3 元學習冷啟動推薦相關研究

元學習的方法在推薦系統的不同領域都取得較好的研究成果。由于新用戶和新物品的不斷加入,而模型無法立即獲得新用戶和新物品的表示,如何向新注冊的用戶推薦商品或者將新入庫的商品推薦給喜歡它的用戶,這類問題就是冷啟動問題。冷啟動問題是所有推薦系統都不可避免的問題。元學習從不同學習任務學習到的模型,擁有快速適應少量樣本的能力,與緩解冷啟動問題的本質目標相同,因此為用戶-物品交互有限導致的冷啟動問題的研究提供了一個新的研究方向。本節從物品冷啟動、用戶冷啟動、用戶和物品冷啟動3方面分別詳細論述元學習冷啟動推薦相關研究。

本文所述的元學習冷啟動推薦相關研究算法小結如表1所示。

Table 1 Summary of research algorithms of meta-learning mitigation recommendation cold start

3.1 物品冷啟動

在推薦系統中,源源不斷加入新物品,但缺乏相關的用戶行為數據,因此難以將其推薦給可能感興趣的用戶,導致了物品冷啟動問題。物品冷啟動問題在一些物品時效性較強的場景中該問題尤為突出。雖然已經有很多研究通過擴展矩陣分解方法[24]來緩解冷啟動問題,但都是通過增加一些物品屬性來更新物品的嵌入向量,忽略了新物品連續到達時用戶嵌入表示向量的更新。

面對推薦系統中較為嚴峻的物品冷啟動問題,Vartak等人[25]提出了基于元學習技術的2種深度學習框架,來緩解新物品連續到達時的冷啟動問題。首先,通過用戶交互過的物品來預測一個線性的或非線性的分類器,判斷用戶對新物品的偏好信息,并利用主動學習(Active Learning)[26]方法優化分類模型,實現對新物品的分類,輔助完成對用戶的推薦。

Figure 3 Structure of classifier圖3 分類器結構

LWA通過將抽取的每個用戶的歷史偏好學習作為一個元學習的任務,訓練獲取權重自適應的線性分類器的可訓練的參數,實現權重隨用戶的歷史交互物品自適應變化,計算新物品到來時用戶喜歡的概率,權重隨著不同用戶有不同的取值。通過概率大小決定新物品是否推薦給用戶。

與LWA相反,NLBA是為非線性的偏置自適應分類器提供可訓練的參數?，F實生活中,通常面臨各種非線性的高維數據。NLBA利用多個隱藏層的深度神經網絡來學習用戶的非線性嵌入。通過深層的神經網絡,可以對不同類之間、新物品與類之間的交互進行建模,學習到比LWA更多的信息。

通過LWA和NLBA 2個基于模型的調整策略,2個框架的權重或偏置根據任務信息進行調整。將物品冷啟動推薦問題看作元學習問題,解決了當新事物不斷到達時,離線測試得到的用戶嵌入無法及時表現用戶興趣變化的問題,對用戶的興趣根據新交互及時更新,實現通過元學習方法緩解冷啟動問題。但是,由于要訓練2個不同的神經網絡來學習物品的表示所花費的計算成本較高,也與主流的基于優化的元學習方法MAML不兼容,相比之下面對新的元學習任務快速適應能力更弱。

推薦系統中使用嵌入技術生成用戶和物品嵌入向量表示,作為推薦模型的輸入。嵌入向量表示生成依賴用戶-物品交互數據的數量。使用大量有效的交互數據可以生成合理的嵌入向量表示,加速用戶物品適應推薦模型,提升推薦效果。由于大部分物品只有少量交互甚至不存在交互,導致嵌入生成過程有嚴重的冷啟動問題,生成的嵌入表示效果差。Pan等人[27]針對廣告推薦冷啟動問題,提出了基于元學習的嵌入生成方法(Meta-Embedding),緩解了交互數據有限的嵌入生成冷啟動問題。

通常情況下,嵌入技術利用廣告的交互信息生成廣告ID(Identity Document)的低維嵌入表示,實現更高精度的點擊率預測。由于新廣告缺乏交互數據,難以生成理想的嵌入表示。利用元學習“學會學習”的特征,融合MAML的快速適應等優勢,將每個廣告作為一個元學習任務,利用學習過的廣告的信息訓練Meta-Embedding,使其更好地學習新物品的ID嵌入表示,實現學習共享的跨任務模型參數以及對新任務的快速適應。為新廣告的ID快速生成有效的初始化嵌入,提升預測的準確率,緩解了廣告的冷啟動問題。

然而實際推薦過程中,由于生成冷啟動的ID嵌入表示的交互數據有限,且存在錯誤點擊等噪聲數據,最終會影響生成的冷啟動ID嵌入表示的合理性與穩定性。在Meta-Embedding的基礎上,Zhu等人[28]提出了一個通用框架MWUF(Meta Warm Up Framework),其由元偏移網絡、元拉伸網絡2個元網絡為基礎,使用元偏移網絡將全局交互過的用戶作為輸入,生成一個偏移函數,來加強物品ID嵌入表示,減少錯誤點擊等行為產生的噪聲,生成更穩定的嵌入表示,高效地利用有限的交互數據。

研究表明,具有高相似度的物品充分利用交互數據生成的暖ID嵌入也高度相似。依據該特征,利用相似度高的物品的冷ID嵌入間的聯系,將物品的特征作為元拉伸網絡的輸入,生成一個定制化的拉伸函數,利用現有物品暖ID嵌入表示的均值,代替隨機賦值冷啟動物品ID嵌入,實現冷啟動物品的ID嵌入表示的預熱。

根據元學習利用模型從已知任務的訓練學到的經驗和知識應用在新任務上的思想,可以先根據少量的交互信息對新物品進行分類,再推薦給用戶,或者利用已知物品模擬新物品的學習過程,通過在已知物品上學習到的先驗知識指導生成相應參數,來代替新物品進入推薦系統時隨機初始化的各個參數,從而加快新物品對推薦模型的適應,實現元學習方法緩解缺乏歷史交互數據的物品冷啟動問題。

3.2 用戶冷啟動

Figure 4 Process of meta-learning recommendation parameter update圖4 元學習推薦參數更新過程

然而,MetaCS在構建元學習任務時設置相同數量的歷史交互物品不符合實際。在利用歷史交互物品評估用戶偏好的基礎上,Wei等人[30]提出了一種MAML的學習范式MetaCF(Collaborative Filtering with Meta-learning),將元學習與協同過濾推薦結合,使得協同過濾模型訓練的過程中對新用戶可以快速學習。將對新用戶的快速適應視為一項任務,旨在學習一個合適的模型適應新用戶初始推薦。為了建立一個良好的通用模型,MetaCF配備了一個動態子圖采樣,用于生成快速自適應的元學習任務。動態子圖采樣過程如圖5所示。

Figure 5 Process of dynamic subgraph sampling圖5 動態子圖采樣過程

動態子圖采樣的實現過程為現有選中的用戶u選取k個交互物品,再隱藏剩下的用戶-物品交互,動態生成具有代表性的適應任務Tu來解釋新用戶的動態到達。在實際場景中,新用戶的交互信息極少,且交互數量各異,所以在構建元學習任務時,為了模擬新用戶需要對用戶交互進行隨機采樣,采樣的個數需要在特定區間內隨機選取以模擬現實場景,即動態設置采樣樣本數量對訓練圖進行采樣,完成每個元任務的數據集采樣。目前大部分基于元學習的研究都使用圖像、文本等歐幾里得數據[31],將元學習應用于非歐幾里得域數據的工作很少[32]。而MetaCS對非歐幾里得數據進行操作,通過元訓練生成全局元參數,實現自適應的用戶冷啟動個性化推薦。

對于系統中存在的用戶和物品冷啟動,主要原因是未實現根據用戶真實喜好來預估用戶對物品的交互可能性。Lee等人[33]提出了一種基于元學習的推薦系統模型MELU(MEta-Learned User),通過少量消費過的物品預估用戶的偏好來緩解冷啟動問題。在基于先前研究中候選物品不足以評估用戶真實偏好的問題基礎上,該模型通過元學習的MAML框架來訓練已提出的用戶偏好評估器,通過對用戶真實且少量的消費歷史來對用戶進行偏好評估,使得新用戶或新物品快速適應系統。

基本的用戶偏好評估器通過對用戶物品自帶屬性特征的嵌入過程來提取用戶物品的有用特征,作為實現推薦的依據,但其與協同過濾推薦算法類似,具有相似屬性特征的用戶可能得到相同的推薦,未實現為每個用戶進行個性化推薦。MELU模型結構如圖6所示,在原有用戶偏好評估器的基礎上,對評估器的各部分參數進行元學習訓練,使得這些參數既能學習到不同用戶的偏好信息,實現個性化推薦,又能在新任務到來時,快速學習到用戶真實偏好進行推薦。

Figure 6 Structure of MELU model圖6 MELU模型結構

為了模擬真實用戶物品交互過程,以及保證元學習過程的穩定性,將用戶偏好評估器的參數分為2個部分分別更新：用戶物品生成嵌入向量過程的參數集和在嵌入基礎上判斷用戶對物品交互可能性的參數集。因此,MELU先對后者進行局部更新,再對兩者進行全局更新。

局部更新和全局更新分別對應MAML框架的內循環與外循環。較于文獻[29]中提出的用戶偏好評估,對用戶歷史的輸入大小加以改進,結合了匹配網絡的思想,不限制構造支持集時采樣的用戶歷史數據數量必須相同,更加符合實際用戶交互數量不均的情況,但由于用戶偏好評估器學習的是大多數共享相似用戶信息,容易造成任務的過擬合問題。

實際場景中存在用戶分布不均勻以及配置信息不均衡等差異,導致用戶信息在提取過程中存在過擬合問題。Yu等人[34]將大部分共享相似用戶信息的用戶定義為主要用戶,其他定義為次要用戶?，F有大部分基于元學習緩解冷啟動問題都是利用基于優化的MAML方法,而MAML方法更傾向于擬合具有相似特征的主要用戶來獲取更加良好的評價指標值,對主要用戶優先優化而忽略次要用戶。文獻[34]中提出了一種全新的個性化自適應元學習PAML(Personalized Adaptive Meta Learning)方法來解決用戶過擬合問題。不同于MAML設置固定的學習率,PAML方法為每個用戶設置不同的學習率以便找到任務自適應參數,利用基于相似度的方法尋找具有高度相似的特征嵌入與興趣的用戶共享相似的學習率,兼顧主要用戶與次要用戶,對基于MAML的緩解冷啟動的方法進行了優化。

通過MAML內外循環更新參數過程與新用戶推薦過程的結合：每次內循環參數迭代更新,對應推薦模型學習利用少量交互獲取新用戶的潛在偏好,外循環參數迭代更新,對應推薦模型獲得對所有新用戶的潛在偏好的適應能力,使得模型學會根據用戶少量交互識別用戶偏好,提供精準的個性化推薦,緩解用戶冷啟動問題。但是,目前研究都基于新用戶的少量交互提取用戶偏好,難以適應沒有任何交互信息的完全冷啟動用戶。

3.3 用戶和物品冷啟動

用戶與物品冷啟動問題在實際場景中更加廣泛,推薦系統缺乏用戶與項目的基本信息數據無法根據歷史行為進行預測,相比單獨的冷啟動問題具有更高的挑戰性,限制了推薦系統的性能。此外,超參數的設計也是影響推薦精度的一個重要因素。傳統手工設計的優化算法通過微調超參數來收斂到一個最優解,不同場景中的最優超參數可能會有所不同,例如不同場景中的最佳學習率有顯著差異,下文以超參數的設置方式對基于元學習的用戶與物品冷啟動研究分別進行分析。

3.3.1 手工設計超參數

Lu等人[35]提出了一種元學習MetaHIN(Meta Heterogeneous Information Network)方法來解決異質圖HIN的冷啟動問題,該方法解決了目前異質圖上元學習相關研究的2大難題——如何在元學習環境中捕獲基于HIN的語義以及如何學習到一個適用于多種語義的一般知識。根據這2個問題,MetaHIN分成2個模塊,如圖7所示。第1個模塊一個語義增強的任務構造器(語義增強模型),第2個模塊是共同適應元學習器(元學習器模型)。

Figure 7 Meta-training procedure of a task in MetaHIN圖7 MetaHIN中一個任務的元訓練過程

Figure 8 An example of HIN圖8 異質圖示例

同理,通過在支持集上獲得的先驗參數來測試查詢集。將查詢集訓練的損失函數反向傳播更新初始全局先驗,完成對元學習模型的預訓練,得到一個適用于多種語義的一般知識。當面臨新物品或者新用戶的元測試任務時,將接受推薦的節點和候選推薦節點輸入訓練好的原模型中,判斷候選節點是否被推薦,通過融合HIN上下文信息的一般知識,緩解了推薦系統的冷啟動問題。

Wang等人[37]同樣提出了一種基于元學習緩解冷啟動的推薦算法：元學習嵌入集成ML2E(Meta-Learning Embedding Ensemble)算法。文獻[25]中的元學習方法雖然能通過用戶的交互歷史更新用戶嵌入來緩解物品冷啟動問題,或者基于物品的特征構建物品的嵌入向量來緩解物品冷啟動問題,但都未實現更新嵌入方法緩解系統冷啟動問題。文獻[37]中提出的ML2E算法主要由文獻[22]中基于MAML的用戶偏好網絡的學習方法和文獻[23]中的基于Reptile嵌入生成器2部分組成,其中,用戶偏好網絡的學習與文獻[33]中提出的MELU算法類似,都使用局部和全局更新2個層次來更新任務參數,通過局部更新來針對特定用戶訓練相應的偏好網絡,全局更新將其特定網絡泛化到所有用戶適應的偏好網絡。在用戶的偏好網絡基礎上,再為新物品設計嵌入生成器以生成可行的初始嵌入。ML2E通過將偏好網絡和嵌入生成器相結合來緩解各種冷啟動問題,對緩解系統冷啟動有較大提升。

推薦系統的推薦過程是根據用戶對特定物品的喜好程度為前提實現的,因此ML2E通過元學習得到一個評估用戶和物品喜好程度的函數fθμ。fθμ的參數共包括2部分,一部分是新物品的嵌入生成器參數hω,另一部分是元訓練的評估器參數θμ。令pij為用戶μj和物品vi的偏好預測結果,pij的計算公式如式(1)所示：

pij=fθμ(Xij)

(1)

推薦過程處理的數據Xij如式(2)所示：

Xij=(IDi,μj,vi)

(2)

處理的數據由物品的嵌入IDi、用戶μj以及物品vi3部分組成。

ML2E框架如圖9所示。若是用戶冷啟動,則利用歷史物品學習用戶偏好,在ID表中查找已存在的物品直接利用fθμ計算偏好實現新用戶推薦;在物品冷啟動場景中,新物品通過元嵌入生成器生成新物品ID插入ID表,并利用這個ID進行推薦;對于更嚴峻的系統冷啟動場景,同時利用歷史學習用戶偏好以及生成新物品嵌入ID進行推薦。ML2E利用FOMAML和Reptile來分別設計用戶偏好評估器和元嵌入生成器,融合兩者的優點緩解冷啟動問題。

Figure 9 Framework of ML2E圖9 ML2E框架

3.3.2 自適應更新超參數

上述大多數元學習緩解冷啟動的方法都使用MAML對參數進行初始化,通過元全局參數引導生成相應推薦模型的初始化參數實現推薦。對于每一個輸入的用戶,元全局參數采取相同的方式生成每個用戶的局部參數,因此不能很好地辨別不同用戶模式之間的內在差異,因此Dong等人[38]提出了一種記憶增強的元優化MAMO(Memory-Augmented Meta-Optimization)算法,通過記憶機制設計2個存儲器[39],分別用來對用戶的嵌入信息進行增強,引導元全局參數生成個性化初始參數以及捕獲在不同物品上潛在的用戶共享偏好。

(3)

在實際的推薦過程中,新的推薦場景經常伴隨更加稀疏的用戶物品交互,并且由于傳統的推薦系統推薦的物品僅僅屬于一個領域,并不符合實際市場跨域推薦[40]的要求。Du等人[41]提出了一種特定于場景的順序元學習器s2Meta(Scenario-specific Sequential Meta learner),s2Meta通過聚合來自不同預測任務的上下文信息,同時利用在不同任務上學習的知識有效地適應于特定任務,從而產生一個通用的初始模型。s2Meta主要解決了3個當前存在的難點。

第一是特定場景下的推薦系統參數初始化的問題。傳統的機器學習是將推薦系統的參數隨機初始化,但推薦系統隨機初始化參數需要很長的時間才能收斂,并且存在小樣本學習過程中過擬合的弊端。因此,s2Meta采用在不同推薦場景中共享全局參數來初始化新場景的推薦系統參數,通過學習不同場景的一般知識來引導新場景的冷啟動推薦。第二是超參數的更新。不同場景中的超參數有顯著差異。通過構造一個更新控制器實現了比手工算法更靈活的更新策略,實現超參數的自適應更新。第三是控制學習過程停止。由于在小樣本學習的過程中,從較小的訓練集中學習過多會導致過擬合,影響泛化能力,因此需要在訓練損失停止下降或驗證集的性能開始下降之前將學習過程停止。文獻[41]提出用神經網絡來學習停止策略,利用一個LSTM(Long Short-Term Memory)構造停止控制器Ms計算第t個步驟的停止概率p(t)來控制每一步驟的隨機停止,避免訓練的過擬合。在公共數據集Amazon、MovieLens和淘寶實際場景數據集上驗證了提出的模型s2Meta的有效性。結果表明,在Amazon上的召回率相較于傳統的同領域或者跨領域的最先進模型的平均提高了9.41%;在MovieLens上的召回率相較于傳統的同領域或者跨領域最先進的模型的平均提高2.87%;在淘寶上的召回率相較于傳統的同領域或者跨領域最先進模型的平均提高了3.95%,有效緩解了新場景中的冷啟動推薦問題。

4 元學習自適應推薦研究

本文所述的元學習改進推薦算法選擇的研究方法如表2所示。

Table 2 Summary of adaptive selection of meta-learning improved recommendation algorithm

4.1 推薦算法自適應選擇

算法選擇[45]的目的是從眾多可用的優化算法中自動選擇最適合當前問題的算法,即對每個數據集上所有候選推薦預測算法的性能進行評估,然后選擇最優預測算法[46]?；旌贤扑]系統與傳統機器學習的集成學習思想統一,通過集成不同的算法降低單個算法的誤差,提高總體性能,達到更佳的推薦效果。推薦模型通過大量的用戶數據進行訓練來提供個性化推薦,但當用戶的交互數據較少時不足以支持有效的模型訓練,并且模型一般對特定用戶的數據敏感,對部分用戶的數據表現較好,但總體來說泛化能力弱。而基于元學習的推薦算法選擇可以有效挖掘元知識幫助用戶選擇合適的算法,選擇最有可能在特定問題上表現良好的算法[14]。

針對當前研究存在的問題,需要對不同用戶進行推薦模型自適應匹配,根據用戶的偏好為用戶選擇合適的推薦模型。對于給定的一組深度模型,Luo等人[42]提出利用元學習方法訓練模型選擇器和推薦模型,為每個用戶從這些模型中選擇一個最佳模型為其進行精確的個性化推薦,提出了如圖10所示的學習框架MetaSelector,促進推薦系統中用戶級的自適應模型選擇。

Figure 10 Framework of MetaSelector圖10 MetaSelector框架

MetaSelector定義每個元學習的任務是對一個用戶選擇模型的偏好學習,每一個任務都由一個用戶的數據組成,對任務進行元訓練。MetaSelector由基本模型模塊和模型選擇模塊2部分組成?；灸Ｐ湍K引用參數化的基本推薦模型,例如邏輯回歸LR(Logistic Regression)模型、因子分解機FM(Factor Machine)模型和DeepFM(Deep Factor Machine)這些基本的推薦模型,對應參數θ得到對應的模型M(·;θ),對于輸入的特征向量x,得到M(x;θ)作為最終預測結果。模型選擇模塊包含了一個在基本模型模塊上運行的模型選擇器S,將特征x作為基本模型M(x;θ)的輸入,若基礎模型為K個,分別表示為M1,M2,…,MK,每個模型的參數對應θk(1≤k≤K),則選擇器的具體輸入如式(4)所示：

M(x;θ)：=

(M1(x;θ1),M2(x;θ2),…,MK(x;θK)}

(4)

選擇器S輸出K個基本模型的分布情況。但是在實踐中,僅將x作為輸入并在基本模型和最終預測上生成分布λ=S(x;φ),選擇器S由φ參數化。訓練過程中對應輸入的支持集數據(x,y),模型選擇模塊將x作為輸入,基本模型上生成每項分布λ,再通過將每項分布λ與基本模型模塊結合,得到最終預測p(x;θ,φ),通過支持集上的標簽y與得到的預測結果p(x;θ,φ)訓練一個損失函數,利用損失函數更新初始化參數θ和φ,得到適應特定任務的θu和φu,即針對某一用戶的初始化參數。同理,對應支持集的每一組數據(x,y),只是選擇模型時應用的初始化參數是在支持集上得到的特定任務的θu和φu,與支持集上步驟相同計算查詢集的損失,但是將查詢集上適應任務的損失求和取平均,用來更新全局的初始化參數,而不是針對某一任務更新參數。更新全局參數的過程對應MAML框架的外循環,接收內部循環的損失信號,更新初始化參數。

更新后的參數在2個公共數據集(Movie- Lens、Amazon)和一個真實生成的數據集上與單個推薦模型以及具有模型選擇的混合推薦系統相比的測試結果表明,在指標AUC(Area Under the Curve)和LogLoss上都有了進一步提高,證實了元學習對新任務的泛化能力,也表明了在實際推薦場景中的潛能。

推薦系統在實現推薦的過程中,面對不同的推薦請求對象需要采取不同的推薦方式和選取不同的推薦內容。Collins等人[46]將推薦系統面臨的不同推薦請求對象情況分為宏觀推薦和微觀推薦。宏觀推薦具體指的是向希望構建推薦系統的組織推薦性能最佳的推薦算法;微觀推薦具體指的是微型推薦系統為每個推薦請求推薦最佳推薦算法。傳統的算法選擇通常會基于實時推薦系統收集的數據計算精度、召回率等指標來實現。但是在實際情況下,對于給定場景中算法的總體性能并不是最優的。因為一個場景中的細微差別可能會導致算法性能的顯著變化,這個細微差別就是微觀級別的。例如在新聞網站上有當天的時間、用戶的性別和年齡、要求推薦的數量以及很多其他因素。經過實驗證實,對MovieLens數據集的每一行數據,為其選擇Python推薦系統庫Surprise中提供的9種即用型協同過濾算法中性能最好的一個算法,但是這些不同算法整體而言,表現出的平均性能差異不大,但是針對微觀級別下,每個算法的性能表現出了較大的差異,例如奇異值分解SVD(Singular Value Decomposition)算法在MovieLens的17.2%的行中性能最佳,而KNNBasline算法僅在3.92%的行中表現最優。不同于已有的在宏觀層面為整個數據集增加元特征數量的研究[47,48],針對微觀級別算法性能差異大的特點,嘗試利用元學習學習數據間的特征關系以及該數據和算法性能之間的關系,在微觀層面預測給定情況下每個用戶-物品對的最佳推薦算法。通過監督式學習方式學習推薦系統推薦功能和推薦算法性能之間的關系。通過為每個算法單獨訓練2個模型,一個線性回歸模型用來為該算法下的用戶-物品對預測評分,另一個是元學習的誤差預測模型,利用給定的真實評分來評估線性回歸模型預測評分的損失,因此可以獲得每一個算法在用戶-物品對上的損失大小,選擇最佳性能的推薦算法。

然而在實際情況下,可能由于數據集本身的差異,或者僅僅選擇用戶-物品對的原始特征作為模型輸入或選擇的9個基礎推薦算法不合理等原因,導致提出的微觀元學習的推薦器(Meta-learned Recommender)選擇出的算法在指標均方根誤差RMSE(Root Mean Squared Error)上表現得效果并不理想,比SVD推薦算法以及組合算法都略高,需要在模型結構、輸入數據和基礎推薦算法等方面進一步改進。

4.2 元模型自適應選擇

實際生活中開發仿真模型[49]來代替現實世界中日益復雜的系統,以模仿實際系統的基本功能。元建模技術利用近似模型在設計和優化過程中,逐漸取代計算昂貴的仿真模型,這些模型通常被稱為元模型,提供了“模型的模型”[50],即元建模指的是對模型的建模,一個模型是元模型的一個實例,通過元建模技術可以用來代替計算昂貴的模型。實際中,不同的元建模技術性能具有差異。將一系列不同的元模型組合取最優以及幾個模型的最佳組合的研究,面臨計算成本高的挑戰。以大規模的基于元模型設計優化問題為例,為了支持優化過程,啟動數百萬的適應度評估,導致建立若干元模型或集合的代價過于昂貴。元建模技術和元學習是在不同領域的元層次的學習,由于元學習的計算效率和自動學習能力,它可以應用于算法選擇的優化過程和計算密集型元模型推薦的過程。Cui等人[44]提出了一種基于元學習的通用元建模推薦系統,可以實現元建模推薦的自動化,該推薦系統以Rice[45]提出的模型為基礎,Rice模型基于問題特征的算法選擇流程示意圖如圖11所示。

Figure 11 Schematic diagram of Rice model圖11 Rice模型示意圖

基于四維空間的Rice模型,將特征簡化組件添加到框架中以及將元學習算法擴展為基于排名的算法,包括基于模型的學習器和基于實例的學習器,通過比較基于實例的元學習器和基于模型的元學習器在6個元模型的學習排名,增強了系統的推薦能力。提出的推薦系統框架通過元學習學習偏置自適應問題特征來自動執行元建模推薦。元學習的快速自適應能力,使得元建模推薦的時間成本大大降低,在候選元模型數量較大而先驗知識較少的情況下替代傳統元建模任務,解決元模型選擇的問題,通過元學習學到的關系可以用來預測模型排名,促進了元建模推薦技術的研究。

5 元學習推薦研究存在的主要問題

5.1 任務分布不均勻不平衡

由于任務相互之間存在梯度沖突,不同的任務分布導致元學習個性化推薦面臨許多挑戰。在普通的多任務學習中,將任務分組為更加緊湊的分布通常能取得更好的效果,對于復雜的任務分布卻難以適應,并且大部分元學習框架默認任務分布均勻,使用單一的學習策略可以為均勻分布任務提供一個解決方案。然而實際任務的分布通常是不均勻的,并且在推薦系統中用戶的分布受到用戶信息或歷史交互的影響,通常是不平衡的,因此不同任務可能需要不同的學習策略,而這在現有的研究中很難實現。

5.2 計算代價高

基于優化的方法目標是通過參數優化快速學習新任務。這與經典的學習方法非常類似,然而,與傳統方法相比,基于優化的元學習器可以學習優化本身,并且是在多個任務下執行參數優化得到的,這讓模型可以快速學習新任務,但由于大部分基于優化的元學習方法的研究都基于MAML算法,其內外雙循環的設計以及二次微分計算特性都加大了計算代價。并且推薦算法自適應選擇研究中,對集成的各種模型的預訓練也有較高的計算成本。

5.3 易陷入局部最優

目前關于元學習的研究都還是狹隘的元學習,大部分基于元學習的研究都是采用歐幾里得域數據。緩解冷啟動問題的研究大部分都采用基于優化的元學習方法,選擇 MAML對模型進行訓練,學習一個共享的全局初始化參數,使得不同用戶具有相同的初始化參數,容易導致模型陷入局部最優的問題,減緩收斂速度。

5.4 難以提取用戶隱私信息

部分基于元學習緩解推薦冷啟動問題的研究需要利用各種輔助信息,生成用戶和物品嵌入表示或者提取用戶的偏好信息。而輔助信息例如用戶的配置文件等,涉及用戶的隱私。通常用戶配置文件被限制獲取與使用,導致部分研究在現實場景中應用受限制。

5.5 難以獲取適配任務

元學習通過在元訓練和元測試任務中學習元知識,指導目標任務快速適應。然而當訓練任務與目標任務涉及的領域差異較大時,元學習方法效果較差,并且需要有與目標任務同量級的元訓練任務支持元學習訓練。

5.6 可解釋性差

可解釋性增加用戶對推薦系統的信任與接受程度,同時提高推薦的效率。而基于元學習的算法選擇研究一般采用黑盒的形式,獲取的元知識可解釋性差。

6 未來主要研究方向

6.1 自適應推薦任務分布

單一學習策略為均勻分布任務提供較優解。多模態分布任務,通過學習如何為每個均勻分布的任務生成多元的元先驗知識,根據每個不同分布規律自適應選擇最佳元先驗知識。以此來適應復雜任務分布,緩解因用戶信息或歷史交互導致的用戶分布不均的影響,進而提高推薦系統的泛化能力,可以用來解決不同任務分布不均勻、不平衡的問題。

6.2 模型參數的優化更新策略

推薦計算成本決定推薦的可實施性與有效性,基于優化的元學習使用梯度下降的方式優化模型的參數,計算成本較高且無通用最佳的優化策略。如何優化模型參數的更新策略,減少大量內外循環步驟解決計算代價高的問題,以提高整體推薦過程的時效,是一個值得研究的課題。

6.3 元學習圖神經網絡推薦

元學習從經驗中獲取知識適應新任務的能力,可以運用于非歐幾里得數據,例如在圖神經網絡中學習圖的結構信息,利用元學習方法在圖上通過梯度更新快速實現知識轉移,傳遞任務間的有用信息,對信息稀疏的圖的標簽和鏈路進行預測,學習圖的局部結構,緩解圖的稀疏性問題,快速適應新的圖任務,解決元學習已陷入局部最優的問題,為圖神經網絡的研究發展提供一個新的思路,將研究的靜態圖擴展為動態圖或擴展到交通預測、分子性質預測等現實場景之中具有較好的前景。

6.4 元學習時間序列推薦

現實世界中的推薦系統通常需要與復雜的實際場景進行交互,并且用戶的興趣時刻更新,根據用戶的長期偏好以及時刻更新的短期興趣,利用元學習提取用戶的長期偏好以及稀疏的即時交互數據快速適應用戶偏好變化以及捕捉潛在的隱式興趣,緩解推薦過程中對輔助信息的依賴,為用戶提供精準的個性化推薦,同時增強元學習的可解釋性。

6.5 增量式元學習個性化推薦

實際場景推薦環境動態變化,需要對推薦系統模型定期使用歷史交互數據與新的交互數據更新,以維持推薦算法的準確性與可擴展性。更新的速度受限于歷史交互數據的規模,同時耗費時間與內存,易造成過擬合和遺忘等問題。增量式改進可以大大降低模型更新的復雜度,而元學習對歷史任務的知識獲取和引導新任務快速適應的能力,可以實現增量學習的思想,節約推薦系統模型更新的時間成本與內存成本,對提高推薦系統性能具有非常重要的現實意義。

7 結束語

本文對基于元學習方法緩解推薦系統冷啟動問題以及自適應推薦問題的主要研究進行了分析,以及對當前研究的優缺點進行歸納總結,進一步梳理元學習推薦的一些最新研究內容。最后,指出基于元學習思想的推薦研究存在的不足,并從多個方面對其未來的研究方向進行了展望,以期對未來元學習個性化推薦提供借鑒。