?

知識圖譜在互聯網電商平臺商品個性化推薦中的應用探索

2023-07-17 14:27楊少秋
計算機應用文摘·觸控 2023年13期
關鍵詞:質量評估個性化推薦知識圖譜

摘要:為更好地提升商品、用戶及購物場景之間的匹配效率,挖掘用戶的潛在需求,利用電商平臺的商品數據及外網數據,基于專家知識輔助,構建了以《商品屬性屬性值)為主的電商域商品知識圖譜,并提出了構建電商常識屬性知識三元組(頭實體屬性尾實體)的新思路,開發了圖譜質量眾包評估系統。將商品知識圖譜創新性地應用于個性化商品新品推薦改善及興趣知識導購卡片等場景中,通過50%流量對照的AB實驗表明,應用場景的點擊率分別有11.5%和8.6%的提升,點擊轉化率分別有23.2%和15.4%的提升.表明電商知識圖譜可以有效應用于電商平臺個性化及智能化的場景中。

關鍵詞:電商域;知識圖譜;常識屬性;質量評估;個性化推薦

中圖法分類號:TP391 文獻標識碼:A

1 概述

在互聯網時代,人們的購物習慣逐漸從傳統的搜索式購物向個性化推薦式購物方式轉變,這也是互聯網電商平臺爭相發力的突破口,即通過挖掘用戶潛在的喜好或隱性需求,推動業績進一步提升。通常的個性化推薦系統是采用機器學習的方式,利用用戶的正負行為樣本(如瀏覽或購買行為)來訓練推薦算法模型,最終得到某一用戶推薦商品的序列。這種方式對用戶潛在喜好或隱性需求的挖掘效果不佳。而知識圖譜中蘊含商品屬性與屬性之間,實體與實體之間豐富的關系,因而可以更好地挖掘用戶的潛在偏好,并且具有更好的可解釋性。

2012 年,人們開始廣泛研究知識圖譜并將其應用于產業領域[1] 。知識圖譜用于描述和分析真實環境中各種類型的實體、概念以及它們之間的聯系,通常由三元組來表示:〈實體?關系?實體〉,〈實體?屬性?屬性值〉[2] 。而在電商知識圖譜中專家知識很多,核心是品類和概念。目前,市面上只有通用的公共百科類圖譜,沒有公開的電商領域的商品知識圖譜,所以電商平臺需要立足于自身能力和知識數據沉淀,構建屬于自己的電商知識圖譜。

本文闡述了項目是如何利用商品底層數據及外網數據,并在構建常規商品圖譜的基礎上,提出并構建常識屬性知識三元組〈頭實體?屬性?尾實體〉。然后,將其創新性地應用于商品個性化新品推薦改善及興趣知識導購卡片等場景中,并為后期其他的智能應用提供經驗和基礎。

2 構建和完善商品知識圖譜

互聯網電商平臺的核心要素是商品,項目通過頂層定義和底層抽取的綜合方式,采用自頂而下和自底而上的混合模式來構建商品圖譜[3] ,如圖1 所示。

2.1 知識建模

該模塊核心任務主要是在多源數據中構建商品領域知識體系。商品領域知識體系的構建是對領域分類(如品類分類)、屬性以及分類之間關系的定義,具有較強的抽象性和概括性[4] 。在公司商品類目屬性體系的基礎上,項目邀請了商品及運營專家共同參與構建。

同時,項目又通過爬蟲及第三方獲取的方式補充了大量外網數據,以豐富領域知識信息。以美妝商品為例,通過領域建模,明確了美妝分類、屬性和分類之間關系(如大類和小類關系等)的定義。

2.2 知識圖譜構建

在2.1 節的基礎上,圖譜構建的流程是:知識獲取→知識抽取→知識融合→圖譜評估[5] ,中間還穿插著常識屬性知識三元組的抽取過程。項目應用多項技術棧,包括命名實體識別、關系抽取、槽填充、事件抽取等,以獲取知識和抽取關系[6] ,構建圖譜。

2.2.1 知識獲取

圖譜知識由2 部分組成,一部分是平臺沉淀的商品數據(主要基于結構化數據的類目屬性體系),另一部分是外網數據(“爬蟲+第三方”方式獲?。?,而這部分數據在初始階段需要對商品ID 進行去重處理。

2.2.2 知識抽取

在2.2.1 節的基礎上,針對商品標題等非結構性文本數據(如法國原裝進口嬌韻詩V 臉精華纖妍/ 纖顏緊致蘭花面部護理精油30 ml)等,需要通過命名實體識別(如“bert+CRF 算法”[7] )等技術手段,識別出命名實體,并將其歸類為商品名稱、場景名稱、人物姓名等事先定義好的類別。

NER 過程后,再通過關系抽取、槽填充等方式進行關系抽取,利用TextRunner 等算法,獲得實體與實體間的語義關系并填充明確定義的屬性值。形成〈美妝,屬性,屬性值〉為主的圖譜結構。

2.2.3 知識融合

知識融合的方法主要有實體對齊、實體解析、實體消歧、實體鏈接等[8] ,其主要目的是獲得更完整的知識描述和知識之間的關聯關系,實現知識的互聯、互補和融合。以領域知識體系為基礎,通過本體對齊的基礎步驟,對類、屬性項和屬性值進行對齊,以解決異構問題。以美妝為例,防曬乳、防曬霜、防曬露等都屬于“防曬霜”,提亮、增亮、亮膚、透亮等都屬于“美白”。因此,需要將這些實體進行融合。

此類融合方式在個性化推薦過程中還可以提升圖譜召回的豐富性和合理性。比如,當用戶要購買美白的護膚品時,其他提亮功能的護膚品也可以被推薦給用戶,以提升推薦結果的命中率。其具體如圖2所示。

2.2.4 構建電商常識知識三元組

上文構建的知識圖譜里的商品屬性是多年沉淀下來的客觀屬性值。但在實際使用過程中發現,常識屬性標簽在電商業態下的各個場景都有著廣泛的需求,如“老人出行需要防滑的鞋子”等。因為它反映了購物行為的內在原因,這些常識知識能夠明確地指出行為背后可能的動機,對用戶體驗和購物效率有著重要的意義。而現有的知識圖譜對常識知識合理性及顯著性的表示有所欠缺。

為解決此類問題,項目組決定提出沉淀電商常識屬性知識三元組的創新性思路,建立電商常識知識三元組(即頭實體、頭屬性、尾實體)。其中,頭實體為商品,如防曬霜;頭屬性為商品屬性,如SPF50;尾實體為常識屬性,如防曬。對常識屬性進行掛載,從而補全商品的常識屬性。

為提升模型的準確性,項目未采用生成式關系抽取,而是通過識別頭尾實體及屬性詞,利用bert 技術,將關系抽取轉化為二分問題。同時,為了提升模型的泛化性以及準確性,采用pairwise 方式,對實體及context 分別建模,最終關系抽取模型架構圖如圖3 所示。

相關實驗結果如表1 所列(bert+[entity]_fc 表示采用robert 方式,bert+[CLS]_fc 表示bert 文本分類,double?tower pairwise 進行分類結果)。

關系抽取實例如下。

(1)頭實體:凍干粉。頭屬性:玻尿酸。尾實體:婦女。關系:品類_適合_人群。

(2)頭實體:上衣。頭屬性:羊毛。尾實體:秋冬季。關系:品類_適合_時令。

(3)頭實體:馬丁鞋。頭屬性:牛皮。尾實體:戶外。關系:品類_適合_場景。

目前,項目還處于初期嘗試階段,后續方向是通過技術及算法手段來解決人工審核的問題,并開展知識顯著性校驗/ 打分等工作。

2.3 圖譜質量評估

商品圖譜建立好后,為維持和提升圖譜質量,項目組依托公司的大數據平臺,開發了供公司內部使用的圖譜質量眾包評估系統。整體評估系統的流程設計如下。

(1)圖譜數據上傳至評估系統。

(2)自定義抽樣比例,默認20%。

(3)系統自動拆分子包任務。

(4)人員進行在線評估工作。

(5)系統自動輸出本次任務的圖譜質量數據。

(6)項目技術人員進行相關問題的修復及算法迭代工作。

項目組對美妝、家居、食品、服飾等圖譜進行了多次質量評估,有效提升了整體圖譜數據質量水平,使得圖譜掛載準確率從85%左右提升到了95%以上,而召回率也有了18%左右的提升。

至此,圖譜構建的基礎工作及流程結束,1 年多的時間里,項目的整體圖譜數據累積有節點十數億級別。

3 知識圖譜在商品個性化推薦中的應用及效果

在構建完商品圖譜后,圖譜在商品的個性化推薦中有著多種應用。

項目利用知識表示學習(KRL)模型,通過TransE等模型將圖譜中的語義關系embedding 向量化,并根據歐幾里得公式和KNN 算法等計算商品之間的相似度[9] 。參照公式如下:假設目標商品和已購商品的語義向量分別為Ci = {E1i ,E2i ,…,Edi } 和Cj = {E1j ,E2j ,…,Edj },其中Edi ,Edj 為語義向量第d 維上的值,則二者之間的距離為:

再通過TOPN 排序便可得到評分最高的推薦商品列表。項目已采用該方式增加I2I 的商品召回數量,以提升商品推薦的可解釋性。同時,項目嘗試了如下2 個創新場景。

3.1 個性化新品推薦改善

在電商平臺中,新品上架數量多、頻次高,基于這些有偏差的數據訓練的模型容易進一步歧視“長尾”商品。此問題已成為平臺業務痛點之一。平臺希望能夠提升新上架商品/ 新品流量分發效率,以促進平臺整體收入的提升。

因此,項目基于商品知識圖譜嘗試提升item/ 用戶表征能力,以更好地解決新品冷啟動的問題。主要方法是通過graph 建模的方式擴充用戶商品行為序列間商品的關聯,并通過圖譜來增進熱門商品和冷門/新上架商品的表征相似度。

在用戶側:項目基于用戶點擊、購物等行為歷史構建user?〉item?entity 圖。

在商品側:項目基于item?entity?〉item?entity 構建I?I 圖,從而通過在item 的子圖中引入與其相關的其

他item/ entity 的方式增強item 的圖表征。

最后,通過GNN 網絡學習用戶和新品/ 冷門之間的潛在關系,將新品/ 冷門更有效率地推薦給用戶,以解決新品的推薦問題。

經過50%流量分流的AB 實驗后,平臺大盤新品的點擊率有11.5%的提升,點擊轉化率有23.2%的提升,數據效果較明顯。

3.2 興趣知識導購卡片

項目基于構建好的電商知識圖譜,尤其是依托電商常識屬性知識三元組,通過清單聚合相同興趣知識點下商品,基于用戶的個性化興趣及知識偏好,提升推薦的場景氛圍感及命中率??ㄆe例如下:(1)“輕熟齡女神大牌抗皺面霜”;(2)“小仙女熬夜專屬修復神器”;(3)“增高愛好者福音! 必備松糕鞋”。

知識導購卡片的位置穿插于購物APP 中的訂單列表頁推薦、購物車推薦、種草好貨推薦等多個平臺推薦feed 流場景中。經過一段時間的50%流量AB測試,項目累計上線興趣卡片1.1 K,整體推薦場景點擊率提升8.6%,點擊轉化率提升15.4%,數據效果較明顯。

4 結束語

項目組利用公司數據及外網數據,構建了以商品屬性項屬性值為基礎的知識圖譜,并創新性地提出了以常識屬性為基礎的知識三元組圖譜構建,在此基礎上,將其應用于2 個創新場景———個性化新品推薦改善及興趣知識導購卡片,均取得了較好的數據提升效果。事實證明,電商知識圖譜構建可以有效應用于電商平臺的個性化及智能化場景中。項目組希望后續可以沉淀更多準確的知識性三元組,并希望通過提升模型的準確度及增加顯著性校驗等流程,以減少知識性三元組的審核人力成本。同時,項目組也會進一步研究其他智能化應用場景,如搜索、智能導購問答等。

參考文獻:

[1] 劉嶠,李楊,段宏,等.知識圖譜構建技術綜述[J].計算機研究與發展,2016,53(3):582?600.

[2] 徐增林,盛泳潘,賀麗榮,等.知識圖譜技術綜述[J].電子科技大學學報,2016,45(4):589?606.

[3] 李鑫柏,吳鑫然,岳昆.基于貝葉斯網的開放世界知識圖譜補全[J].計算機工程,2021,47(6):104?114.

[4] 郭劍毅,李真,余正濤,等.領域本體概念實例、屬性和屬性值的抽取及關系預測[J].南京大學學報(自然科學版),2012,48(4):383?389.

[5] 俞偉,徐德華.推薦算法概述與展望[J].科技與創新,2019(4):50?52.

[6] 常亮,張偉濤,古天龍,等. 知識圖譜的推薦系統綜述[J].智能系統學報,2019,14(2):207?216.

[7] 王義,馬尚才.基于用戶行為的個性化推薦系統的設計與應用[J].計算機系統應用,2010,19(8):29?33.

[8] 王光,張杰民,董帥含,等.基于內容的加權粒度序列推薦算法[J].計算機工程與科學,2018,40(3):564?570.

[9] 王根生,潘方正.融合語義相似度的協同過濾推薦算法[J].中國科學技術大學學報,2019,49(10):835?841.

作者簡介:楊少秋(1989—),碩士,工程師,研究方向:智能搜索/ 推薦、知識圖譜、智能座艙等AI 類應用。

猜你喜歡
質量評估個性化推薦知識圖譜
基于組合分類算法的源代碼注釋質量評估方法
基于鏈式存儲結構的協同過濾推薦算法設計與實現
個性化推薦系統關鍵算法探討
基于協同過濾算法的個性化圖書推薦系統研究
基于知識圖譜的產業集群創新績效可視化分析
基于知識圖譜的產業集群創新績效可視化分析
基于知識圖譜的智慧教育研究熱點與趨勢分析
從《ET&S》與《電化教育研究》對比分析中管窺教育技術發展
中國上市公司會計信息質量研究
澳大利亞研究生課程的外部質量評估
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合