?

基于行為曲線的用戶協同過濾控制推薦

2023-01-15 11:25樊其鋒黑繼偉呂闖龐敏尚喆夏云龍邢志鋼
家電科技 2022年6期
關鍵詞:類別聚類準確率

樊其鋒 黑繼偉 呂闖 龐敏 尚喆 夏云龍 邢志鋼

廣東美的制冷設備有限公司 廣東佛山 528000

0 引言

近幾年,隨著物聯網[1]和智能化的發展,各家電廠商逐步從傳統的制造技術向基于物聯網的智能家居[2]轉型。行業競爭日益明顯,為了提升競爭力,需要不斷探索新的領域?;谟脩粜袨檫M行算法建模,為用戶提供精確的空調控制推薦服務至關重要。但是,用戶行為習慣方面具有一定的差異性,例如:冷熱喜好、節能需求、睡眠場景等,也會很大程度上影響推薦的準確性。本文研究基于行為曲線的用戶協同過濾推薦算法,該算法可以充分反映人群在不同場景和習慣上的差異性,推薦的操作更加準確和舒適,提升用戶體驗和黏性,促進空調行業的智能化發展。

1 相關工作

空調行為推薦具有非常重要的意義:對用戶而言,可以讓空調使用更加便捷;對空調廠商而言,可以增強用戶黏性,提升用戶使用體驗,最終提升銷量。目前,主要分為用戶研究和智能推薦。用戶研究以問卷法、入戶訪談等方法為主。近幾年,互聯網行業得到飛速發展,大數據和人工智能更是炙手可熱[3],推薦方法不僅僅局限于傳統的統計,而是升級到了基于算法與大數據的智能推薦。智能推薦主要包括基于分類回歸、協同過濾等[9]。

基于分類回歸的推薦算法包括貝葉斯、KNN等算法[4]。貝葉斯分類是通過給出的待分類項,求解在此項出現的條件下各類別出現的概率,概率最大的分類項,則被認為此項所屬的類別;K近鄰是通過找出訓練集中與該實例相似度最大的K個實例,并根據這K個實例的類別確定該實例的類別。

協同過濾(CF)算法,分為User-based和Item-based兩類[7]。Userbased協同過濾算法[6]是找出一個用戶的相似偏好集合,根據相似用戶的偏好預測該用戶的行為;Item-based協同過濾算法[5]則通過計算用戶對不同內容的偏好程度,從而預測用戶的行為。

此外,智能推薦還可提供個性化的推薦服務[8]。其中,基于用戶行為的自學習推薦[10,11,15],也具有較好的運用。

本文采用了基于行為曲線的用戶協同過濾控制推薦算法:UBCbased CF,根據用戶行為曲線相似度,找到相似行為用戶,從而根據相似用戶的空調操作進行推薦。該算法反映了人群在不同場景和習慣上的差異性,推薦的操作更加準確和舒適。

2 UBC-based CF推薦控制

本章詳細介紹空調行為推薦的流程??傮w架構如圖1所示。首先,提取用戶的歷史操作行為曲線,以表示該用戶;然后,通過計算行為曲線的相似度,來評估每個用戶與該用戶的相似度;接著,查找距離該用戶最近的K個鄰居,通過協同過濾算法獲取推薦值,實現空調的智能化控制。

圖1 協同過濾推薦流程圖

接下來,將分別從用戶表示、計算行為曲線相似度、計算用戶行為相似度、協同過濾推薦這幾個部分進行闡述。

2.1 用戶表示

從物聯網空調上收集用戶操作行為數據,主要包括操作時間(開關機、調節溫度、調節風速等發生的時間)、開關機、設置模式、設置溫度等數據。本文以操作行為來表示用戶。

經過歷史行為統計發現:用戶對空調的操作60%會出現在開機10分鐘內,80%出現在30分鐘內,90%出現在2小時內。因此,用戶操作的時間序列對行為分析具有很大的影響。

本文通過提取空調運行過程中的時間階段特征,以時間為X值,用戶設置溫度、風速、開關機等分別為Y值,建立行為曲線。下面以設置溫度為例對用戶行為曲線(設置溫度)的生成過程進行詳細闡述。

(1)生成行為曲線:以時間序列為X軸,以設置溫度為Y軸,建立二維空間坐標系。

(2)行為曲線歸一化:由于受到氣候環境的影響,用戶的使用時長不同;而且,較短的使用記錄,并不能反映空調從開機到達溫再到穩定的過程。因此,首先把使用時長小于2小時的行為作為“噪聲”剔除,然后以用戶使用時間100%對用戶行為曲線進行拉升或壓縮,使得其在相同的時間范圍內,以完成歸一化。如圖2所示。

圖2 用戶行為曲線

因此,用戶可表示為L={L1,L2,L3,……,Ln},包含了用戶的設置溫度、風速、開關機等空調操作行為信息。其中L1可表示設置溫度行為曲線,L2可表示設置風速行為曲線,L3可表示開關機行為曲線……

2.2 計算行為曲線相似度

行為曲線相似度能夠表示兩個用戶空調某個操作使用行為的一致性,對于尋找高度相似的鄰居,提升算法推薦準確率至關重要。

本節主要介紹行為曲線相似度的計算方法。首先,通過積分公式計算兩條曲線面積的交集和并集;然后,以此計算曲線面積的Jaccard系數作為這兩條行為曲線的相似度。其中相同的用戶每次使用均為一條獨立的行為曲線。

假設有2個用戶行為a和b,設置溫度曲線分別為La和Lb,如圖3所示。

圖3 行為曲線相似度

把曲線的時間軸劃分成正無窮個時間間隔;

對于任何一個間隔i,行為a和b的設置溫度分別為Ti,a和Ti,b,計算該間隔的最大設置溫度Ti,max和最小設置溫度Ti,min:

根據積分和Jaccard公式,計算行為曲線的相似度sim_ba,b,具體公式如下:

其中,Sa和Sb分別表示曲線La和Lb與X軸的面積,sim_ba,b為行為曲線a和b的相似度。

2.3 計算用戶行為相似度

用戶行為相似度能夠反映兩個用戶空調使用行為的一致性。本文通過行為曲線相似度來計算用戶之間的相似度。首先,針對特定用戶u,對該用戶的空調使用歷史行為曲線L={L1,L2,L3,……,Ln}進行層次聚類,整合為M個類別;然后,針對其他用戶k,計算該用戶每條歷史行為曲線距離用戶u最近的行為曲線Li(∈L),并以此劃分為Li所在的類別m(∈M);接著,計算用戶k與u在每個類別的相似度,并以所有類別的平均相似度,作為用戶k與u的空調使用行為相似度。

具體算法如下:

接下來,本節將從用戶行為曲線聚類、曲線類別相似度計算、用戶行為相似度計算這幾個部分進行詳細闡述。

(1)用戶行為曲線聚類:針對特定用戶u,根據相似度閾值S,對該用戶的所有歷史行為曲線進行層次聚類。

層次聚類是一種基于相似度的聚類方法,分為自下而上和自上而下兩種方法,圖4為層次聚類的合并方法。

圖4 層次聚類的合并方法[14]

下面介紹一個案例:假設用戶u有3條行為曲線,相似度閾值S為0.9,則最終合并為2個類別,如圖5所示。

圖5 用戶行為曲線聚類

閾值S的選取,對行為曲線聚類具有明顯的影響,對推薦效果也具有較大的影響。S設置越小,區分度越小,曲線越容易聚成同一個類別,選取的鄰居行為相似性越弱;S設置越大,區分度越大,曲線越不容易聚成同一個類別,選取的鄰居行為容易過擬合,推薦效果反而變差。在第3章實驗部分,將對該部分進行參數優化。

(2)曲線類別相似度計算:針對用戶k,計算該用戶每條歷史行為曲線距離用戶u最近的行為曲線Li(∈L),并以此劃分為Li所在的類別m(∈M);然后計算每個類別的平均相似度。計算公式如下:

其中,n表示用戶k劃分為類別c的行為曲線數量,ui表示類別c中第i條用戶u所屬行為曲線;ki表示類別c中第i條用戶k所屬的行為曲線;sim_bui,ki表示類別c中第i條用戶行為曲線相似度,sim_cc即為類別c的行為相似度。案例如圖6所示。

圖6 行為類別相似度計算

類別1的平均相似度:

類別2的平均相似度:

用戶行為相似度計算[12]:計算M個類別的平均相似度,作為用戶u和k的相似度。計算公式如下:

其中,n表示類別的數量,sim_cc表示第c個類別的行為相似度,sim_uu,k即為用戶u和k的平均行為相似度。如圖6所示案例:

通過該方法,計算出每兩個用戶之間的空調使用行為相似度。

2.4 協同過濾推薦

本文的推薦包含了群體默認推薦值和協同過濾推薦。針對無歷史使用行為的新用戶,采用群體推薦默認值,當用戶使用了一段時間(7天)后,則采用協調過濾推薦。

本節主要介紹協同過濾推薦算法[13]。首先,針對特定用戶,獲取該用戶與其他用戶的相似度;然后,查找距離該用戶最近的K個近鄰;最后,根據K個鄰居的當前空調控制參數(包括不限于設置溫度,當前控制參數無需區分智能推薦或用戶自主調控),生成推薦值,作為最終的控制參數。

(1)獲取與其他用戶的相似度;

(2)查詢該用戶的K近鄰;

(3)推薦控制參數。

獲取K個鄰居的當前設置參數,計算平均值,作為最終的推薦參數。

其中,u表示該用戶,k表示K個鄰居中的第k個用戶,Tk表示用戶k的當前設置溫度,sim_uu,k表示用戶u和k的用戶行為相似度。CFR(u)即為最終的推薦參數。

每間隔時間T,通過本文的算法,可以實時獲取該用戶的推薦參數值,從而實現智能化控制。

3 實驗與分析

本節首先介紹實驗的數據集以及評估指標;然后,介紹調參和抽樣,最后對比多種推薦方法的效果,從而得出實驗結論。

3.1 數據集與評估方法

本文所用數據為:用戶信息、用戶使用行為。抽取了2019年的部分數據,作為訓練集和測試集,具體如表1所示。

表1 數據集

本文主要包括設置溫度和風速的實時推薦(以溫度為例)。

當用戶實際設置溫度與算法推薦溫度高度一致的時候,則代表用戶滿意算法推薦的溫度值,即算法推薦溫度可以為用戶帶來較強的熱舒適性體驗,因此本文采用如下的準確率公式來對推薦效果進行判定。

實驗中,通過對比算法推薦溫度與用戶設置溫度,計算準確率P,以此評估該算法的效果。準確率計算公式如下:其中,TCu表示推薦溫度,Ts表示用戶設置溫度;14為[17,30]溫度范圍區間,以1℃為間隔,共14個值。

3.2 結果與分析

(1)參數調優

本算法中,閾值S(用戶行為相似度)的選取,對行為曲線聚類具有明顯的影響,對推薦效果也具有較大的影響,因此,本文針對S取值進行調優,選取不同的S值進行聚類,然后進行參數推薦,最后采用3.1節的公式進行準確率計算,得出不同閾值S下的準確率如圖7所示。

圖7 相似度閾值 參數調優

從圖7中可以看出,當S≤0.85時,準確率較低且隨著S值變化不明顯,S=0.95時準確率最高,當S=1時,平均準確率又明顯下降。因此,本算法中S值參數選取為0.95。

(2)各城市/季節效果對比

為驗證本算法在各個城市及季節的有效性,本項目在全國典型城市進行抽樣,選取了北京、重慶、武漢等城市用戶的制冷和制熱模式的使用數據,進行參數推薦,最后采用3.1節的公式進行準確率計算,對推薦算法的效果進行實驗論證,具體的準確率如表2所示。

表2 不同城市/季節效果對比

從表2中可以看出,在夏季制冷模式下,本項目算法推薦均有較好的效果,都在91%以上,其中北京、深圳最好,達到94.6%以上。冬季制熱模式下,由于用戶制熱差異較大,推薦效果差于夏季,且北方城市效果好于南方城市。

(3)各算法效果對比

為驗證本算法整理準確率,本項目對比了各算法的實際效果:用本實驗對測試集,分別運行KNN算法、基于用戶的協同過濾CF算法、UBC-based CF算法,計算準確率對推薦結果進行評估。如圖8所示。

圖8 多算法推薦準確率效果對比

可以看出,本項目UBC-based CF算法的準確率為91.43%,KNN算法的準確率為86.26%,基于用戶的協同過濾user-based CF算法準確率為87.19%,本項目算法準確率提升了5%,取得了較好的效果。

4 應用效果

本文研究的算法準確率高達91.43%。在用戶空調使用過程中:100次推薦值,約有91次推薦值可滿足用戶需求,用戶無需進行調節。而針對推薦值不滿足用戶需求的部分,若用戶產生調節行為,算法將會重新學習調整,越用越智能。

本文研究的算法能夠最大限度地貼合用戶的實際使用需求,用戶無需動手。不僅能夠給用戶帶來空調智能化的便捷,同時也能夠更好地給用戶提供舒適性體驗。

5 總結與展望

本文研究基于行為曲線的用戶協同過濾控制推薦,提出了UBCbased CF算法:使用更細粒度的行為曲線來表示用戶,通過行為曲線相似度來計算用戶之前的行為相似度,從而基于用戶的協同過濾算法能夠獲得精準度更高的空調控制推薦服務。該算法解決了人群在不同場景和習慣上的差異性問題,推薦的操作更加準確和舒適。本文通過實驗分析,對模型參數進行調優,并驗證了在不同城市/季節下的推薦效果;另外,通過對比分析發現,本算法的準確率比其他算法高出4%以上,具有很好的推薦效果。

接下來,我們將進一步研究濕度、潔凈度、新鮮度等其他指標的推薦模型,以實現多維空氣的智能化控制。

猜你喜歡
類別聚類準確率
論陶瓷刻劃花藝術類別與特征
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
一起去圖書館吧
基于K-means聚類的車-地無線通信場強研究
高速公路車牌識別標識站準確率驗證法
基于高斯混合聚類的陣列干涉SAR三維成像
基于Spark平臺的K-means聚類算法改進及并行化實現
基于加權模糊聚類的不平衡數據分類方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合