?

基于進化集成學習的用戶購買意向預測

2024-03-05 05:31張一凡于千城張麗絲
計算機應用研究 2024年2期
關鍵詞:特征選擇

張一凡 于千城 張麗絲

收稿日期:2023-07-11;修回日期:2023-08-17? 基金項目:寧夏重點研發計劃(引才專項)項目(2022YCZX0013);寧夏重點研發計劃(重點)項目(2023BDE02001);銀川市校企聯合創新項目(2022XQZD009);北方民族大學2022年校級科研平臺《數字化農業賦能寧夏鄉村振興創新團隊》項目(2022PT_S10);“圖像與智能信息處理創新團隊”國家民委創新團隊資助項目

作者簡介:張一凡(1998—),女,安徽宿州人,碩士,主要研究方向為機器學習、數據挖掘;于千城(1976—),男(通信作者),寧夏銀川人,副教授,碩導,博士,主要研究方向為社會感知計算、社交網絡分析、機器學習(1999019@nmu.edu.cn);張麗絲(1999—),女,云南曲靖人,碩士,主要研究方向為機器學習.

摘? 要:在電子商務時代背景下,精準預測用戶的購買意向已經成為提高銷售效率和優化客戶體驗的關鍵因素。針對傳統集成策略在模型設計階段往往受人為因素限制的問題,構建了一種自適應進化集成學習模型用于預測用戶的購買意向。該模型能夠自適應地選擇最優基學習器和元學習器,并融合基學習器的預測信息和特征間的差異性擴展特征維度,從而提高預測的準確性。此外,為進一步優化模型的預測效果,設計了一種二元自適應差分進化算法進行特征選擇,旨在篩選出對預測結果有顯著影響的特征。研究結果表明,與傳統優化算法相比,二元自適應差分進化算法在全局搜索和特征選擇方面表現優異。相較于六種常見的集成模型和DeepForest模型,所構建的進化集成模型在AUC值上分別提高了2.76%和2.72%,并且能夠緩解數據不平衡所帶來的影響。

關鍵詞:購買預測;差分進化算法;進化集成;特征選擇;模型選擇

中圖分類號:TP39??? 文獻標志碼:A

文章編號:1001-3695(2024)02-007-0368-07

doi:10.19734/j.issn.1001-3695.2023.07.0272

User purchase intention prediction based on evolutionary ensemble learning

Zhang Yifana,Yu Qianchenga,b,Zhang Lisia

(a.School of Computer Science & Engineering,b.The Key Laboratory of Images & Graphics Intelligent Processing of State Ethnic Affairs Commission,North Minzu University,Yinchuan 750030,China)

Abstract:In the era of e-commerce,accurately predicting user purchase intentions has become a crucial factor for enhancing sales efficiency and optimizing the customer experience.Addressing the limitations of traditional ensemble strategies,which often suffer from subjective biases during the model design phase,this paper introduced an adaptive evolutionary ensemble lear-ning model to predict user purchase intentions.This model adaptively selected the optimal base learners and meta-learners,incorporating both the predictive information from the base learners and the differential information between features to expand the feature dimensions,enhancing prediction accuracy.Moreover,to further refine the predictive capabilities of the model,this paper designed a binary adaptive differential evolution algorithm for feature selection,aiming to identify features that significantly influence the prediction outcome.Research results show that the binary adaptive differential evolution algorithm outperforms traditional optimization algorithms in global searches and feature selection.Compared to six common ensemble models and the DeepForest model,the proposed evolutionary ensemble model achieves a 2.76% and 2.72% increase in AUC value,respectively,and effectively mitigates the impacts of data imbalance.

Key words:purchase prediction;differential evolution algorithm;evolutionary ensemble;feature selection;model selection

0? 引言

在互聯網時代,電子商務因其便捷性和高效性得到了廣泛的應用[1]。通過機器學習技術[2]對海量的電商數據進行分析和預測,有助于電商企業深入挖掘用戶的購買意向和需求,從而提供更加精準化、個性化的服務和產品,進一步提高客戶的滿意度和企業競爭力。然而,隨著互聯網用戶數據的爆炸性增長以及用戶行為模式的多樣化,準確預測用戶的購買意向變得越來越具挑戰性?,F有預測模型大多基于集成學習技術[3],盡管這種技術在提高預測精度上有一定優勢[4],但在處理日益復雜且高維度的電商數據時,由于模型設計和特征選擇往往依賴于人工設定,缺乏足夠的自適應性,所以預測的準確性和穩定性仍然有待提高。近年來,進化算法的快速發展為解決這一難題提供了可能。其在解決優化問題上具有獨特的優勢,特別是在處理高維、非線性、多模態等復雜問題上,展現出了優異的性能[5]。綜上所述,本文結合進化算法和集成學習的優點,提出一種自適應進化集成模型。該模型包含模型選擇層和模型融合層兩層。選擇層采用進化算法自適應地調整集成學習器的權重,找到在給定數據集上使投票分類器性能達到最優的權重組合,并將相應的學習器傳遞給融合層;融合層通過融合最優學習器組合的預測結果和重要特征的標準差擴展特征維度,并在元學習器上做最終的購買意向預測。為進一步優化模型的預測精度,本文還設計了一種二元自適應差分進化算法,該算法模擬生物進化的過程,通過自適應地調整交叉和變異率,有效地控制搜索過程中的擾動幅度,從而挑選出對預測準確性有顯著影響的特征。本文的主要貢獻如下:

a)設計的二元自適應差分進化算法可以自適應地調整交叉率和變異率,不斷優化目標函數,有效選擇出對購買意向預測有顯著影響的特征,進而提高預測的準確性。

b)自適應進化集成模型解決了傳統集成策略沒有進行基學習器組合策略調優以及如何選擇元學習器的問題。

c)融合最優基學習器組合的預測信息和特征差異擴展特征維度,使模型能夠更深入地把握購買意向的預判信息,降低元學習器的欠擬合風險,并提高了對購買意向的判斷精度。

d)采用常見的集成學習模型作為基學習器,實現了基于集成的再次集成,從而增強了模型的魯棒性和泛化能力。

1? 相關工作

在電子商務領域,運用機器學習技術預測用戶的購買意向是一個重要的研究方向。傳統的機器學習算法,如邏輯回歸(logistic regression,LR)[6],往往存在泛化能力差和精度低等弊端。因此,隨著數據量和復雜度的不斷增加,這些傳統機器學習算法的準確性和泛化能力受到了挑戰。為了解決這個問題,學者們開始采用混合模型來提升機器學習的表現?;旌夏P褪菍⒛P突蛩惴ńY合起來,以得到一個綜合的預測結果。其中,Tang等人[7]將支持向量機(support vector machine,SVM)和螢火蟲算法[8]相結合,Hu等人[9]使用SVM和LR相結合,有效解決了單一傳統模型擬合能力不足的問題。但這種混合模型的組合過程較為簡單,缺乏靈活性,很難進行深入優化。

近年來,集成學習被廣泛應用于購買預測任務,主要模型有以bagging[10]方式集成的隨機森林(random forest,RF)[11]和以boosting[12]方式集成的XGBoost(extreme gradient boosting,XGB)[13]、LightGBM(light gradient boosting machine)[14]、AdaBoost(adaptive boosting,AdaB)[15]、CatBoost(CatB)[16]和GBDT(gradient boosting decision tree)[17]等。這些模型通過整合多種不同的機器學習算法,有效克服了單一算法的局限性,且具有預測精度高、訓練速度快、占用內存少等優點,成為解決數據挖掘任務的主流方案[18]。為了進一步提升模型的泛化表現,研究者們開始對集成模型進行融合。例如:李伊林等人[19]對多種預測算法的特性進行了比較和融合,最終構建了一個基于XGBoost的融合預測模型,該模型在預測精度和泛化能力方面的表現均優于單一預測模型;Nguyen等人[20]在預測帕金森病患者的抑郁癥方面提出了一種堆疊集成模型,該模型不僅比單一模型具有更高的準確性,而且通過具體實例解釋預測結果,使得醫學專業人員能夠以他們熟悉的方式理解人工智能對抑郁癥的判斷過程,從而更好地服務于臨床實踐。

融合模型在預測方面的優勢已經得到了充分的證明,但其在結構設計上仍然依賴于人工設定,往往需要大量的實驗或專業知識來獲取最優的模型結構和參數配置,這在一定程度上限制了其在處理復雜和大規模問題上的應用。為了突破這些局限,進化集成學習應運而生。例如,Li等人[21]通過構建學習器盒并將其嵌入到遺傳算法(genetic algorithm,GA)[22]中,通過對學習器進行二進制編碼并設定合適的適應度函數,使得學習器盒能夠自我調整并挑選出最優學習器組合。該框架在預測傳染病的擴散趨勢時表現出了較高的準確性,但是,模型在權衡學習器的權重以及突出關鍵特征方面尚有待完善。

針對電商平臺提供的數據,需要進一步提取和衍生有意義的特征,以便更好地挖掘數據中潛在的用戶行為信息和隱藏的規律。然而,并不是所有提取的特征都對模型的預測有貢獻,因此特征選擇成為提高模型準確性和可解釋性的關鍵步驟。傳統的特征選擇方法[23]在處理大規模數據的效率以及特征集自適應調整的能力上存在不足。因此,許多研究者轉向使用搜索能力更強的元啟發式算法來處理特征選擇問題[24,25]。其中,差分進化算法(differential evolution algorithm,DE)[26]因其具有全局搜索能力強、可適應性強和易于實現等優點,被應用于特征工程中。為了進一步提升特征選擇的效果,研究者對種群組合、搜索空間、交叉和變異操作等方面進行了深入的優化,提出了MDEFS[27]、ACCFS[28]、MVDE[29]和SaWDE[30]等算法。雖然改進的DE算法在其他領域得到了廣泛應用[31,32],但在購買意向預測方面仍然鮮有研究,有待進一步探索。本文綜合考慮了特征屬性和集成過程中的學習器選擇,實現了特征選擇與模型結構的自適應優化。同時,通過融合學習器組合的預測信息和特征差異擴展特征維度,使模型能夠更深入地把握用戶購買意向的預判信息,顯著提升購買預測模型的準確性。

2? 二元自適應差分進化算法的特征選擇

特征選擇本質上是一個二元離散型問題。本文設計了一個二進制版本的自適應差分進化算法(BADE),以獲得最優特征子集。具體操作如下:

a)初始化種群。在BADE中,種群是多個二元參數向量組成的集合。若目標任務的數據集包含N個特征,則初始化一個1×N個特征的參數向量,其中每個元素的值都是0或1。編碼如圖1所示。

根據特征的維度,設置合適的種群大小NP,重復上述編碼NP次,即可得到有NP個個體的初代種群,并記為

Xi(0)=(Xi,1(0),Xi,2(0),…,Xi,N(0))? i=1,2,3,…,NP(1)

b)適應度函數設置。選用以決策樹(decision tree)分類器對輸入數據進行五折交叉驗證后得到的精確度(accuracy)和曲線下面積(AUC)的均值作為適應度值,其定義如下:

fitness=accuracy5-fold(X)+AUC5-fold(X)2(2)

其中:X是指用二進制向量標識的特征子集;accuracy5-fold(X)和AUC5-fold(X)代表了分類器在訓練數據上進行五折交叉驗證得到的accuracy和AUC值。

c)進化操作。進化操作是模擬生物進化的眾多操作,包括變異、交叉和選擇三個步驟。

(a)變異操作。本文采用一種基于“錦標賽選擇”的復合變異策略[33],具體來說,從當前種群中隨機選擇三個不同的個體,記為Xr1(g)、Xr2(g)和Xr3(g)(滿足r1≠r2≠r3)。然后,根據適應度值由低到高的順序分別標記為Xbr(g)、Xer(g)和Xhr(g)。選取Xbr(g)作為變異基向量,Xer(g)-Xhr(g)為差分向量。該變異策略如式(3)所示。

Vi(g)=Xbr(g)+F·(Xer(g)-Xhr(g))(3)

其中:F為變異縮放因子,用來控制變異操作的幅度。

在執行完變異操作后,使用式(4)對變異向量進行修正,以確保每個元素都處于0和1之間,這樣可以確保變異后的個體的每個元素都是二進制位,保證算法的正確執行。

Vi(g)=1Vi(g)>1

0Vi(g)<0(4)

(b)交叉操作。交叉操作需要借助目標向量Xi,j(g)和變異向量Vi,j(g)重組產生新的實驗向量Ui,j(g),這樣既保留了原個體的信息,又引入了變異個體的信息,如式(5)所示。

Ui,j(x)=Vi,j(g)if? rand(j)

Xi,j(g)otherwise(5)

(c)選擇操作。選擇操作是根據評估實驗向量和原始個體的適應度大小來選擇下一代的策略,其目的是選擇出種群中的最優個體,使種群逐漸收斂至全局最優解。具體選擇方式如下:

Xi(g+1)=Ui(g)if? f(Ui(g))>f(Xi(g))

Xi(g)else(6)

其中:f為適應度函數。在Ui,j(g)和Xi,j(g)之間采用貪婪選擇策略,較優個體作為新的個體。通過特定的策略,動態地調整變異因子和交叉因子。當算法找到一個更優的解(即f_new>best_fitness)時,交叉率和變異率會增加,這有助于提高種群中不同個體間的多樣性,促使算法在搜索空間中嘗試新的區域,以尋找可能存在的更優解。調整策略如式(7)所示。

F=min(1,F+μ)

CR=min(1,CR+μ)(7)

其中:μ表示每次調整時增加或減少的數值。若在連續的T次迭代中未能找到更優的解決方案,算法將減小交叉率和變異率,以便讓算法更加專注于在當前已知優良解的鄰近區域進行搜索,期望在這些區域發現更優的解。調整策略如式(8)所示。

F=max(0.1,F-μ)

CR=max(0.1,CR-μ) (8)

算法1描述了使用BADE算法進行特征選擇的具體流程。

算法1? 二元自適應差分進化算法特征選擇流程

輸入:種群數量NP;變異縮放因子F;交叉因子CR;最大迭代次數Gmax;連續未發生變化的迭代次數T;調整值μ。

輸出:最優特征子集。

對特征進行編碼并初始化種群

for g=1 to Gmax do

根據式(2)計算當前種群中每個個體的適應度fitness

for i=1 to NP do

使用錦標賽策略在當前種群中隨機選取三個互不相同的個體,將適應度最大的個體作為基向量。同時,根據式(3)執行變異操作,并利用式(4)生成修正向量

根據式(5)進行交叉操作

依據式(6)進行選擇操作,以生成新一代種群

根據式(7)(8)調整變異縮放因子和交叉因子的值

end for

g=g+1

end for

3? DE自適應進化集成模型

為了探究用戶的購買意向,本文設計了一種DE自適應進化集成模型(DEA_ensemble),如圖2所示。模型由兩層組成:

a)模型選擇層。模型選擇和權重學習被集成到一起,通過差分進化算法自適應地調整學習器的權重,得到最優學習器組合和元學習器。

b)模型融合層。通過融合基學習器的預測結果和重要特征的標準差擴展特征維度,進而在元學習器上做最終的購買意向預測。

3.1? 模型選擇層

為了更高效地找到最優基學習器組合和元學習器,在選擇層設計了一個基于差分進化算法的多模型集成優化方法。首先,選取傳統集成模型作為學習器放入模型池中,記為{model1,model2,…,modelM},并使用訓練集依次對它們進行訓練。其次,采用差分進化算法將這些學習器初始化為一個包含NP個個體的種群,其中每個個體都是一個長度為M的權重向量。使用投票分類器按照學習器的權重進行組合,并將其應用于交叉驗證數據集進行評估,計算AUC得分作為適應度值,如式(9)所示。差分進化算法能夠自適應地調整學習器的權重,找到能使投票分類器性能在給定數據集上最大化的權重組合。最后,根據設定的權重閾值,得到基學習器的最佳組合方式,記為{modelx,…,modeln}。在這組學習器中,權重值最大的學習器被選為元學習器,并反饋給融合層。

AUC=1k[∑i∈positiveClassranki-T(1+T)2T×N](9)

其中:k表示k折交叉驗證;∑i∈positiveClass表示只把正樣本序號加起來;ranki表示第i條樣本的序號;T和N分別是正樣本和負樣本的個數。

3.2? 模型融合層

為了優化模型的整體預測能力,設計了一種融合模型和數據的策略。首先,將訓練集分成兩部分:一部分用于基學習器的訓練,記為{train_data};另一部分用于生成元學習器的訓練集,記為{validation_data}。然后,使用{train_data}分別對{modelx,…,modeln}進行訓練,在{validation_data}上進行預測,并計算每個基學習器中前五個重要特征的標準差。預測數據記為{V_Px,…,V_Pn},重要特征的標準差記為{V_Fx,…,V_Fn}。同時,在測試集{test_data}上使用{modelx,…,modeln}進行預測,并計算每個基學習器中前五個重要特征的標準差。預測的數據記為{T_Px,…,T_Pn},重要特征的標準差記為{T_Fx,…,T_Fn}。之后,需要重組新的特征構建新的數據集。將{V_Px,…,V_Pn}、{V_Fx,…,V_Fn}與{validation_data}合并,作為元學習器的訓練集,記為{metamodel_traindata};{T_Px,…,T_Pn}、{T_Fx,…,T_Fn}和{test_data}合并,作為元學習器的測試集,記為{metamodel_testdata}。最后,使用{metamodel_traindata}訓練元學習器,{metamodel_testdata}進行預測,得到模型最終的預測結果。

由于傳統集成模型本身可以作為特征評估器,而標準差可以呈現top-k特征上的實例差異[34],所以,該模型可以更加充分地利用特征數據和預測信息提升模型的整體預測能力。此外,通過改變訓練數據和測試數據的特征維度還可以有效地降低元學習器欠擬合的風險。

4? 實驗準備

4.1? 數據介紹

本文的實驗數據采用的是京東商城真實在線交易數據,包含四類共計六個數據集。詳細信息如表1所示。

JData_Action_201604.csv13 199 9344月行為記錄? 京東商城提供了2016年2月1日至4月15日期間的數據,包括105 321位用戶的行為數據,共50 601 736條;24 187件商品的558 552條評論數據。

4.2? 數據預處理

本文使用的是平臺真實的交易數據,收集過程中可能會出現誤差,導致數據重復和缺失等問題。這些問題會對后續的特征構建和模型訓練的有效性產生一定影響,因此,本文將從以下幾個方面對數據進行預處理。

a)噪聲數據處理。檢查用戶信息表和用戶行為表中的用戶是否一致;檢查是否存在注冊時間在4月15日之后的用戶;刪除沒有任何購買記錄的爬蟲用戶。

b)缺失字段處理。在分析用戶信息和行為數據時,發現有三位用戶的性別、年齡和注冊時間數據缺失,但這三位用戶均存在行為記錄。因此,采用其前一位用戶的信息對這些缺失值進行填補。

c)數據類型處理。對用戶屬性中的性別字段定量化處理;把唯一標識用戶和商品的ID屬性轉換為整數類型;規范購買時間的格式,以方便后續計算。

4.3? 特征提取

由于用戶的歷史行為數據對未來購買意向預測具有重要影響,所以在進行特征提取時,本文采用了滑動窗口的方法。具體來說,通過設置五個滑動窗口,分別對應購買意向預測日期前的1天、2天、3天、一周和半個月,每五天滑動一次。

圖3展示了使用滑動窗口抽取特征的示意圖,其中,滑窗左側的數字代表了一個滑窗下的數據集大小。除基礎特征外,本文還抽取出用戶行為特征、用戶-商品行為特征、用戶-品類行為特征和用戶-品牌行為特征共343維。

4.4? 評價指標

本文實驗采用準確率(accuracy)、精確率(precision)、召回率(recall)、F1值(F1-score)和AUC值(area under curve)作為模型的性能評價指標。計算公式如式(10)~(13)所示。

accuracy=TP+TNTP+TN+FP+FN(10)

F1=2×precision×recallprecision+recall(11)

precision=TPTP+FP(12)

recall=TPTP+FN(13)

4.5? 實驗環境

表2列出了實驗的軟硬件環境、算法框架、模型方法等。

5? 實驗結果及分析

5.1? 特征選擇實驗分析

圖4展示了應用BADE算法進行特征選擇的結果。解碼處理后,共得到151個特征。其中,3個特征屬于用戶基礎特征,包含性別和注冊日期等;3個特征屬于商品基礎特征,包含商品屬性。此外,有27個用戶-商品行為特征,29個用戶-品類行為特征,36個用戶-品牌行為特征,51個用戶行為特征,還有兩個評論特征。所選定的特征均在預測目標變量時發揮重要的作用。為了驗證所提二元自適應差分進化算法的優化效果,本文對BADE、DE、GA和模擬退火算法(SA)四種優化算法進行對比分析,適應度值變化曲線如圖5所示??梢杂^察到,在處理用戶購買意向數據的過程中,隨著迭代次數的增加,各個算法在適應度值優化上呈現出不同的趨勢。其中,BADE算法的適應度值明顯高于其他算法。這表明,BADE通過自適應地調整交叉率和變異率,能夠有效控制搜索過程中的擾動幅度,使其在搜索空間的探索方面具備顯著優勢,展現出卓越的全局搜索能力。

表3展示了XGBoost、LightGBM、CatBoost和AdaBoost四種集成學習模型在原始特征數據和經過GA、SA、DE以及BADE選擇的特征數據上的預測表現。實驗結果表明,相比于未經特征選擇的原始數據,進行特征選擇后的數據在模型上的預測性能有不小的提升。這表明原始數據中存在大量的冗余信息,這些信息對模型的性能和擬合效果產生了負面影響。深入分析發現,使用BADE算法選擇的特征在多數模型上的預測性能超過了使用GA、SA和DE算法選擇的特征。盡管在XGBoost模型上,BADE算法的表現稍遜于GA算法,但這個差距極其微小。因此,可以推斷,本文BADE算法在特征選擇方面具有一定的優勢。

5.2? DE自適應進化集成模型實驗分析

本文選用經過BADE算法特征選擇后的數據,將RandomForest、XGBoost、CatBoost、LightGBM、AdaBoost和GBDT共六種傳統集成模型放入模型池中進行選擇。圖6展示了選擇層中各模型對應的權重值。通過設定權重閾值為0.6,得出最優基學習器組合為{LightGBM、XGBoost,CatBoost,AdaBoost},元學習器設為擁有最高權重的LightGBM模型。

表4詳細比較了DEA_ensemble模型、深度神經網絡(DNN)、深度森林(DeepForest)以及六種傳統的單一集成模型在五個評估指標上的表現。實驗結果顯示,相較于六種單一集成學習模型,DEA_ensemble在AUC值上提高了2.76%,而DNN并未顯現出優勢。這可能是因為購買意向預測數據集存在嚴重的類別不平衡問題,而神經網絡在處理這類數據時,對少數類別的識別率通常較低[35]。相比之下,作為集成學習和深度學習相結合的模型,DeepForest的性能表現有所提升。

本文還與文獻[19~21]進行了對比分析。結果顯示,文獻[20]所探尋的學習器組合在購買預測任務中的表現并不理想,而文獻[19]在此基礎上對訓練元學習器數據的特征維度進行了擴展,因此預測效果得到了一定提升。文獻[21]在選取較優學習器組合的基礎上,進一步利用了學習器的預測信息來增強特征維度,使得模型在整體分類性能上超過了前兩種模型。而DEA_ensemble作為一種基于多層集成的融合模型,不僅整合了最佳基學習器的預測結果,還加入了特征的標準差進行數據增強,為元學習器提供了充足的訓練數據,成功地減少了欠擬合的風險。顯然,該模型在各項評價指標上,除了precision之外,均有明顯提升。特別是AUC上,其得分達到了75.61%。這充分證明,在分類任務中,該模型相對于其他比較模型,具備顯著的性能優勢。

為了驗證DE自適應調整基學習器組合、選擇元學習器以及擴展元學習器特征維度方法的有效性,本文將選出的最優學習器分別作為元學習器進行對比實驗。如表5所示,DEA_LGB、DEA_XGB、DEA_CatB、DEA_AdaB分別表示在選擇層中選中的四個最優學習器,將它們依次作為元學習器。實驗結果表明,DEA_ensemble模型與性能最低的元學習器在AUC指標上的差異僅為0.021 8且均優于傳統的單一模型,證明了DEA_ensemble模型在處理購買預測任務時具有較高的穩定性和健壯性。

5.3? 不平衡數據集的影響分析

如圖7所示,用戶購買意向預測數據集的正負樣本比例呈現出顯著的不平衡。在訓練集中,正樣本有3 287個,而負樣本高達898 731個,負樣本和正樣本的比例為237:1。同樣地,測試集中的樣本比例為294:1。這種不平衡的情況會導致模型過度關注數量眾多的負樣本,在預測較少的正樣本時產生誤判。

圖8則展示了各模型在訓練集與測試集上的分類性能,呈現出明顯的差異。GBDT與其他模型的表現不同,其經過訓練后,在測試集上表現出色。CatBoost在訓練集和測試集上的AUC值差距最大,達到了0.038。相比之下,DEA_ensemble模型在這兩者之間的差距僅為0.013 4,說明其在不同數據集上的性能更為穩定??紤]到模型性能的差異,本文引入了對抗驗證(adversarial validation)策略來評估訓練和測試數據分布的一致性。這一過程涉及合并訓練數據和測試數據并創建一個新的二元目標變量,訓練集的樣本被標記為1,測試集的樣本標記為0,使用LightGBM模型來預測新的目標變量,以評估兩個數據集的分布差異。通過計算模型的AUC值進行評估,若AUC值明顯高于0.5,則該模型能有效地區分來自訓練集和測試集的數據,也說明訓練集和測試集的分布存在顯著的差異。

圖9為對抗驗證的結果,AUC達到了0.89。這一數值揭示了模型具有有效識別來自訓練集和測試集樣本的能力,進一步證明訓練集與測試集的分布存在顯著不一致性,這也是導致訓練集和測試集在AUC上性能差異的主要原因。值得注意的是,盡管數據分布存在不一致性,而DEA_ensemble在提高分類性能的同時也顯現出了緩解數據不平衡所帶來負面影響的潛力。

如圖10所示,混淆矩陣可詳細檢驗模型的預測結果。矩陣顯示,在241 978個負樣本中,模型準確地預測了241 827個,這表明模型在識別非購買用戶方面表現優異。然而,在預測負樣本時產生了151個假陽性誤報,這可能會導致資源的不必要浪費,因為這部分用戶實際上并沒有購買意向,而模型卻錯誤地將他們預測為潛在的購買者。在處理正樣本方面,模型在821個樣本中成功預測出了421個,即使面臨數據不平衡的問題,仍能成功地識別出超過一半(51.3%)的購買用戶。因此,鑒于類別不平衡的挑戰,模型表現出較為可觀的魯棒性。

6? 結束語

為了更加精準地預測用戶的購買意向并在特征選擇和模型結構上實現自適應優化,本文首先設計了一個二元自適應差分進化算法。該算法通過自適應地調整交叉率和變異率,不斷優化目標函數,篩選出對購買意向預測結果有重要影響的特征。其次,構建了DE自適應進化集成模型用于預測用戶的購買意向。與傳統集成策略相比,該模型可以自適應地調整基學習器的組合并選擇合適的元學習器,降低了模型設計階段因人為選擇而可能引入的誤差。此外,模型融合了最優基學習器的預測信息和特征間的差異性擴展特征維度,使其更全面地捕捉購買預判信息,進而提高預測精度。

實驗結果顯示,本文算法在特征選擇上優于傳統優化算法。同時,所構建的模型不僅在分類性能上超越了傳統集成學習模型和深度森林模型,而且有效地緩解了數據不平衡所帶來的負面影響。然而,對于正樣本的預測準確率,仍存在進一步優化的空間。因此,在未來的工作中,將著重探索處理類別不平衡的策略,以更精確地預測用戶的購買意向。

參考文獻:

[1]劉馨蔚.基于大數據時代下電子商務個性化推薦的研究與應用[J].現代商業,2022(15):23-25.(Liu Xinwei,Research and application of personalized recommendation in e-commerce in the era of big data[J].The Business Circulate,2022(15):23-25.)

[2]Roscher R,Bohn B,Duarte M F,et al.Explainable machine learning for scientific insights and discoveries[J].IEEE Access,2020,8:42200-42216.

[3]Dong Xibin,Yu Zhiwen,Cao Wenming,et al.A survey on ensemble learning[J].Frontiers of Computer Science,2019,14(2):241-258.

[4]彭巖,馬鈴,張文靜,等.基于集成學習的風險預測模型研究與應用[J].計算機工程與設計,2022,43(4):956-961.(Peng Yan,Ma Ling,Zhang Wenjing,et al.Research and application of risk forecast model based on ensemble learning[J].Computer Engineering and Design,2022,43(4):956-961.)

[5]呂帥,龔曉宇,張正昊,等.結合進化算法的深度強化學習方法研究綜述[J].計算機學報,2022,45(7):1478-1499.(Lyu Shuai,Gong Xiaoyu,Zhang Zhenghao,et al.Survey of deep reinfocement learning methods with evolutionary algorithms[J].Chinese Journal of Computers,2022,45(7):1478-1499.)

[6]Cruz A G,Cadena R S,Faria J A F,et al.Consumer acceptability and purchase intent of probiotic yoghurt with added glucose oxidase using sensometrics,artificial neural networks and logistic regression[J].International Journal of Dairy Technology,2011,64(4):549-556.

[7]Tang Ling,Wang Anying,Xu Zhenjing,et al.Online-purchasing behavior forecasting with a firefly algorithm-based SVM model conside-ring shopping cart use[J].Eurasia Journal of Mathematics,Science and Technology Education,2017,13(12):7967-7983.

[8]Li Jun,Wei Xiaoyu,Li Bo,et al.A survey on firefly algorithms[J].Neurocomputing,2022,500:662-678.

[9]Hu Xin,Yang Yanfei,Zhu Siru,et al.Research on a hybrid prediction model for purchase behavior based on logistic regression and support vector machine[C]//Proc of the 3rd International Conference on Artificial Intelligence and Big Data.Piscataway,NJ:IEEE Press,2020:200-204.

[10]Bbeiman L,Quinlan R.Bagging predictors[J].Machine Learning,1996,24(2):123-140.

[11]Ghosh S,Banerjee C.A predictive analysis model of customer purchase behavior using modified random forest algorithm in cloud environment[C]//Proc of the 1st International Conference for Convergence in Engineering.Piscataway,NJ:IEEE Press,2020:239-244.

[12]Grabner H,Bischof H.On-line boosting and vision[C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2006:260-267.

[13]Wang Wenle,Xiong Wentao,Wang Jing,et al.A user purchase beha-vior prediction method based on XGBoost[J].Electronics,2023,12(9):2047.

[14]Lu C J,Lee T S,Lian C M.Sales forecasting for computer wholesalers:a comparison of multivariate adaptive regression splines and artificial neural networks[J].Decision Support Systems,2012,54(1):584-596.

[15]Algawiaz D,Dobbie G,Alam S.Predicting a users purchase intention using AdaBoost[C]//Proc of the 14th International Conference on Intelligent Systems and Knowledge Engineering.Piscataway,NJ:IEEE Press,2019:324-328.

[16]Cao Wenchao,Wang Ke,Gan Hongcheng,et al.User online purchase behavior prediction based on fusion model of CatBoost and Logit[J].Journal of Physics:Conference Series,2021,2003:012011.

[17]Zhao Erfeng,Li Yi,Zhang Jingmei,et al.Interval prediction model of deformation behavior for dam safety during long-term operation using Bootstrap-GBDT[J].Structural Control and Health Monitoring,2023,2023:article ID 6929861.

[18]葉志宇,馮愛民,高航.基于深度LightGBM集成學習模型的谷歌商店顧客購買力預測[J].計算機應用,2019,39(12):3434-3439.(Ye Zhiyu,Feng Aimin,Gao Hang.Customer purchasing power prediction of Google store based on deep LightGBM ensemble learning model[J].Journal of Computer Applications,2019,39(12):3434-3439.)

[19]李伊林,段海龍,林振榮.數據平衡與模型融合的用戶購買行為預測[J].計算機應用與軟件,2022,39(9):50-55,86.(Li Yilin,Duan Hailong,Lin Zhenrong.Prediction of use purchase behavior based on data balance and model fusion[J].Computer Applications and Software,2022,39(9):50-55,86.)

[20]Nguyen H V,Byeon H.Prediction of Parkinsons disease depression using lime-based stacking ensemble model[J].Mathematics,2023,11(3):708.

[21]Li Xiaoning,Yu Qiancheng,Yang Yufan,et al.An evolutionary ensemble model based on GA for epidemic transmission prediction[J].Journal of Intelligent & Fuzzy Systems,2023,44(5):7469-7481.

[22]Holland J H.Genetic algorithms[J].Scientific American,1992,267(1):66-73.

[23]李郅琴,杜建強,聶斌,等.特征選擇方法綜述[J].計算機工程與應用,2019,55(24):10-19.(Li Zhiqin,Du Jianqiang,Nie Bin,et al.Summary of feature selection methods[J].Computer Enginee-ring and Applications,2019,55(24):10-19.)

[24]Li Xiaoning,Yu Qiancheng,Tang Chen,et al.Application of feature selection based on multilayer GA in stock prediction[J].Symmetry,2022,14(7):1415.

[25]Nurhayati,Agustian F,Lubis M D I.Particle swarm optimization feature selection for breast cancer prediction[C]//Proc of the 8th International Conference on Cyber and IT Service Management.Piscata-way,NJ:IEEE Press,2020:1-6.

[26]Storn R,Price K.Differential evolution—a simple and efficient heuristic for global optimization over continuous spaces[J].Journal of Global Optimization,1997,11(4):341-359.

[27]Ot A,Ttn B,Sm C.A novel wrapper-based feature subset selection method using modified binary differential evolution algorithm[J].Information Sciences,2021,565:278-305.

[28]Firouznia M,Ruiu P,Trunfio G A.Adaptive cooperative coevolutionary differential evolution for parallel feature selection in high-dimensional datasets[J].The Journal of Supercomputing,2023,79:15215-15244.

[29]Hassan S,Hemeida A M,Alkhalaf S,et al.Multi-variant differential evolution algorithm for feature selection[J].Scientific Reports,2020,10(1):17261.

[30]Wang Xubin,Wang Yunhe,Wong K C,et al.A self-adaptive weighted differential evolution approach for large-scale feature selection[J].Knowledge-Based Systems,2022,235,10:107633.

[31]Chakraborty S,Saha A K,Ezugwu A E,et al.Differential evolution and its applications in image processing problems:a comprehensive review[J].Archives of Computational Methods in Engineering,2023,30(2):985-1040.

[32]畢超超,范勤勤,王維莉.基于策略自適應的多目標差分進化算法及其應用[J].計算機應用研究,2020,37(7):2016-2021.(Bi Chaochao,Fan Qinqin,Wang Weili.Multi-objective differential evolution algorithm based on self-adaptive strategy and its application[J].Application Research of Computers,2020,37(7):2016-2021.)

[33]傅嗣鵬,喬俊飛,韓紅桂.基于錦標賽選擇變異策略的改進差分進化算法及函數優化[J].計算機科學,2013,40(S1):15-18,36.(Fu Sipeng,Qiao Junfei,Han Honggui.Improved differential evolution algorithm based on mutation strategy of tournament selection for function optimization[J].Computer Science,2013,40(S1):15-18,36.)

[34]Guo Yang,Liu Shuhui,Li Zhanhuai,et al.BCDForest:a boosting cascade deep forest model towards the classification of cancer subtypes based on gene expression data[J].BMC Bioinformatics,2018,19:article No.118.

[35]董勛,郭亮,高宏力,等.代價敏感卷積神經網絡:一種機械故障數據不平衡分類方法[J].儀器儀表學報,2019,40(12):205-213.(Dong Xun,Guo Liang,Gao Hongli,et al.Cost sensitive convolutional neural network:a classification method for imbalanced data of mecha-nical fault[J].Chinese Journal of Scientific Instrument,2019,40(12):205-213.)

猜你喜歡
特征選擇
正交基低冗余無監督特征選擇法
網絡入侵檢測場景下的特征選擇方法對比研究
基于實例學習和協同子集搜索的特征選擇方法
基于最大信息系數和近似馬爾科夫毯的特征選擇方法
Kmeans 應用與特征選擇
基于GA和ELM的電能質量擾動識別特征選擇方法
聯合互信息水下目標特征選擇算法
基于特征選擇聚類方法的稀疏TSK模糊系統
非線性電路多軟故障的智能優化遞階特征選擇診斷方法
基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合