?

多采樣近似粒集成學習

2024-03-24 03:10侯賢宇陳玉明吳克壽
南京大學學報(自然科學版) 2024年1期
關鍵詞:?;?/a>集上鄰域

侯賢宇,陳玉明,吳克壽

(廈門理工學院計算機與信息工程學院,廈門,361024)

人類在遇到復雜任務時,會將問題分割成多個子問題,利用強大的記憶與相似對比能力來處理復雜任務[1].隨著問題復雜程度的上升,單一的分類系統已經無法滿足用戶對分類精度的要求,因此,近年來集成學習成為一個熱門的研究領域[2].集成學習的構建可以分為兩類.第一類是通過平行方法構建,各個基學習器之間是平行的,如Bagging 算法、隨機森林(Random Forest)算法[3].第二類是通過順序化方法構建,基學習器是順序構建的,代表算法有Boosting 算法[4].

粒計算是一個新興的多學科交叉理論,該理論認為粒計算是模糊集、粗糙集理論的合集[5-6].粒子是構建粒計算模型的最基本元素,以樣本的特征間的相似性、距離等度量方式作為?;囊罁?,進而構造各種粒子.近年來,粒計算逐漸成為熱門研究領域.在該領域中,如何構建粒結構與粒模型一直是一個重要的問題[7-10].

粒計算的一個主要特征是將輸入模式在更高的抽象等級上進行重構[11-12].因此,粒計算可以獲得更多的深層信息.據此,結合粒計算理論的分類模型也成為另一個研究熱點,多種基于度量尺度的?;椒ū惶岢?胡清華等[13]提出一種基于鄰域關系所定義的鄰域?;绞?,實現了實數空間中的粒度計算.該方法定義在實數空間上的非空有限集合U={x1,x2,…,xn}中,任一樣本xi的鄰域δ為:

其中,δ(xi)被稱為鄰域信息粒子,Δ 為鄰域判別函數.基于該式構建一個鄰域關系矩陣M(N)=(rij)(n×n).其中若xj∈δ(xi),則rij=1,否則為0.使用鄰域?;瘶嫿P偷姆绞奖粦迷诙鄠€決策模型上,并取得優秀的效果.同樣地,Chen et al[7]提出一種基于單原子特征的模糊?;?,結合卷積運算優化權重獲得很好的分類性能.基于特征上的度量方法如歐式距離、曼哈頓距離和Cos 相似度等方式,在單特征下構建條件粒子,多特征下構建條件粒向量[7,14].模糊?;卣沽藰颖镜南嗨茖傩?最終與KNN(K Nearest Neighbors)等算法相比,在多個數據集下獲得高約2%的分類效果.

但是上述工作仍存在一些缺點.全局式的鄰域?;瘯跇嫿W与A段產生單調且難以處理的數據,使得模型在計算階段占用過多的資源[15].并且在極小鄰域與極大鄰域范圍內,模型的性能表現往往較差[15-16].而模糊?;且环N局部?;椒?,其計算效率會比鄰域?;?但是,其基于單特征下相似度構建粒子的方式,使得樣本基于特征分布的差異化降低,進而丟失掉某些全局特征[7,14,17].并且其粒子的空間效率也是基于參考樣本決定的(隨著參考樣本數量的提高而提高).針對這些缺點,本文提出一種基于近似解的?;椒?該方法通過采樣技術對樣本集做多次全局采樣.在全局采樣的結果下,求解全局樣本的近似解粒子.并在構建粒子的過程中引入并行式的近似基模型輸出多個近似解粒子,多個近似解粒子以粒向量的形式輸入最終決策器.這一方法既限制了在?;^程中產生的數據量,還集成了多個近似基模型的決策能力,提高了模型的分類能力.與多種?;绞较啾龋?,14,17-18],多采樣近似?;目臻g效率相對較低.多采樣近似粒集成模型的創新如下:

(1)結合粒計算和集成模型的特點,進一步提升模型的魯棒性;

(2)并行的近似?;^程,提高粒子的空間效率;

(3)基于全局采樣的近似解粒子,使得?;^程有著更高的靈活性.

1 相關工作

1.1 粒表示粒的表示方法是粒計算的重要研究內容,其涉及數據在決策模型中做計算的數據結構與方法.基于不同結構的粒子,需要采取不同的計算方式.如陳玉明等[18]提出一種計算二元鄰域粒子的距離度量方法,使得二元粒子的距離可以通過具體數值表示.根據Chen et al[19-20]中粒的計算方法,本文對近似粒的表示做了類似描述.

定義1MAG=(U,F,V,S,A)為一個多采樣近似粒系統,其中U是樣本的集合,F是特征或屬性的集合,V則是近似粒子的組合,如V=∪f∈FVf,Vf表示在特征f下的粒子值,任意的a∈F都決定了一個 函數映射關系表示從原始數據中采樣的樣本序列集合,A={a|a∈A}表示與s∈S對應的近似基學習器的集合.

定義2MAG=(U,F,V,S,A)為一個多采樣近似粒系統,對于任一采樣子集us,s∈S和其對應的近似基學習器as∈A.樣本集U對近似基學習器as的近似解集為:

其中,n為樣本數量.v(as,i),i∈n表示第i個樣本在近似器as中得到的近似解.

定義3MAG=(U,F,V,S,A)為一個多采樣近似粒系統,其中近似基學習器集A={a1,a2,…,am},則樣本集U基于近似基學習器集A構建的近似解集為:

V={V1,V2,…,Vm}(3)

其中,由式(2)可 知,Vi,i∈m寬度為n.記gi,j={vi,j|vi,j∈V,i∈n,j∈m},則gi,j表示樣本xi∈X在第j個近似器上的解粒子.類似地,樣本xi∈X在近似器上的解粒向量可以被定義為:

1.2 全局重要性采樣采樣方法一直被廣泛應用于機器學習與深度學習領域.不管是對數值數據的采樣還是對圖像數據的采樣,其采樣目的都是用少于原始數據量的采樣數據去近似獲得原始的數據分布,以此來進行更快的計算并挖掘出更深層的數據信息.在該領域中,基于蒙特卡洛思想的重要性采樣(Importance Sampling)一直是一個研究熱點[21-24].重要性采樣的主要優點是采樣出的子集精準度較高且方差較低.

Chen et al[21]定義了一種基于節點數據的重要性方法.一個節點數據由節點本身的特征數據和節點之間的邊數據表示,因此可以通過邊數據構建節點在整張圖上的重要性或采樣概率.具體每個傳播層的近似式如下:

在面對多列數據時,p(x)計算主要經過三個步驟:(1)對數據以列的形式做正態化轉換,即x′=NormalTrans(x);(2)按行計算均值,即xˉ=mean(x′) ;(3)按列對均值做softmax歸一化,得重要性概率p(x).基于概率p(x),可對原始數據集做重要性采樣.

2 多采樣近似粒集成模型

2.1 多采樣近似?;嗖蓸咏屏;x了一個多次采樣、近似求解和信息?;捻樞蜻^程.下面依次詳細介紹該順序過程.

廣泛使用的集成學習算法如AdaBoost,在初始階段對樣本集U中的樣本賦予相同權重[26-28].在每次基于上次樣本權重的決策完成后,提高該次決策錯誤的子集uf的權重.通過迭代式的訓練,最終獲得較好的決策結果.這樣的訓練方式盡管是有效的,但實際上由于其構建模型的過程是串行的,因此其效率較低.基于上述定義,根據樣本的重要性概率p(x),對樣本集U進行M={1,2,…,m}次有放回采樣.由于重要性采樣分布的q(v)∝1,因此其采樣出的子集us為原樣本集U的近似子集,即采樣出的近似子序列為S={s1,s2,…,sm},相應的近似子集為US={us1,us2,…,usm}.易 知,usi∈U,i∈m.同 時,usi∩usj??,i,j∈m.

基于多次采樣的近似子集us∈US可以構建近似基模型as∈AS.由于每個近似子集us之間滿足usi∩usj??,i,j∈m,因此它們是互相獨立的.故可以并行地去對每個近似子集us構建近似基模型as.與Boost 和Random Forest 等以同類弱分類器作為基礎的方式不同,對于多采樣近似粒集成模型來說,其每個近似基模型as的構建方法是多變的.既可以選擇相同的基模型去構建一個強化版的分類模型,也可以集成多種不同的基模型,進而融合多種基模型的優勢.該構建方法賦予粒子多種解性質,保證了后續?;襟E的靈活性,可以構建出一系列近似求解器AS={a1,a2,…,am}.

基于構建出的近似基學習器集AS,將所有的樣本作為近似基學習器的輸入,獲得數據的近似解集V={V1,V2,…,Vm}.將近似解集V?;癁榻平饬O蛄縂xi,i∈n.這一步?;^程是十分重要的,因為它涉及到將多個互不相關的基近似的解集以粒子性質組合為內部相關的粒向量集.該表達方法使得以粒向量的形式融合多個互不相關的解粒子,進而對這些粒向量進行運算.

圖1 展示了多采樣近似?;脑敿氝^程,可以看出近似子集US的構建是基于重要性概率PIS和樣本集U的,因此被采樣的樣本并不是正態分布化的數據.而對于正態分布化的數據則忽略p(x)計算的步驟(1)即可.同時為了防止采樣出的數據重復,對采樣出的序列集si∈S做集合性處理,即每個序列集中的元素是非重復的.在近似子集US、近似基模型AS和近似解集V三個模塊間有虛線將對應的子模塊相連,表明在這些關聯的子模塊中,它們有著一一對應的關系.例如近似解集中的子模塊V1是由近似基模型中的as1產生.圖中的樣本集除了產生重要性概率PIS和近似子集US之外,還與近似基模型AS產生關聯.這是因為近似解集V本質上是一種全局解集,而不是基于采樣子集得出的近似子解集.最后,在?;^程中對近似解集V進行堆疊處理,構建粒向量.可見構建粒向量G的個數是n,這是因為在堆疊過程中,對互不相關的近似解集V按樣本關系做了對應.此時,需要處理的數據個數由近似解集V的個數m變為樣本的個數n.

圖1 多采樣近似?;疐ig.1 Multi-sampling approximate granulation

多采樣近似?;瘋鞑ナ饺缦滤荆?/p>

其中,式(7)表示對樣本U進行M次重要性采樣的過程.式(8)表示基于多次采樣的結果US構建近似求解模型集A的過程.式(9)表示基于近似解集A與樣本集U的?;^程.可以看出,該?;^程的每一步的輸出都作為下一步的輸入,因此該?;^程是一個順序過程.

2.2 模型結構多采樣近似粒集成模型主要分為基模型構建階段、近似解信息?;A段和最終決策階段.前兩階段是多采樣近似?;暮喕硎?,最后階段是對粒向量的決策過程.這三個階段有兩個階段涉及模型的結構.多采樣近似粒集成模型的結構如圖2 所示.

圖2 多采樣近似粒集成模型Fig.2 Granular ensemble model based on multi-sampling approximate granulation

在基模型構建階段,通過使用近似子集US構建相應的近似基模型AS.每個近似基模型as∈A的構建方法是多變的.這樣的多變性體現在近似基模型選取時既可以使用同類基模型,又可以使用不同類的基模型.這是因為在使用同類基模型的時候,每個基模型輸入的近似子集是不同的(通過采樣大小進行控制),使得每個近似解集都是不同近似分布下的解,因此模型獲得更深層的空間信息.同樣地,也可以使用異類的基模型.多種不同的基模型結合會使得模型獲得多個基模型的優點,有著更高的魯棒性.第二個涉及模型結構的階段是最終決策階段,該過程使用最終決策器對解粒向量做最終決策.最終決策器的選擇則是整個模型最終分類效果的關鍵,在該步中會根據具體面對的情況(數據集)選擇不同的分類模型.同時,由于解粒向量G是由m個近似解集中對應的近似解堆疊得到,其維度往往是高維的.在輸入最終決策器前,會使用拼接或均值池化技術將堆疊的高維粒向量脫粒為粒子形式(一維數據).

2.3 算法及其復雜度分析本節對涉及的構建多采樣近似粒集成模型的算法進行介紹,算法1使用循環表示近似基模型與全局近似解的構建流程.實際上,由于其每個近似基模型與其輸入的近似子集是一一對應的關系,不同關系之間是不相關的,因此近似基模型的構造是并行的,則構造近似基模型集的時間復雜度可以用時間效率最復雜的近似基模型表達,即max(O(A)).同樣地,整個模型是順序結構,故其時間復雜度為O(max(O(A))+O(FD)).由于在數據處理部分沒有涉及循環或者迭代處理,因此該部分的計算效率被忽略不計.在整個模型的計算過程中,涉及樣本集U的有三個模塊,分別是計算樣本重要性概率P、計算近似子集US和計算全局近似解V.這三個模塊是順序結構,其空間效率分別為O(n),smeanO(n)(假設采樣子集的大小平均為smean)和O(n).最終決策模型的輸入為粒向量G,該粒向量由n個m維的粒子組成,故其空間效率為O(nm).考慮到在實際計算中,近似基模型的數量m遠小于樣本數量n,因此整個模型的空間效率為O(n)的有限倍數.

3 實驗分析

本章采用10 個Kaggle 與UCI 數據集進行實驗,數據集具體信息如表1 所示.為了測試算法的有效性,對模型設計三種實驗.首先對比多種采樣方式對模型的影響.其次對比了多采樣近似?;投喾N?;椒?,證明多采樣近似?;挠行?最后與多個經典的集成算法做了詳細比較.本章所有實驗結果都是基于十折交叉驗證得出,并保留四位小數.

表1 數據集的具體屬性Table 1 The specific attributes of the dataset

3.1 采樣方法的對比該節對比多種采樣方式對構建近似基模型的影響,具體對比方法有隨機采樣、聚類采樣和重要性采樣.隨機采樣是以隨機數的方式對樣本進行選取,每個樣本被選中的概率是相等的,即1/n,該方法可以看作是重要性采樣的特殊情況.聚類采樣則是以樣本的簇作為采樣基礎,按簇的大小對簇內樣本進行采樣,在本實驗中構建簇的算法為k-means.三種算法的優缺點如表2 所示,其可視化結果如圖3 所示.所有數據集的方差對比結果如表3 所示,表中黑體字表示結果最優.

表2 三種采樣方法對比Table 2 Comparison of three sampling methods

表3 采樣方法的方差對比Table 3 Comparison of the variance of sampling methods

圖3 采樣分布對比Fig.3 Comparison of sampling distribution

首先,為了分析采樣方法對構建近似基模型的影響,該節比較了三種采樣方法的可視化結果.可視化實驗在diabetes 和Wine Quality 數據集上進行,并設定采樣比例系數.采樣比例系數是一個經驗化的超參數,其值的設置根據模型與其處理的數據大小而定.圖3 展示了diabetes 和Wine Quality 在采樣比例(Sampling Portion,SP)為0.2 時的分布對比.圖中從左到右依次為原始分布、聚類采樣分布、重要性采樣分布和隨機采樣分布.其中子圖標題var表示該采樣下數據的方差.右側的色帶表示圖中樣本點的重要性概率.

根據表3 和圖3 可以看出,隨機采樣并不能降低采樣分布的方差,并且在waveform 數據集上的方差比原始分布更高.鄰域采樣方法只能在有限程度上降低樣本分布的方差.而重要性采樣在采樣過程中會著重考慮重要性更高的樣本,這些樣本對樣本分布的影響最大,因此有著最低的方差.重要性采樣與其他兩種采樣方法對比來看,方差平均低0.0066 和0.0059.

圖4 展示了在raisin 數據集上,基于不同SP的重要性采樣的分布對比.由圖可知,隨著SP的提高,重要性采樣的方差會有不同程度的上升.但是,即使采樣了80%的原始數據,在該數據集上,重要性采樣的方差依然比原始分布和其他采樣方法低.其在高SP下的表現更穩定.因此,重要性采樣方法的魯棒性更好.

圖4 不同采樣比例的對比Fig 4 Comparison of different sampling ratios

由于這三種方法的采樣結果都帶有一定的隨機性,因此在精準度(Accuracy,Acc)的比較上,分別獲取10 次運行結果,并以圖表展示其可視化結果 .對數據分別進行三次采樣,SP=[0.2,0.2,0.2],對應的近似基模型A=[線性核SVM,k近鄰分類器,GaussianNB],最 終決策模型FD 為rbf 核SVM.其中,近似基模型的輸出為軟數據,對應樣本屬于某一類的概率值.

圖5 比較了在diabetes,breast cancer 和raisin數據集中,三種采樣方法在十次交叉驗證后的結果.圖中橫軸為采樣輪數,前10 次為重要性采樣,11 至20 次為隨機采樣,21 至30 次為聚類采樣.其中有色點表示采樣結果,即每次采樣的精準度.IS 指包圍的紅圈部分為重要性采樣(Important Sampling),RS 指包圍的籃圈部分為隨機采樣(Random Sampling),CS 指包圍的綠圈部分為聚類采樣(Cluster Sampling).由圖可知,紅圈面積與藍圈和綠圈相比明顯較小,表明在十次交叉驗證中,重要性采樣方法的結果波動性較小,相反隨機采樣與聚類采樣則穩定性較差.同樣地,紅圈的相對位置要高于藍圈與綠圈,這表明重要性采樣的分類結果平均來看要優于其他兩種采樣方法.

圖5 三個數據集的十次分類結果對比Fig.5 Comparison of ten classification results under three datasets

表4 展示了三種采樣方法在數據集上的十次分類結果,分別對比了十次分類結果的最大值、最小值和平均值,表中黑體字表示結果最優.可以看出,重要性采樣除blood,Shill Bidding 和yeast數據集外,其最大精準度是最高的.同時,在所有數據集上,重要性采樣的最小精準度也是最高的.平均來看,除了在blood 與Shill Bidding 數據集上三種采樣算法的表現相似,重要性采樣的分類精準度比其他兩種采樣方法分別高約0.0060和0.0050.這一現象說明與隨機采樣與聚類采樣相比,重要性采樣產生的近似分布是更有效的,同時,基于重要性采樣構建的近似模型也有著更高的魯棒性.

表4 三種采樣方法的分類結果對比Table 4 Comparison of the classification results of the three sampling methods

3.2 ?;椒ㄔ摴潓⒍嗖蓸咏屏;c三種?;椒ㄗ鰧Ρ?,具體的對比方法有鄰域?;?7,20]、條件?;?9]與模糊?;?].該三種?;椒ǘ际腔诹5呐袆e式去構造粒子.條件?;c模糊?;际蔷植苛;绞?,這兩種方法會先在樣本集中選取參考樣本,進而用判別式對樣本集與參考樣本做單特征下的比較.

模糊?;呐袆e式如下所示:

其中,n為樣本個數,m為樣本維度,reference為參考樣本集.直覺上,每個模糊粒子就是由樣本x與參考樣本集reference在某個特征下差值的絕對值定義的.

相似地,條件?;瘎t是在模糊?;幕A上做了一些更改.條件?;呐袆e式如下所示:

條件?;呐袆e式定義了在某個特征下,樣本x與參考樣本集的相似度.相反,模糊?;呐袆e式則定義了樣本x與參考樣本集的不相似程度.

與前兩種局部?;绞讲煌氖?,鄰域?;且环N全局?;绞?,該方法在樣本集內部進行交叉比較.其第一步是先通過式(10)計算全局的不相似程度,第二步則是根據鄰域判別式將粒子做二值化處理.鄰域?;呐袆e式如下所示:

其中,σ為鄰域參數.

基于上述三種?;椒?,在該節構建粒隨機森林,并與多采樣近似?;髟敿殞Ρ?模糊?;c條件?;膮⒖紭颖緜€數為5,鄰域?;泥徲騾禐?.3,隨機森林(RF)基于Gini 系數構建并且基預測器個數為50.多采樣近似?;腟P=[0.4,0.4,0.4],對應的近似基模型A=[線性核SVM,k近鄰分類器,GaussianNB],對比結果如表5 所示,表中黑體字表示結果最優.其中RF 表示原始數據,RF_Fuzzy 表示模糊?;?,RF_Condition 表示條件?;?,RF_Neighbor 表 示鄰域?;?,RF_SAG 表示多采樣近似?;?分類結果以均值±方差的形式表示.由表5 可知,多采樣近似?;诖蟛糠謹祿媳憩F更好.其中在mobile,blood,waveform 數據集上優勢更明顯,平均分別高于其他算法約0.045,0.015,0.015.同樣地,在diabetes 數據集上,模糊?;@得最優表現,其分類精準度達到0.7721,分別比其他?;椒ǜ?.0156,0.0065,0.0221.在Shill Bidding數據集上,鄰域?;@得最優表現,其分類精準度達到0.9984,相應的多采樣近似?;挥?.9847.最后,在yeast 數據集上條件?;姆诸惥珳识茸罡?,達到0.6150.同時,多采樣近似?;搏@得相似的分類效果,分類精準度為0.6135.平均來看,基于多采樣近似?;碾S機森林的分類精準度最高,與其他四種算法相比分別多約0.0113,0.0087,0.0097,0.0089.同時,多采樣近似?;钠骄讲钜彩亲畹偷?,只有0.0006.表明與其他?;椒ㄏ啾?,多采樣近似?;兄叩姆河眯?,同時能夠降低精度分數的方差,提高了模型的魯棒性.

表5 多種?;椒ㄔ跀祿系膶Ρ冉Y果Table 5 The comparative results of various granulation methods on the dataset

3.3 綜合比較該節詳細對比了多采樣近似粒集成學習與其他先進的集成算法的分類效果,具體對比的算法有Random Forests(RF)[3],Ada-Boost,HistGradientBoosting(HGB)[29]和 XGBoost[30-31].其中,隨機森林RF 的樹基于熵構建,基預測器個數為100;AdaBoost 的預測器類別為決策樹,學習率為1.0,構建算法為SAMME.R,基預測器個數為50;HGB 的損失函數為交叉熵損失,學習率為1.0,最大迭代次數為100 次;XGBoost 的特征SP為0.7,目標函數為softmax,學習率為0.3,基預測器個數為100.對于MSAGEL(多采樣近似學習)的參數設置如下:SP=[0.4,0.6,0.4],對應的近似模型A=[線性核SVM,決策樹DT,GaussianNB],最終決策模型為線性核SVM,結果如表6 所示,表中黑體字表示結果最優.

表6 多種集成方法在數據集上的對比結果Table 6 The comparative results of various ensemble methods on the dataset

由表6 可知,MSAGEL 算法在所有數據集上都獲得了較大提升.其中在Wine Quality 和yeast數據上,MSAGEL 分別獲得0.8405 和0.7876 的準確度,比其他四種集成學習算法的準確度高0.15~0.3.在diabetes,raisin 和Debrecen 數據集上,MSAGEL 比其他四種集成學習算法的準確度高0.1~0.2.總體來看,AdaBoost 算法不夠穩定,在yeast 數據集上無法獲得足夠正確的劃分結果,并且總體的平均準確分數也是五種算法中最低的.與AdaBoost 算法相比,RF,HGB 和XGBoost算法表現則相對一致,它們的平均分數分別高出AdaBoost 約0.0286,0.0337 和0.0577.與其他四種算法相比,MSAGEL 的平均分數高出較為明顯.MSAGEL 平均高于其他算法約0.114,0.1594,0.1110 和0.0920.除了分類精準度的優勢外,MSAGEL 在方差比較上也有明顯優勢,比其他算法分別低0.0023,0.0019,0.0023 和0.0003.表明MSAGEL 在十折交叉驗證的過程中表現更穩定.在這些數據集中,Wine Quality 和yeast 都是多類不平衡數據集.如在yeast 數據集內,類別為CYT 的樣本有463 個,而類別為ERL的樣本只有五個,這種類別的極度不平衡性,導致其他四種算法的弱表現.由于MSAGEL 是一種基于采樣的近似模型,其基近似模型的構建可以在一定程度上避免數據的不平衡性所帶來的缺陷,因此獲得了遠高于其他四種算法的分類效果.上述數據體現了MSAGEL 強大的魯棒性與適用性.

為了詳細比較各項指標,選擇XGBoost 算法作為多指標的對照算法.兩種算法在F1、Acc和召回率三個評價指標和所有數據集上進行詳細比較,結果如表7 所示,表中黑體字表示結果最優.

表7 MSAGEL 和XGBoost 在數據集上的多指標對比結果Table 7 The multi-metric comparison results of MSAGEL and XGBoost on the datasets

由表7 可知,MSAGEL 算法評價指標的得分在大部分數據集上明顯高于XGBoost.該現象在Wine Quality 和yeast 數據集上尤為明顯,分項指標分別平均高約0.25 和0.21.而在面對這兩個不平衡數據集時,XGBoost 由于并沒有考慮不平衡性,其只能對類別規模較大的樣本做正確分類,因此其各項分數平均只有約0.37 和0.53.同時在diabetes,blood,raisin 和Debrecen 數據集上,MSAGEL 則獲得0.1~0.15 的指標優勢.而 在breast cancer 和Shill Bidding 數據集上,兩種算法的表現相似,MSAGEL 的評價分數比XGBoost高約0.06.這說明MSAGEL 的泛化性和魯棒性都要優于XGBoost.

4 總結

本文提出一種全新的?;椒?,該?;椒ɑ诓蓸拥乃枷?,同時引入近似理論與重要性采樣技術,構建近似粒向量.與隨機采樣和聚類采樣方法相比,重要性采樣方差更低,計算花費較低.這些特點使得重要性采樣的分布與原始分布相似.與其他先進的?;椒ㄏ啾?,該方法摒棄了根據具體判別式構造粒子的方式,其依據數據的近似分布構建多個分布下的近似粒子的方法賦予?;^程更高的靈活性.根據分析,近似?;目臻g復雜度僅為O()nm,這一規模遠低于鄰域?;腛()nn.同時,在以RF 為基礎模型的?;椒ū容^上,多采樣近似?;诖蟛糠謹祿汐@得最優效果.最后,基于近似粒向量的構建過程,本文提出一種多采樣近似粒集成學習模型并詳細對比該模型與其他先進的集成學習算法.結果表明,多采樣近似粒集成學習有著強大的泛化性與魯棒性.未來工作包括以下三個方面:(1)探索近似模型間的權重關系對最終決策的影響;(2)結合Boosting 思想構建多采樣近似Boosting;(3)探索近似模型對不平衡數據的性能.

猜你喜歡
?;?/a>集上鄰域
Cookie-Cutter集上的Gibbs測度
稀疏圖平方圖的染色數上界
鏈完備偏序集上廣義向量均衡問題解映射的保序性
琯溪蜜柚汁胞?;绊懸蛩丶胺揽丶夹g綜述
基于鄰域競賽的多目標優化算法
復扇形指標集上的分布混沌
關于-型鄰域空間
粗?;疍NA穿孔行為的分子動力學模擬
基于時序擴展的鄰域保持嵌入算法及其在故障檢測中的應用
幾道導數題引發的解題思考
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合