?

融合特征權重與改進粒子群優化的特征選擇算法

2024-02-28 01:41劉振超苑迎春王克儉
計算機工程與科學 2024年2期
關鍵詞:特征選擇子集集上

劉振超,苑迎春,2,王克儉,2,何 晨

(1.河北農業大學信息科學與技術學院,河北 保定 071000;2.河北農業大學河北省農業大數據重點實驗室,河北 保定 071000)

1 引言

大數據時代,高等教育信息建設迅速發展,使得高校的教育教學數據逐年劇增,有效挖掘并合理利用高校教學數據對學校管理、教師教學及學生自我認知的提升都具有重要價值[1]。決策樹因其分類準確率高、運算效率高,被廣泛應用于教育教學數據挖掘中。但是,由于教育教學等數據具有維度高、冗余多等特點,若將高維原始數據直接應用于決策樹分類,決策樹分類的準確率并不理想。特征選擇[2]是數據預處理的關鍵步驟,是從原始特征集合中篩選出對分類模型性能貢獻度最高的特征子集。特征選擇不但能有效降低數據集特征維度,提升分類模型的學習效率,還可以從原始數據集中選擇對分類器分類性能貢獻最高的特征子集,從而提高分類器的分類準確率[3]。常見的特征選擇算法根據其是否包含相關學習算法可以分為過濾式(Filter)和封裝式(Wrapper)2種。

Filter特征選擇算法[4]通過數據非標簽特征與標簽特征之間的潛在規律以及數據本身內在性質判斷數據特征的優劣,進而篩選特征子集。常用方法有互信息法[5]、信息增益法[6]和特征權重法[7]等。該類算法具有簡單易行、效率較高和評價標準獨立于分類算法等特點。

Wrapper特征選擇算法由分類器和搜索算法組成,以分類器的分類準確率作為性能評估標準,通過對原始數據特征集進行搜索得到特征子集。該類算法能有效篩除冗余特征,提高分類準確率。已有研究人員利用粒子群優化PSO(Particle Swarm Optimization)算法[8]、灰狼算法GWO(Grey Wolf Optimizer)[9]等元啟發式算法作為搜索策略,有效提高了所選特征質量和數據分類準確率。例如,吳曉燕等[10]利用樽海鞘群算法和粒子群優化PSO算法進行特征選擇,在不同UCI(University of California, Irvine)數據集上均可選出最佳特征子集,并在多項評估指標上獲得了較好效果;Zhang等[11]提出利用粒子群搜索特征子集的封裝式算法,使用C4.5算法作為評估算法,實驗結果表明該算法提取的特征子集有較高的辨識度。Wrapper算法盡管提升了分類準確率,但當數據維度較高時,仍存在計算代價高、效率低等問題。

Filter和Wrapper特征選擇算法在特征選擇方面各有優勢和不足,因此有研究人員[12]提出了將2類算法融合使用的特征選擇策略。該策略的一般流程為:首先,使用Filter算法剔除部分冗余特征,以減小啟發式算法的特征搜索規模;然后,將Filter算法篩選出的特征子集傳遞給Wrapper算法,再進一步搜索最優特征子集。王金杰等[13]將粒子群優化算法和互信息融合成混合式多目標特征選擇方法,在15個UCI數據集上的實驗結果表明,該算法能夠有效減少特征個數,降低分類錯誤率。肖艷等[14]針對面向對象土地分類中數據特征維數過高的問題,提出了將RELIEF-F和粒子群優化算法混合的特征選擇算法,有效降低了土地數據維度,提高了面向對象土地分類的效率。雖然上述文獻均使用了包含粒子群的融合式特征選擇算法,在特征選擇方面進行了有效改進,但相關研究表明[15,16]:粒子群優化算法可能因迭代初期種群個體多樣性的快速降低使得算法收斂過早,出現“早熟”現象,進而影響特征選擇算法的性能。

綜上分析,本文提出一種融合特征權重與改進粒子群優化算法的混合式特征選擇算法RF- ATPSO(RELIEF-F AdaptiveT-distribution Particle Swarm Optimization)。該算法利用特征權重過濾法剔除部分冗余特征,有效降低后續改進粒子群優化算法的搜索規模;通過自適應權重和T-分布擾動2種改進策略,平衡粒子群優化算法的全局探索和局部開發能力,提高粒子群的多樣性,進而保證在Wrapper算法特征選擇時不易陷入局部最優,從而提高算法的特征選擇性能。

2 改進粒子群優化算法

搜索算法是Wrapper特征選擇算法中的關鍵組成部分;而粒子群優化PSO算法因其優越的全局搜索和尋優能力在各個領域被廣泛應用。因此,本文利用粒子群優化算法在Wrapper算法中搜索最優特征子集。但其迭代初期種群個體多樣性的快速降低會使得算法收斂過早,容易陷入局部最優,進而影響選出的特征子集的質量。因此,本節通過自適應慣性權重和T-分布擾動2種策略改進粒子群優化算法,提高其尋優能力,從而提高Wrapper特征選擇算法的性能。

2.1 粒子群優化算法基本原理

粒子群優化算法是Kennedy等[17]根據鳥群捕食行為中尋找最佳覓食區域的過程所提出的一種智能算法,具有原理簡單、參數少等優點。在粒子群優化算法中,鳥群中的每個個體都是一個粒子,每個粒子均記錄自己所找到的最佳覓食位置(局部最優解),粒子群中所有粒子的最佳覓食位置可以看作全局最優解,每個粒子的覓食位置擁有食物的可能性通過適應度刻畫。

假設個體數為N的粒子群在D維空間中尋找最優解,其中第i個粒子在N維空間中可用位置Xi=(xi,1,xi,2,…,xi,D)表示,第i個粒子的飛行速度設為Vi=(vi,1,vi,2,…,vi,D),第i個粒子的歷史最優位置稱為個體最優值Pi=(pi,1,pi,2,…,pi,D),整個粒子群的最優位置稱為全局最優值Gbest=(gbest,1,gbest,2,…,gbest,D)。根據第i個粒子、第i個粒子最優值Pi和全局最優值Gbest對粒子的速度和位置進行更新,更新公式如式(1)和式(2)所示:

v′i,d=ω×vi,d+c1r1(pi,d-xi,d)+

c2r2(gbest,d-xi,d)

(1)

x′i,d=xi,d+vi,d

(2)

其中,ω表示粒子的慣性權重,該值將會影響算法的收斂性;c1和c2表示學習因子,即加速常數;r1、r2表示0~1之間的隨機數;1≤d≤D。

根據上述公式可以看出,粒子群優化算法尋優基于本身(局部最優)及周圍個體的經驗(全局最優)進行決策。在迭代初期,粒子群的個體多樣性迅速降低,導致算法提前收斂,從而丟失一些重要的位置信息。針對以上不足,本文從2個方面對粒子群優化算法進行改進,平衡算法的全局探索和局部開發能力,提升粒子群優化算法的搜索精度。

2.2 自適應慣性權重策略

ω為粒子的慣性權重,其取值將影響算法收斂性。在粒子群迭代過程中,算法迭代前期需要增加粒子變化步長,從而較早定位全局最優解所在的區域;算法迭代后期則需要減小粒子變化步長,使粒子在該區域內精細化搜索,以找到全局最優解?;谏鲜鏊枷?本文提出自適應慣性權重策略來平衡算法的全局探索和局部開發能力。ω的計算可用式(3)表示:

ω=0.8×e-3(t/tmax)2

(3)

其中,t表示迭代次數,tmax表示最大迭代次數。ω在迭代初期盡可能取最大值,使算法步長迅速變化,方便進行全局搜索;隨著迭代的進行,權重不斷減小,側重進行局部搜索。該策略有效平衡了算法的全局探索和局部開發能力。

2.3 T-分布擾動策略

在迭代初期粒子種群個體多樣性迅速下降,導致迭代后期種群多樣性較低。粒子群的群體最優值遠離全局最優值時,粒子易向錯誤方向進化和學習,此情況下極易陷入局部最優。本文提出了一種基于T-分布的擾動策略,以實現在算法迭代過程中增加粒子種群的多樣性并及時跳出局部最優。即如果經過連續幾次迭代,當前粒子的最優適應度值基本沒有或不再發生變化,則認為算法陷入局部最優,在這時加入擾動讓粒子震蕩,使其跳出局部最優,這樣也增加了種群多樣性。該策略如式(4)所示:

(4)

3 融合特征權重和ATPSO的特征選擇(RF-ATPSO)算法

在過濾式算法中,特征權重算法RELIEF-F具有運行效率高、特征選擇結果辨識度好的優勢。本文提出雙策略改進粒子群優化算法平衡了全局探索和局部開發能力,增加了粒子的多樣性,提高了粒子群優化算法的搜索能力?;诖?提出一種將特征權重算法RELIEF-F與改進粒子群優化算法融合的混合特征選擇算法。該算法主要包括2部分:首先使用特征權重算法對原始特征集合進行初步特征篩選;然后從篩選后的特征集合中利用改進粒子群優化算法搜索最優特征子集,提高所選特征子集的精度及后來的分類準確率。其中又包括2個關鍵步驟,分別是粒子群二進制轉化和適應度函數設計。

3.1 特征權重算法RELIEF-F

RELIEF-F算法是Kononenko等[18]在1994年基于RELIEF算法改進的一種適用于多分類的特征選擇方法。

特征權重計算流程如下:

重復執行步驟(1)~步驟(3)共m次:

(1)從數據集中隨機抽取樣本R,選擇R的猜中近鄰和猜錯近鄰各k個,分別記作集合H={h1,h2,…,hk},M={m1,m2,…,mk}。

(2)根據以下規則進行特征權重更新:若R和H中所有樣本在某個特征上的距離小于R和M中所有樣本的距離,說明該特征對區分同類和異類樣本最近鄰有益,則增加該特征權重,反之降低該特征權重。

(3)根據式(5)和式(6)更新特征A的特征權重,直到最大迭代次數結束。

(5)

(m×k)

(6)

其中,A表示樣本的一種特征,max(A)和min(A)分別表示特征A上的最大取值和最小取值,R[A]表示樣本R的特征A上的值,hj[A]表示猜中近鄰中第j個樣本hj在特征A上的值;diff(A,R,hj)表示樣本R與樣本hj在特征A上的差;P(C)表示C類的比例;P(class(R))表示隨機抽取樣本R所屬類別的比例;mj表示C類樣本中的第j個最近鄰樣本。

3.2 粒子群二進制轉化方式

基于ATPSO(AdaptiveT-distribution Particle Swarm Optimization)法對數據集進行特征選擇,可以看作將解空間限定在{0,1}范圍內的二進制優化問題。需要注意的一點是,進行特征選擇時,需要將連續型優化問題轉換為離散型優化問題。

首先要對粒子群中的粒子進行編碼。一個完整的特征選擇解對應改進粒子群優化算法中的一個粒子,粒子的維度與原始數據集中樣本的特征屬性數量相同,且粒子群個體的某個維度值xi,j∈{0,1}。若要將離散粒子群與特征選擇問題正確對應,需定義粒子群編碼規則。編碼規則為:若xi,j=1,表明第i個粒子的第j個特征被選擇,若xi,j=0,則表明第i個粒子的第j個特征未被選擇。

除粒子編碼問題外,連續型優化問題如何轉換為離散型優化問題也同樣重要。本文利用Sigmoid函數將連續型變量轉換為二進制形式。Sigmoid函數如式(7)所示:

(7)

具體到特征選擇上,需要將連續型粒子的各個維度映射到{0,1},需將xi,j帶入Sigmoid函數,結果如式(8)所示:

(8)

其中,映射函數T(·)表示粒子中的元素xi,j取值為1的概率。綜上所述,粒子群的位置更新策略可以用式(9)進行描述:

(9)

其中,rand為[0,1]的隨機數。若隨機數大于或等于元素xi,j取值為1的概率,則rand取值為1,否則取值為0。

以粒子群的某一種特征選擇解為例。假設原始數據集擁有7個特征,在ATPSO算法迭代中某個粒子位置的結果如圖1所示。由圖1可知,xi,2=xi,3=xi,5=xi,6=1,xi,1=xi,4=0,表明第i個粒子將原始數據特征2,3,5和6選中作為特征選擇的最優特征子集,將原始數據特征1和4篩除。最終利用分類器可以基于選出來的最優特征子集進行模型訓練與數據分類。

Figure 1 Feature selection solution圖1 特征選擇解

3.3 適應度函數設計

數據集的特征選擇可以轉化成多目標優化問題。優化目標為:在滿足特征選擇數量最小化的同時,也最大化分類器的分類準確率?;谏鲜?個優化目標,本文將適應度函數定義為式(10):

(10)

其中,error_rate表示指定分類算法(本文采用決策樹算法)的誤分率,D表示數據集中樣本的特征總數量,RF表示特征選擇算法最終所選擇的特征子集大小,α、β分別對應分類算法誤分率和特征子集大小在適應度中的重要性。α、β∈[0,1],且α+β=1。

3.4 RF-ATPSO算法流程

RF-ATPSO特征選擇算法首先使用特征權重算法對原始特征集合進行初步特征篩選,然后從篩選后的特征集合中利用改進粒子群優化算法搜索最優特征子集,最終得到最優特征子集。算法詳細步驟如下所示:

算法1 RF-ATPSO特征選擇算法輸入:基準數據集。輸出:最優特征子集以及分類算法的準確率。步驟1 輸入基準數據集,將其按照7∶3的比例劃分為訓練集和測試集,設置C4.5為評估算法。步驟2 使用RELIEF-F算法計算各個特征權重并按照權重對特征排序。步驟3 根據設定閾值對有序的特征集進行篩選。步驟4 初始化粒子群優化算法參數,初始化粒子初始位置并利用式(9)實現粒子位置和特征集的映射。步驟5 利用式(10)計算粒子適應度值。步驟6 比較每個粒子的適應度值,更新全局和局部最優解。步驟7 利用自適應慣性權重策略(式(1)和式(2)所示),更新粒子位置。步驟8 執行T-分布策略。步驟9 若未達到最大迭代次數則跳轉至步驟5。步驟10 輸出最優特征子集和分類準確率。

4 實驗與結果分析

4.1 數據集介紹與實驗設置

4.1.1 數據集介紹

為充分驗證本文提出的RF-ATPSO算法的有效性,本文基于加州大學UCI機器學習庫中的6個標準數據集進行實驗。這些數據集分別來自不同領域,如Spambase主要用于冗余郵件的識別分類,Arrhythmia心率失常數據集和Cancer癌癥數據集為醫學數據集。

表1簡要介紹了上述6個UCI數據集和學生畫像指標數據集的樣本數量、特征數量和類別數量。

Table 1 Datasets introduction

為進一步驗證本文算法的魯棒性,實驗選用本研究團隊構建的某高校學生學業成績畫像指標數據集。該數據集從學分體系模塊、成績體系模塊和課程指標體系模塊3個方面構建學業指標體系,全方位刻畫學期、學年和課程類別等方面的學生學業成績情況。

構建的學生學業成績畫像指標具體如表2所示。在表2中,學分指標體系擁有1個一級指標,二級指標按照課程類別、課程屬性進行劃分;成績指標體系擁有3個一級指標,當前總績點排名二級指標按照課程類別進行劃分,成績波動程度二級指標按照學期學年時間線進行劃分,總掛科率二級指標按照課程類別進行劃分;課程指標體系擁有5個一級指標,共將學生課程分為3段,總優秀課程學分率是對總課程優秀率的補充,其次是低于課程均分率,最后為及格率,二級指標均按照課程種類或時間線進行劃分。

本文使用分類算法的分類準確率來評估特征選擇算法所選特征子集的優劣。因此,本文實驗中對原始數據集與經過特征選擇后的數據集使用C4.5決策樹算法的分類準確率和最終選擇特征的數量進行評估。本文實驗包括基于UCI公共數據集實驗和應用實驗,之后再在學生畫像指標數據集上進一步評估算法的應用能力。

4.1.2 實驗設置

本文實驗的機器配置參數如下:基于Intel?CoreTMi56300HQ、2.6 GHz主頻、16 GB內存以及Windows 10操作系統,實驗仿真軟件采用PyCharm, 2020.2版本。

參數設置會影響算法的全局收斂性能??刂茀祵嶒灡粡V泛用于調度優化、組合優化和函數優化等問題,具有易于理解、便于實現等優點[19,20]。因此,本文將控制參數實驗用于算法參數的設定。通過實驗設計,對粒子群優化算法的2個學習因子(c1和c2)進行設定。本文給出了參數選擇表,如表3所示,共選取9組參數組合,并將式(10)作為適應度函數。由于算法的隨機性等特點,本文將每組參數運行10次的結果取平均值作為最終適應度值。通過9組實驗結果可以發現,學習因子c1和c2值為2時,算法的適應度值最低,算法的性能最好。為保證實驗的公平性,最大迭代次數和種群規模均與對比算法的一致。

Table 3 Parameter selection table

因此,所用粒子群優化算法的參數設置如下:學習因子c1和c2值為2,粒子個數N值為30,最大迭代次數tmax值為100。

4.2 UCI公共數據集實驗

4.2.1 UCI公共數據集實驗數據集介紹

為了檢驗提出的RF-ATPSO算法的性能及穩定性,本文基于UCI公共數據集,將RF- ATPSO算法與傳統特征選擇算法(包括RELIEF-F、PSO、GWO、RFGWO和RFPSO算法)進行對比實驗。

實驗分別在6個UCI公共數據集上進行,通過計算各算法選出的特征子集的準確率來評估算法的性能。在每個數據集上取20次實驗的實驗結果,分別選取最優準確率(Best)和平均準確率(Avg)2個指標來度量不同算法的性能。表4展示了RF-ATPSO算法與傳統特征選擇算法在6個數據集上取得的分類準確率。

由表4可知,C4.5算法在其原始特征集合上的準確率均比經過特征選擇后的準確率低,出現這種現象主要因為原始數據高維特征空間和特征高度冗余對C4.5的分類結果產生了較大影響,但是也存在經過特征選擇后的特征子集辨識度變差的情況。

表5給出了RF-ATPSO算法與傳統特征選擇算法從6個數據集中提取的平均特征子集規模。由表5可知,基于RF-ATPSO算法對數據集進行特征選擇后,特征空間維度明顯減小。觀察表4和表5可知,RF-ATPSO算法在Meu、Scadi、Can- cer、Arrhythmia和HillValley 5個數據集上所選的特征子集規模最小且準確率最高,即能以最低的特征空間維度取得最高的準確率??傊?本文提出的RF-ATPSO算法在保證準確率的情況下,可以有效提高C4.5算法的運行效率。

Table 5 Average sizes of feature subsets extracted by RF-ATPSO algorithm and traditional feature selection algorithms from 6 datasets

進一步分析表4中的實驗結果,可以發現:對比3種傳統的Filter和Wrapper算法RELIEF-F、GWO、PSO可知,經過特征選擇后,C4.5算法分類準確率均有不同程度的提高。2種Wrapper算法在不同數據集上的性能表現不同,在Meu、Scadi、Spambase和HillValley數據集上,PSO算法的結果最優,在Cancer和Arrhythmia數據集上,GWO算法的結果最優。整體而言,PSO算法要優于RELIEF-F和GWO算法,平均分類準確率較2種算法分別提高了7.68%和0.70%。在所選特征子集規模上,PSO算法在6個數據集上均優于GWO算法,平均特征子集規模比GWO算法的低8.63??傮w而言,PSO的特征選擇結果較GWO具有一定優勢。

對比3種混合式算法可知,算法針對不同的數據集,性能可能也會有所區別。由表4可知,在Scadi、Cancer、Arrhythmia和HillValley數據集上,RF-ATPSO平均分類準確率最高,較RFGWO和RFPSO算法的均有小幅度提升,分別為1.51%,1.29%;在Meu數據集上,平均準確率最高,但其最高分類準確率表現并非最優;在所選特征子集規模上,RT-ATPSO算法在除Meu外的5個數據集上,特征子集規模最小;對比本文提出的RF- ATPSO和其他特征選擇算法可知,RF-ATPSO算法在Spambase數據集上分類準確率未達到最優,但整體而言RF-ATPSO的平均分類準確率達到81.54%,在所有數據集上均表現最優。

4.2.2 UCI公共數據集收斂性對比

本節實驗將GWO、PSO、RFGWO、RFPSO和RF-ATPSO算法進行對比分析,圖2為3種封裝式特征選擇算法在6個數據集上的錯誤率收斂曲線。

Figure 2 Error rate convergence curves圖2 錯誤率收斂曲線

從圖2可以看出,在Cancer、Arrhythmia和HillValley數據集上,RF-ATPSO算法的收斂曲線均在GWO、PSO、RFGWO和RFPSO算法的之下;在Cancer和HillValley數據集上,RF-ATPSO算法擁有較低的初始適應度值,并且能快速收斂至全局最優解,在所有算法中收斂速度最快;在Arrhythmia數據集上,RF-ATPSO算法在迭代前期收斂速度低于RFPSO和RFGWO算法的,但在第30次迭代時,可迅速跳出局部最優解,向全局最優解收斂;在Scadi數據集上,沒有經初步特征選擇的PSO算法收斂速度較慢,但其優于GWO和RFGWO算法,RF-ATPSO算法初始和最終收斂值最低,具有較快的收斂速度;在Meu和Spambase數據集上,盡管RF-ATPSO算法沒有取得最優的收斂效果,但RF-ATPSO算法的收斂曲線在RFPSO的之下,因此本文提出的改進策略有效,并且利用PSO算法進行特征選擇后均優于使用GWO算法的。經過RELIEF-F算法初步篩選特征后的RFPSO和RF-ATPSO算法收斂速度和收斂適應度值均不如PSO算法的,說明在上述2個數據集上RELIEF-F算法篩選過的特征子集本身辨識度差,在原特征空間中搜尋效果更佳。

4.3 學生學業成績畫像指標數據集實驗

4.3.1 分類準確率和收斂性分析

為進一步驗證RF-ATPSO算法的有效性,在表2所示的某高校學生學業成績畫像指標數據集上進行對比實驗。選取計算機專業四年學業成績數據,按照本文設計的特征指標體系,構建出的學生學業成績畫像擁有227維特征。實驗中RELIEF-F、GWO、PSO、RFGWO、RFPSO和RF-ATPSO算法分別運行20次,分類準確率均值計算結果如表6所示。

Table 6 Classification accuracies of feature selection for the portrait index dataset

由表6可以看出,C4.5算法在原始數據集上的分類準確率較差,平均準確率僅為88.51%,比用RF-ATPSO算法進行特征選擇后的平均準確率低6.26%。RF-ATPSO算法在學生類別1、2及所有類別平均值上的準確率最高,尤其在類別2上準確率達到94.82%,比原始數據集的準確率高6.96%。

RF-ATPSO算法相較于其他5種特征選擇算法不僅總體準確率分別提高了4.66%,2.64%,2.19%,2.15%和1.98%,而且在3個類別上也均有不同程度的提高。在類別1和類別2上,RF-ATPSO算法所求得的特征子集準確率最高,分別達到了93.68%和96.71%。

學生學業成績畫像指標數據收斂曲線如圖3所示。從圖3可知,RF-ATPSO算法在收斂速度和收斂值方面,均優于其余4種特征選擇算法;

Figure 3 Convergence curves of student profile indicator data圖3 學生畫像指標數據收斂曲線

RF-ATPSO算法在第15次已尋找到全局最優解,證明其收斂速度較快,可及時跳出局部最優解;GWO、PSO分別在第50次和第19次尋找到全局最優值;RFGWO、RFPSO分別在第18次和第17次尋找到全局最優值。因此,RF-ATPSO不僅迭代次數少且最優解適應度值更低,擁有較高的尋優效率。

4.3.2 RF-ATPSO特征選擇結果分析

如前所述,本文構建的學生學業成績畫像經過RF-ATPSO算法特征選擇后降到了82維,包括44個成績指標(含8個課程排名指標、14個成績波動指標、3個平均排名指標、18個績點排名指標和1個掛科總學分指標);37個課程指標(含22個優秀課程指標、5個優秀課程學分率指標、6個低于均分課程率指標和4個優秀課程率指標)。

在實際數據中,學生出現掛科(不及格)的情況較少,因此,學分指標體系下各學生的各項指標值,大多接近于1,因此學分率的區分度不高,在特征選擇結果中也基本沒有學分率指標體系中的指標,可見該特征選擇結果符合實際情況。在選擇出的37個課程指標中,所有及格率相關指標的值均接近1,因此區分度不高,實際特征選擇結果中,也沒有及格率相關指標,可見該特征選擇結果也符合實際情況。

5 結束語

針對高校教務領域數據固有的高維特征空間和高度冗余問題,本文提出了一種融合特征權重和改進粒子群優化算法的混合式特征選擇算法(RF-ATPSO)。該算法主要分為2個步驟,首先使用RELIEF-F算法計算各個特征的權重,篩除冗余特征;然后從篩選出的特征集合中利用改進粒子群優化算法搜索最優特征子集。

實驗方面,首先在6個UCI公共數據集上進行實驗。結果表明,C4.5算法在經過RF-ATPSO算法特征篩選后的數據集上不僅準確率優于其他特征選擇算法的,而且算法所選特征子集規模最小,在保證準確率的同時提高了C4.5算法的運行效率。在學生學業成績畫像指標數據集上的結果表明,C4.5算法在經過RF-ATPSO算法特征篩選后的數據集上準確率達到94.77%,優于其他傳統特征選擇算法。盡管本文提出的RF-ATPSO特征選擇算法在大部分數據集上取得了較好效果,但還存在經RELIEF-F特征選擇后特征子集辨識度變差的問題,未來將重點研究提高特征子集辨識度的最優方法。

猜你喜歡
特征選擇子集集上
由一道有關集合的子集個數題引發的思考
拓撲空間中緊致子集的性質研究
Cookie-Cutter集上的Gibbs測度
關于奇數階二元子集的分離序列
鏈完備偏序集上廣義向量均衡問題解映射的保序性
復扇形指標集上的分布混沌
Kmeans 應用與特征選擇
聯合互信息水下目標特征選擇算法
每一次愛情都只是愛情的子集
基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合