?

基于相對離群因子的標簽噪聲過濾方法

2024-02-03 10:41侯森寓姜高霞王文劍
自動化學報 2024年1期
關鍵詞:離群標簽噪聲

侯森寓 姜高霞 王文劍,2

分類是機器學習領域中一項重要的任務,大量研究表明,數據質量決定著訓練出的分類模型的泛化性能[1].隨著人工智能技術的進步,風險與挑戰也隨之而來,許多人工智能應用領域(如醫學診斷、人臉識別和智能駕駛等)需要更高的數據質量,以保證模型的準確率(Accuracy,Acc)[2-4].然而,由于對數據實施可靠標記通常是昂貴而耗時的,對于實際的機器學習來說,數據普遍包含噪聲是一個不容忽視的問題[5].因此,實施噪聲清除或降低噪聲對模型泛化性能的影響是十分必要的.

監督學習中的數據噪聲主要分為特征噪聲和標簽噪聲兩種類型[6].特征噪聲是指觀測到的特征與真實特征存在誤差的數據,例如由于物聯網設備故障,部分數據采集到錯誤、缺失或不完整的特征值[7];標簽噪聲是指觀測到的實例標簽與真實標簽不一致的數據,例如在醫療診斷中,由于專家標記的不一致性,造成病例數據標簽錯誤[8].文獻[9]從統計角度考量,提出標簽噪聲主要有完全隨機噪聲、隨機噪聲和非隨機噪聲三類.它們通過噪聲樣本與其特征和標簽的關聯性進行區分,完全隨機噪聲的產生獨立于數據樣本的特征值和標簽類別;隨機噪聲和非隨機噪聲的產生與數據的特征或標簽類別之間存在一定的關聯性,這種關聯可能是由于標簽分配過程中的系統性、主觀性錯誤或模糊類別邊界等原因造成的.

根據機器學習任務的不同,標簽噪聲在分類與回歸任務中,又分別稱為類別型標簽噪聲和數值型標簽噪聲[9].在分類任務中,無論是特征噪聲還是類別型標簽噪聲都會影響模型的泛化性能,但研究表明,標簽噪聲比特征噪聲具有更大的危害性.一方面,數據通常具有多個特征,而標簽是唯一的;另一方面,每個特征對于分類模型學習的重要性不盡相同,而標簽的正確與否對模型學習有著更大的影響.因此,處理分類任務中的標簽噪聲問題顯得至關重要.

解決分類任務中的標簽噪聲問題可以從算法層和數據層2 個層面考慮.在算法層面的處理依賴于構建對標簽噪聲具有魯棒性的模型(如重構損失函數和加權集成等方式),通過提高模型對噪聲的容忍,以減少其受標簽噪聲的影響.但是,魯棒模型并不能完全魯棒[10].數據層面的處理是通過標簽噪聲過濾的方法提高數據質量[11],標簽噪聲在訓練前就已經被識別并處理掉.顯然,標簽噪聲過濾更直接有效.

針對分類任務中的類別型標簽噪聲問題,本文從離群點與噪聲的相關性出發,提出相對離群因子(Relative outlier factor,ROF),以評估數據的噪聲概率,并據此構建標簽噪聲過濾方法.本文主要貢獻有以下3 個方面:

1)基于離群點檢測算法提出相對離群因子,它可以對數據每個樣本點進行噪聲概率評估,依據該評估,可以實現噪聲檢測和初步的過濾;

2)以提高模型泛化能力為目標,根據1)提出的噪聲概率評估方法,設計基于相對離群因子的集成過濾方法(Label noise ensemble filtering method based on relative outlier factor,EROF),使得噪聲過濾更加穩定精確;

3)在標準數據集的實驗結果表明,本文方法與現有的噪聲過濾方法相比,能更有效地提升數據質量和模型的泛化性能.

1 相關工作

本節主要介紹已有的標簽噪聲過濾方法和離群點檢測算法,并對這些方法進行簡單歸納和總結.

1.1 標簽噪聲過濾方法

標簽噪聲過濾方法一般是指檢測并過濾訓練數據中的噪聲樣本,通過該方法提升數據質量,以確保訓練出的模型性能.

早期過濾算法是利用分類模型對噪聲的敏感性來檢測標簽噪聲.常見做法是將分類器對樣本的預測標簽和樣本觀測標簽的一致性作為識別標簽噪聲的指標之一[12].這個方法被稱為分類過濾,文獻[13]提出運用K折交叉驗證方法,將測試集上錯誤分類的樣本直接視為噪聲刪除.然而,分類過濾面臨著“先有雞,還是先有蛋”的悖論[14],該過濾方法必須有精確的分類器,而在含噪數據集上,大概率訓練出較差的分類器.

由于集成學習的廣泛應用,基于不同集成策略的過濾方法應運而生,代表性方法有多數投票過濾器(Majority vote filter,MVF)[15]、動態集成過濾器[16]和高一致性隨機森林(Random forest,RF)過濾器[17].這些過濾方法的主要思想都是通過多個基分類器的預測結果組合后的正確程度,來識別噪聲.集成過濾器通常比單一基過濾器具有更好的精度,但其本質上還是基于模型預測的過濾方法,仍存在上述的悖論問題,且計算成本通常更大.

更為常見的是基于近鄰模型的過濾方法,通常需要借助K近鄰(K-nearest neighbors,KNN)模型實現.如編輯近鄰[18]過濾器、全近鄰[19]過濾器、互近鄰(Mutual nearest neighbor,MNN)[20]過濾器.這些過濾器對近鄰參數k的選取過于敏感.近鄰感知[21]過濾算法采用迭代搜索思想,解決參數k的自適應問題,但仍存在一定的維度災難問題.

在準確性和可靠性方面,依賴分類器和近鄰模型識別標簽噪聲的效果均不理想,Xia 等[22-24]提出基于相對密度(Relative density-based,RD)的過濾方法和基于完全隨機森林(Complete random forest,CRF)的過濾方法,并擴展應用于多分類數據集的噪聲過濾中.RD 利用樣本的相對密度來衡量樣本的噪聲強度,CRF 通過構建完全隨機樹來衡量樣本被異類樣本包圍的水平,進而確定樣本的噪聲強度.為解決其中的硬閾值問題,基于自適應投票策略的相對密度過濾器vRD[24]算法和自適應完全隨機森林過濾器Adp_mCRF[25]算法被相繼提出.但是,這兩種方法都使用隨機劃分測試集的分類精度作為自適應指標,導致在噪聲比例(Noise ratio,NR)較高時,過濾效果下降.

基于深度學習的標簽噪聲過濾方法利用神經網絡強大的表示學習能力捕獲數據底層結構,從而識別和過濾噪聲.例如,Lu 等[26]依據神經網絡對樣本預測置信度進行噪聲識別和過濾;Han 等[27]基于深度神經網絡對于噪聲數據的記憶時效性,提出“Coteaching”深度學習范式,此方法通過訓練兩個深度神經網絡對標簽噪聲數據進行遺忘,緩解誤差累積,從而在高標簽噪聲環境下,訓練出更具魯棒性的模型.但基于深度學習的方法通常需要大量的計算資源和數據來訓練模型,數據量較少會導致模型過擬合,無法泛化到新的數據.

Xiong 等[28]基于離群點與噪聲具有一定相似性的特點,提出利用離群點檢測技術,完成噪聲過濾的方法,但該方法將離群點視為噪聲的思想有失偏頗.Zhang 等[29]提出基于穩健深度自動編碼器的離群點檢測技術過濾噪聲,該方法將檢測出的離群點作為候選誤標記數據,再經過一種基于重構誤差最小化方法,驗證最終視為噪聲的樣本,但其本質仍是將樣本是否為離群點作為噪聲檢測的基礎.

1.2 離群點檢測算法

離群點檢測技術相較于類別型標簽噪聲過濾技術更為成熟,出于簡潔性、有效性、多樣性等多方面考量,本節簡要介紹6 種主流的離群點檢測算法.

1)K近鄰[30]離群點檢測算法通過評估數據點與其第k近鄰數據的距離,來檢測離群程度.

2)局部離群因子(Local outlier factor,LOF)[31]檢測算法利用局部鄰域密度的概念,來檢測離群點.

3)基于連通性離群因子[32]檢測算法在LOF 算法基礎上,根據數據點的鏈接偏移程度,來評價其離群度.

4)為緩解維度災難問題,基于角度的離群點檢測[33]算法提出運用數據點與其近鄰之間角度的加權方差,來檢測離群程度.該方法能更精確地給出高維空間中數據點的離群因子.

5)單類支持向量機(Support vector machine,SVM)[34]通過數據點到超平面邊界的距離,來計算離群值.

6)基于近鄰隔離的離群點算法[35]使用孤立球模型,實現離群因子的度量,其中離群因子更高的數據點被半徑更大的超球體所孤立.

2 基于相對離群因子的集成過濾方法

本節主要介紹相對離群因子的計算及應用,并據此提出基于相對離群因子的集成過濾方法.

2.1 相對離群因子

為更形象地展示相對離群因子的相關概念與計算過程,在人工生成的二分類數據集上進行模擬實驗,其中包括34 個真實數據點和6 個類別型標簽噪聲點,選用K近鄰分類(K-nearest neighbors clasifier,KNNC)模型作為基分類器(近鄰參數k設置為1).圖1 兩個子圖分別為在不含噪聲數據集和包含噪聲數據集中,訓練所得的分類模型決策邊界圖,顯然圖1(b)的決策邊界相對于圖1(a)更復雜混亂,并且圖1(b)中部分處于決策邊界的正常樣本也被錯分了,這表明類別型標簽噪聲對分類模型產生一定負面影響.因此,有效處理類別型標簽噪聲是提高分類模型泛化能力的關鍵.

圖1 不同含噪情況下的分類模型決策邊界Fig.1 Decision boundary of classification model in different cases with noise

定義1.同質樣本與異質樣本

圖2 兩個子圖分別展示了圖1(b)包含噪聲數據集中,同質樣本和異質樣本的選取過程.如圖2(a)所示,樣本A=(xa,ya) 且有ya=正類,根據定義1,觀測標簽為正類的樣本均為A的同質樣本,其中包括兩個剩余的假正類樣本B和C;同理,如圖2(b)所示,A的異質樣本為觀測標簽是負類的全部樣本,包括三個假負類樣本D、E和F.

圖2 樣本A 的同質、異質樣本Fig.2 Homogeneous and heterogeneous samples of sample A

定義2.絕對離群因子

離群點是數據集中明顯異常的數據點.離群點檢測的目的是檢測出與正常數據差別較大的數據點.基于不同的離群點檢測方法,對于數據集中的每個樣本,總能給出一個離群程度的度量,定義該度量值為絕對離群因子(Absolute outlier factor,AOF).根據定義1,每個樣本點均有相對于其同質、異質樣本的一對絕對離群因子.

根據給定的距離度量方式,在D中找出與p最近的k個點,假定其中距p第k近的為樣本點qk,樣本點p的絕對離群因子基于其到第k近鄰樣本的距離進行計算:

假定y p=正類,其同質樣本集合記為D+,異質樣本集合記為D-,則樣本點p的同質絕對離群因子定義為:

同理,樣本點p的異質絕對離群因子定義為:

基于離群點與噪聲點的相似性,標簽噪聲往往具有更高的同質絕對離群因子值.然而,并不能主觀地認為離群因子越高,其為標簽噪聲的概率就越大,即絕對離群因子與噪聲概率并不是強正相關關系[22].例如標簽噪聲位于出現概率相近的邊界區域,則該樣本點的離群因子值并不會表現得很高;而離群因子值較高的樣本也不一定是標簽噪聲,它可能是由于樣本本身的特征噪聲導致的低概率事件.

以圖1(b)的人工包含噪聲數據集為例,圖3 四個子圖分別給出了基于KNN 離群點檢測算法(近鄰參數k設置為5)計算部分樣本點兩類絕對離群因子的結果.其中,A為假正類樣本,是噪聲樣本;G為真負類樣本,是正常樣本.

圖3 噪聲樣本A 與真實樣本G 的絕對離群因子Fig.3 Homogeneous and heterogeneous absolute outlier factor results of noise sample A and real sample G

如圖3(a) 所示,A點的同質絕對離群因子f(A)=0.94,顯然該值相較于其他真正類樣本更高;而圖3(b) 顯示其異質絕對離群因子g(A)=0.36,這是由于A被大多數與其相反標簽的樣本點包圍,導致A點在異質樣本環境中,具有更低的異質絕對離群因子.因此,可以得出含噪樣本的同質絕對離群因子往往高于異質絕對離群因子的結論.

在圖3(c)和圖3(d)中,真實樣本G由于離數據集群較遠,故其兩類離群因子都偏高,特別是其同質絕對離群因子相較于部分噪聲樣本,反而更高.這也印證了絕對離群因子與噪聲概率間并不是強正相關關系.但是,它的同質絕對離群因子0.86 低于其異質絕對離群因子0.65,該大小關系符合其為正常點的事實.基于以上分析,提出相對離群因子的定義來估計樣本的噪聲概率.

定義3.相對離群因子

設有二分類數據集D,假定有樣本點p=(xp,yp),定義樣本p的相對離群因子為:

類似地,若y p=負類,定義樣本p的相對離群因子為:

相對離群因子可用于識別類別型標簽噪聲,ROF值越大的樣本,標簽噪聲的概率也越高.為確定相對離群因子評估噪聲概率的有效性,沿用KNN 離群點檢測算法(近鄰參數k設置為5),計算圖1(b)中數據的相對離群因子值,部分計算結果如圖4 所示.其中標簽噪聲點(即含噪正類與含噪負類樣本)的相對離群因子分別為2.49、2.27、2.23、1.79、1.71和1.54.這些值都遠大于真實數據點的相對離群因子值.由圖4 可以看出,靠近分類邊界或遠離集群的真實樣本,其同質絕對離群因子值偏大,導致相對離群因子也偏大,但相對離群因子值并沒有超過噪聲樣本,這說明相對離群因子與樣本噪聲概率的相關關系更強,在噪聲的判別上,相對離群因子比絕對離群因子更可靠.

圖4 數據的相對離群因子Fig.4 Relative outlier factors for data

總之,計算樣本的相對離群因子能夠評估其是噪聲的概率,從而有效檢測類別型標簽噪聲.據此提出基于相對離群因子的標簽噪聲過濾算法,主要步驟如算法1 所示.

算法1.基于相對離群因子的過濾算法

輸入.分類數據集D,離群檢測模型p,參數為過濾閾值t或過濾比率r.

輸出.去噪數據集D′,噪聲集N.

初始化.噪聲集N=?.

1)根據式(3)、式(4),利用離群檢測模型p計算全部樣本的同質、異質絕對離群因子;

2)根據式(5)、式(6),計算全部樣本的相對離群因子;

3)將數據按相對離群因子大小降序排列;

4)將相對離群因子大于過濾閾值t的樣本或前n×r個樣本加入噪聲集N中;

5)得到去噪數據集D′=D-N.

該算法的時間復雜度主要取決于基離群檢測模型計算每個類別離群因子的復雜度.以KNN 離群點檢測算法作為基檢測模型為例,若采用K維樹算法加速搜索K近鄰[36],算法1 的時間復雜度為O(mnlogn),其中m為類別數,n為樣本數.當類別數與樣本數均較大時,類別數對算法的時間開銷會顯著增加.但在實際中,數據集的類別數通常遠小于樣本數,因此算法1 的時間復雜度可近似為O(nlogn).

2.2 基于相對離群因子的集成過濾方法

對于不同分布的數據,基于單一基離群點檢測模型計算的相對離群因子無法始終保持噪聲概率評估的精確性.鑒于現有成熟的離群點檢測技術,提出基于相對離群因子的集成過濾方法,該方法采取貪心策略確定最優聯合檢測器,以保證迭代過濾后的數據能訓練出最優泛化性能的分類模型,主要步驟如算法2 所示.

算法2.基于相對離群因子的集成過濾算法

輸入.分類數據集M,單次迭代過濾比率r′,基離群檢測器池P=

輸出.去噪數據集M′.

1)計算獲得基檢測器排名池P′:

a)利用算法1 (輸入.分類數據集D=M,離群檢測模型p=pk,過濾比率r=r′),獲得m個不同的去噪數據集;

b)通過交叉驗證,獲得分類模型在不同去噪數據集上的準確率Acc;

c)將檢測器按對應的準確率降序排列,得到基檢測器排名池P′.

初始化.迭代輪數k=1,緩沖噪聲池N*=?,緩沖去噪池M*=M,最大準確率M Acc=0.

2)利用算法1 (輸入.分類數據集D=M,離群檢測模型p=pk,過濾比率r=r′),得到噪聲集Nk;

3) 同時更新緩沖噪聲池N*=N*+Nk和緩沖去噪池M*=M-N*;

4)通過交叉驗證,獲得分類模型在緩沖去噪數據集D*的準確率;

5) 若A cc>MAcc,則同時更新M Acc=Acc和去噪數據集M′=M*;否則,回溯兩個緩沖池N*=N*-Nk,M*=M+N*;

6)若k<m,令k=k+1,并重復執行步驟2)~6);否則,停止循環,獲得最終的去噪數據集M′.

算法2 的主要流程如圖5 所示,其中黃色區域表示需要重復計算的步驟,灰色區域表示緩存的步驟.算法2 利用多種互補的基離群點檢測算法,尋求聯合檢測模型的最優解,算法主要分為基檢測模型排名階段(步驟1))和迭代聯合過濾階段(步驟2)~6))兩個階段.基檢測模型排名階段檢測出的噪聲為聯合過濾階段提供多樣的去噪組合,因此在實際運行中,無需反復調用基檢測器進行噪聲識別.

圖5 EROF 算法流程示意圖Fig.5 Flowchart diagram of the EROF Algorithm

該算法的時間復雜度仍主要取決于基離群點檢測算法的復雜度,以第1.2 節的6 種基檢測器為例,其中LOF 算法擁有最高的時間復雜度為 O (n2),在此情況下,該算法的時間復雜度 T (EROF)=O(n2).如果基檢測器池加入其他模型,則該算法的時間復雜度與基檢測器池中獨立檢測器的最高時間復雜度相同.

3 UCI 數據集實驗

本節介紹基于相對離群因子的集成過濾方法在UCI 標準數據集上的實驗框架、基檢測器對比、參數確定、實驗結果與相關分析.

3.1 實驗框架

實驗采用來自UCI 的20 個標準數據集,詳細信息見表1.這些數據集主要來自真實世界數據,例如,第14 號Isolet 數據集包含美國英語字母的語音樣本,由不同發音者朗讀錄制;第20 號Letter 數據集基于20 種不同字體的黑白矩形像素,顯示26 個大寫英文字母,特征包括長/寬比、最大水平和垂直筆畫數、筆畫密度等.為驗證各過濾算法的有效性,實驗將每個數據集按7:3 的比例,隨機劃分為訓練集和測試集,并在訓練集上完全隨機制造一定比例的人工標簽噪聲.首先,用本文過濾方法與其他主流過濾算法過濾訓練集后,進行各項指標的對比;然后,用去噪后的訓練集訓練分類模型;最后,在測試集上,對比其泛化性能.由于實驗中的人工噪聲為完全隨機添加,為降低實驗結果的偶然性,實驗結果采用不同隨機加噪10 次的平均值.

表1 數據集信息Table 1 Information of data sets

為驗證算法的有效性,實驗采用準確率、噪聲過濾準確率(Noise filter accuracy,NfAcc)、查準率(Precision,Pre)、召回率(Recall,Re)、特異度(Specificity,Spec)和F1 值六種噪聲識別評價指標,分別定義如下:

式中,真實結果是正常且預測結果也是正常的樣本,為真正常(True positive,TP);真實結果是噪聲且預測結果是正常的樣本,為假正常(False positive,FP);真實結果是正常且預測結果是噪聲的樣本,為假噪聲(False negative,FN);真實結果和預測結果均是噪聲的樣本,為真噪聲(True negative,TN).在評價指標中,Acc、NfAcc、Pre、Re和F1 越高,表明算法的噪聲識別性能越好;S pec越高,表明噪聲過濾程度越高,但過高的Spec意味著算法可能存在過度清洗問題.

實驗設置10%、20%、30%、40%四種不同的噪聲比例,選用的六種對比過濾算法及參數設置分別為互近鄰過濾器(近鄰參數k設置為3)、多數投票過濾器(基分類器為1NN、C4.5 和樸素貝葉斯)、相對密度過濾器(近鄰參數k設置為5,過濾閾值rd設置為1)、完全隨機森林過濾器(隨機樹棵數Ntree設置為50,過濾閾值NI-threshold設置為5)、基于自適應投票策略的相對密度過濾器(近鄰參數k設置為5)和自適應完全隨機森林過濾器(隨機樹棵數Ntree設置為50).所有過濾算法還與不進行任何過濾(No filtering,NoF)的情況進行對比.

最后,在分類性能對比實驗中,測試所用的分類模型包括KNNC 模型、支持向量機分類模型、Adaboost 分類模型和隨機森林,分類模型的泛化性能用測試集上的分類準確率來度量.

3.2 基檢測器對比

本節實驗在Wine 數據集上,驗證基檢測器的多樣性,采用基于KNN 和LOF 的兩種ROF 過濾算法,分別使用ROF_KNN 和ROF_LOF 表示算法名稱.噪聲比例NR和過濾比率r均設置為20%.通過隨機鄰域嵌入降維技術,對數據集進行加噪和去噪的可視化結果如圖6 所示.其中,黑色邊框標記的樣本為未能正確識別出的噪聲樣本.ROF_KNN和ROF_LOF 都實現了良好的噪聲過濾效果.但兩個算法在噪聲檢測上并不完全相同.ROF_KNN未能過濾的部分噪聲樣本被ROF_LOF 成功過濾;反之,亦然.這表明,多種基檢測器間存在互補效應,結合多種基檢測器進行噪聲檢測和過濾可提高噪聲過濾的準確性和可靠性.因此,在后續實驗中,本文使用第1.2 節介紹的6 種基檢測器的組合,作為EROF 算法的默認基離群檢測器池.

圖6 Wine 數據集上,基檢測器噪聲過濾對比Fig.6 Comparison of base detector noise filtering on Wine

3.3 參數確定

本節實驗主要驗證過濾比率r對EROF 算法迭代過濾效果的影響.一般情況下,算法2 逐步迭代過濾的過程會使實際過濾噪聲的比率超過r,因此令r在[0,0.3]區間內,間隔0.01,連續取值,圖7為在部分數據集上,加入4 種不同比例的人工噪聲并用EROF 過濾后,準確率隨過濾比率r的變化圖,其中灰色帶寬為最優r值的集中區域.可以看出,當r值集中在[0.04,0.16]時,展現的過濾能力較為優秀;當r值過低時,過濾樣本數量較少,導致大部分噪聲仍未去除,準確率基本無變化;當r值超過0.15 后,由于迭代集成緣故,在過濾噪聲的過程中,可能去除過多的真實樣本,導致不同噪聲比例情況下的準確率都呈現下降趨勢.因此,在后續實驗中,本文使用r=0.1 作為EROF 算法的默認參數.

圖7 過濾比率 r 對過濾效果的影響Fig.7 Influence of filtering ratio r on filtering effect

3.4 UCI 實驗結果與分析

3.4.1 噪聲識別性能

圖8 給出了各算法在4 種噪聲比率下,各項指標的比較結果,該實驗結果取自各算法在20 個數據集上的平均值.

圖8 各算法噪聲識別性能指標比較Fig.8 Comparison for noise recognition performance indicators of each algorithm

由準確率和噪聲過濾準確率可以看出,當噪聲比例在10%~30%時,EROF 的噪聲識別能力較其他算法有顯著優勢;當噪聲比例增大至40%后,由于默認設置的r值達不到40%噪聲比例的最優r值,該優勢雖有所減弱,但最終結果仍優于其他算法.可以看出,基于分類預測的MVF 算法在高噪比例下,很難保持良好的過濾效果,這是分類模型本身的預測準確性無法保證導致的.

從特異度的角度分析,MNN 和Adp_mCRF算法更傾向于盡可能地將噪聲去除干凈,因此Spec表現較為良好.受聚類效果和迭代停止指標的不確定性影響,vRD 算法的Spec表現最差.EROF 是以提升分類模型泛化性能為最終目的,并不總將全部噪聲剔除,而是保留部分對模型影響較小的噪聲,該特性使其Spec表現相對偏低.

從查準率和召回率看,EROF 的召回率要遠高于其他算法,這是由于其盡可能地保留了真實樣本,也代表其誤刪真實樣本的情況很少發生.但EROF查準率的優勢不夠穩定,MNN 和Adp_mCRF 算法在查準率上更占優勢.因此,由Pre和Re兩項指標的調和平均F1 值來對比,更能體現算法的綜合性能.在10%~30% 的噪聲比例實驗中,EROF的F1 值穩定保持在0.9 左右,而其余算法的F1 值均接近或低于0.8.只有在40%噪聲比例下,EROF的F1 值才跌破0.8,這也是由于其在高噪情況下的保守過濾引起的.總之,EROF 的F1 值在不同噪聲比例的實驗中,都保持著穩定的優勢.

圖9 對比了不同噪聲比例下,7 種算法在20 個數據集中,各項指標最優次數的占比比例.在20%和30%噪聲比例實驗中,在除查準率和特異度外的其他評價指標上,EROF 都保持著巨大優勢.Adp_mCRF和MVF 算法的噪聲過濾準確率相較于其他算法更高,但仍無法超越EROF 在不同噪聲比例下的最優占比.

圖9 各算法噪聲識別性能指標的最優次數的占比比例Fig.9 Optimal frequency ratio for noise recognition performance indicators of each algorithm

3.4.2 分類模型泛化性能

表2 列出了不同噪聲比例下,用K近鄰分類模型(近鄰參數k設置為1)在各種算法過濾后的數據集上訓練,然后在無噪測試集上預測的分類準確率結果.當噪聲比例為10%時,EROF 在第2、3、11 號數據集上的分類準確率表現欠佳,在其余數據集上均為最優,由于噪聲比例偏低,各算法的分類準確率差距并不明顯.當噪聲比例為20%~30%時,EROF 在第1~10 號和第16~20 號數據集上的分類準確率均為最優.當噪聲比例達到40%后,EROF 的優勢略顯不足.總之,在所有數據集上,EROF 算法相比于次優算法的分類準確率平均提升了6.76%,最大提升了18.71%;相比于不過濾的分類準確率平均提升了12.36%,最大提升了55.88%,說明EROF 算法對K近鄰分類模型有著較好的增強效果.

表2 UCI 上,不同噪聲比例下的分類準確率Table 2 Classification accuracy with different noise ratios on UCI

圖10 給出了各分類模型分類準確率的臨界差異圖.臨界差異圖能夠顯示算法排名差異的顯著性,算法排名越小表示算法的分類準確率越高;算法排名之間的距離不超過臨界差異值的用橫線連接,代表算法間的差異不顯著.其中算法的平均排名是基于20 個數據集和4 種噪聲比例的分類準確率計算得出的.由圖10 可知,EROF 算法在4 種分類模型上都取得最優的分類準確率排名.其中,在SVM和RF 模型上,EROF 與Adp_mCRF 算法無顯著性差異;在其他模型上,EROF 算法相較其他算法,都有顯著性優勢.所有過濾算法均優于不進行任何過濾的效果,這印證了過濾算法能夠提升分類模型的泛化性能,而EROF 算法的提升效果最高.

3.4.3 算法效率

由于部分小規模數據集無法體現算法時間開銷差異,本文選取Isolet、Mushrooms 和Letter 三個代表性數據集進行實驗,各算法在這三個數據集上的時間開銷對比如圖11 所示.Adp_mCRF 在構建隨機樹時,需要隨機劃分特征進行數據孤立,導致其在高維數據上效率最低.EROF 算法在多分類任務中,需要根據類別重復劃分同質或異質樣本,并計算相對離群因子,因此在有26 個類別的Isolet和Letter 數據集上,時間開銷較其他算法更高.與昂貴的模型學習算法和超參數優化算法相比,優秀的噪聲過濾能顯著提升模型精度.EROF 算法在保證過濾效果的同時,相對合理地控制了時間開銷,因此,其時間開銷是可以接受的.

圖11 時間開銷對比Fig.11 Running time comparison

4 MNIST 數據集實驗

為進一步驗證本文算法對非隨機標簽噪聲識別和過濾的有效性,本節在MNIST 標準數據集上進行噪聲過濾實驗與相關分析.

4.1 實驗框架

MNIST 是一個被廣泛使用的手寫數字圖像數據集,由60 000 個用于訓練和10 000 個用于測試的28×28像素的灰度圖像組成.這些圖像表示從0到9 的手寫數字,每個數字大約有6 000 個圖像樣本.在MNIST 數據集中,某些數字之間的相似性很高,它們在書寫模糊的情況下,很難區分,可能會出現標簽噪聲的概率也更高.因此,本節實驗除了在訓練集上加入比例為10%的完全隨機噪聲外,還采用成對翻轉的噪聲轉移矩陣加入非隨機標簽噪聲[27],其中非常相似類的翻轉概率設置為30%.

實驗采用Adam 優化器,以0.001 的學習率迭代訓練神經網絡200 次,其中神經網絡具有2 個隱藏層,分別包含500 和300 個神經元,可用于處理784 維輸入,并進行10 個分類任務[37].通過10次隨機實驗,對不同算法的噪聲過濾效果進行對比,記錄6 種噪聲識別性能評估指標和測試集上的分類精度.

4.2 MNIST 實驗結果與分析

表3 列出了在MNIST 數據集上,7 種算法對非隨機噪聲的識別性能.其中,在Acc、NfAcc、Re和F1 值上,EROF 算法均表現出穩定優勢.盡管EROF 算法的S pec值偏低,但其優秀的NfAcc值表明它能精確地過濾掉數據中的噪聲樣本.此外,0.851 的Re值說明,EROF 算法在過濾時優先保留正確樣本,而不是進行無差別的過濾.這種噪聲過濾模式有助于神經網絡更好地學習數據的內在規律,從而提高模型的泛化性能.

表3 MNIST 上的噪聲識別性能Table 3 Noise recognition performance on MNIST

圖12 展示了經過不同算法過濾后,神經網絡模型在測試集上的分類準確率,其中陰影帶狀區域代表對應算法在10 次隨機實驗中的波動范圍.可以看出,除MVF 算法外,其他過濾算法在測試集上的分類準確率均顯著優于不進行任何過濾的效果.其中EROF、Adp_mCRF 和vRD 算法的準確率波動較小,說明高質量的訓練數據加速了神經網絡擬合新數據的過程.

圖12 不同算法過濾后的準確率Fig.12 Accuracy after filtering by different algorithms

圖13 給出不同過濾算法在最后10 次迭代的平均測試精度.在迭代末期,EROF 算法的平均測試精度達到了0.925,為所有算法中的最高值且隨機實驗對其導致的偏差幅度在所有算法中最小,表明EROF 算法具有優秀的精確性和穩定性.

圖13 MNIST 上,最后10 次迭代的平均測試精度Fig.13 Average accuracy over the last 10 epochs on MNIST

5 結束語

本文提出基于相對離群因子的集成過濾方法,利用基離群點檢測算法,為樣本提供標簽噪聲的概率評估,再依據此評估實現迭代集成過濾.與現有算法相比,該算法以提升分類準確率為最終目的,在保證數據信息盡量不丟失的同時,能更精確地過濾掉對分類模型影響較大的噪聲樣本;并且該算法通過集成多種互補的離群點檢測算法,保證了其優秀的魯棒性.在不同噪聲比例和類型下,該算法均表現出良好的過濾效果和對分類模型的提升能力.為解決分類任務中的類別型標簽噪聲過濾問題,提供一種新的思路.

由于過濾比率r和基離群點檢測模型對本文算法的過濾效果有一定影響,因此如何自適應設置過濾比率r和選擇用于集成的基離群點檢測模型,還有待進一步研究.此外,離群點檢測算法針對數值型標簽噪聲問題同樣有效,基于離群點檢測算法的相關噪聲學習方法在數值型標簽噪聲過濾和回歸模型優化問題上的應用,值得持續關注與探索.

猜你喜歡
離群標簽噪聲
噪聲可退化且依賴于狀態和分布的平均場博弈
無懼標簽 Alfa Romeo Giulia 200HP
不害怕撕掉標簽的人,都活出了真正的漂亮
控制噪聲有妙法
標簽化傷害了誰
離群數據挖掘在發現房產銷售潛在客戶中的應用
基于多進制查詢樹的多標簽識別方法
離群的小雞
一種基于白噪聲響應的隨機載荷譜識別方法
應用相似度測量的圖離群點檢測方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合