?

集成數據預處理技術及其在機器學習算法中的應用

2023-12-13 15:35郭旗
科技與創新 2023年23期
關鍵詞:特征選擇數據量預處理

郭旗

(首都經濟貿易大學管理工程學院,北京 100070)

隨著計算機技術和人工智能的飛速發展,各個領域的數據激增,數據量呈現出爆炸性增長的趨勢。這種快速增長的數據量對于計算機技術的發展提出了嚴峻的挑戰,同時也為數據科學家和工程師們提供了更多的機遇和挑戰。為了更好地利用這些數據,需要不斷地開發新的技術和算法,以便從這些龐大的數據集中提取出有價值的信息和見解。但是目前所接觸的數據存在著信息量大、信息冗余、價值隱性等特點,為后續機器學習建模帶來了不少困擾?;谄浣y計特性[1],數據預處理方法在提升模型性能方面發揮著重要作用,特別是在大數據的背景下。更重要的是,處理大數據的過程中,應該關注數據處理的各個方面,包括噪聲數據的處理、類別不平衡數據的處理及特征選擇方法等,從多層次出發全方位地關注整個數據預處理過程,并不斷優化數據處理的各個部分,使其適應多種數據集的需要。

中國已成為全球最大的互聯網市場,這些數據在加速推動著中國的數字經濟和人工智能技術的發展,并且正在對全球的計算機科學和數據分析領域產生著深遠的影響。特別是2022 年習近平總書記在黨的二十大上所做的報告中提出了建設數字中國的戰略目標,包括加快數字基礎設施建設、加強數據資源保護、推動數字經濟發展等?;诖?,本文從數據預處理的角度出發,結合其在機器學習算法中的應用,探討數據預處理技術的重要性。

1 數據預處理技術的研究現狀

為了給機器學習模型輸入整齊、有用的數據,整個數據預處理的過程包含數據清洗過程、類別不平衡數據處理過程、特征選擇過程等方面。

1.1 數據清洗

在數據清洗過程中,重復值、缺失值、噪聲數據的處理構成了3 個重要的方面,具體如下:①重復值的處理。對于數據集中出現的重復值,如重復訂單、重復客戶信息、重復出行數據等,可以對重復值進行去重處理[2],采用保留其在數據集中唯一值的方法進行數據預處理。②缺失值的處理。對于缺失值,目前有2 種處理方法。一種方法是對無用數據的缺失而言,且缺失數據占總數據量比例較少,在確保刪除缺失值對于分析結果沒有影響的前提下,往往采用刪除的方式對數據集進行處理;另一種方法是對缺失數據進行填充,在缺失數據量較高或者數據價值較高的情況下,選擇某種替代值對缺失數據進行填充,能夠在很大程度上對原有數據進行還原。③噪聲數據的處理。由于數據集中的噪聲數據與其他數據間存在較大的偏差,為此要以某種標準對這些噪聲數據進行剔除處理[3]。一般來說,通過使用基于統計的異常值檢測方法,如計算數據的平均數和標準差,可以有效地檢測出離群值。

1.2 類別不平衡數據處理

對于類別不平衡數據的處理,一般采用某種采樣方法增加數據集中少數類實例或者減少多數類實例已達到數據集中不同類別數據的相對平衡。過采樣方法是類別不平衡數據預處理技術中最常用的方法,通過按照某種標準增加新的少數類實例以達到類間相對平衡的效果,從而實現原始偏態數據的再平衡[4];欠采樣方法則相反,是通過刪除多數類實例的數目來達到類間分布的平衡。大多數人使用過采樣方法,因為欠采樣方法容易丟失重要的樣本信息且其分類結果不穩定。然而,一些研究人員通過改進和調整欠采樣方法,仍然能夠獲得良好的分類結果[5]。

1.3 特征選擇方法

高維度的數據集為分類預測任務增加了難度,當將維度過多的數據輸入到機器模型算法中進行學習和預測時,分類器無法對其中的特征進行有效處理。因此,特征選擇方法的運用在數據預處理過程中很有必要,其目標是選擇更多相關的特征。

特征選擇研究于20 世紀60 年代初就已經開始,當時的研究主要集中于統計學方面的問題,而且由于數據量較少,涉及的特征也較少。20 世紀90 年代以來,隨著數據量的膨脹和機器學習模型的發展與應用,迫切需要一個綜合性能較好的特征選擇算法。文獻[6]將特征選擇方法和遺傳算法進行結合,并將其應用于短時強降水和非強降水預報中,發現特征選擇方法能夠將預測準確率分別提升8.66%和1.05%。

2 集成數據預處理技術

2.1 數據清洗

本文選擇刪除空缺值和重復值、去除偏離平均值3 倍標準差以上數據的方法來對數據進行清洗。

2.2 類別不平衡數據的處理

過采樣和欠采樣是不平衡數據預處理的2 種主要方法。其中過采樣(Synthetic Minority Oversampling Technique,SMOTE)算法[7]的思想是分析少數類樣本,根據少數類樣本人工合成新樣本,并將其添加到數據集中。

假設:首先,對于少數類中的每個樣本x,使用歐幾里得距離來計算從它到少數類樣本集中所有樣本的距離,并得到它的k個最近鄰居;然后,根據樣本不平衡率來確定采樣率N,對于每個少數類樣本x,從其k個最近鄰居中隨機選擇n個樣本;最后,根據等式xnew=x+rand(0,1)×(x-xn),在原始樣本之間及其n個鄰居之間進行插值生成n個新的合成樣本而基于聚類的欠采樣(Cluster Under-Sampling,CUS)[8]從原始數據集中分離出多數類和少數類,并使用k均值聚類算法將多數類實例聚類為k個聚類。此后,通過隨機選擇大多數樣本的1/n并去除其余樣本集,對每個創建的聚類進行隨機欠采樣。由于在采樣之前使用聚類,理論上該算法將消除由于隨機欠采樣而導致的顯著數據減少的一些影響。

欠采樣技術的基本思想是刪除部分多數類樣本,因此會造成分類信息的丟失;而過采樣技術通過增加少數類樣本的數量,保留甚至增加了少數類的分布信息。因此,使用過采樣和欠采樣結合的手段來重新調整數據集間不同類別之間的樣本分布。

2.3 特征選擇方法

在輸入空間里,過多的輸入特征會導致整個模型的冗余,刪除冗余的特征將有助于減少計算成本并提升模型的準確性,也將有助于避免模型的過擬合。此外,更緊湊的指標可以幫助研究者關注更重要的指標,并持續跟蹤重要指標后續的預測性能。本文采用基于特征權重的啟發式搜索方法RFE(Recursive Feature Elimination,遞歸特征消除),啟發式搜索是利用啟發式信息不斷縮小搜索空間的方法。在特征選擇中,特征權重可作為啟發式信息。該算法的思想是進行多輪訓練,每輪訓練后,消除若干低權值(例特征權重系數或者特征重要性)的特征,再基于新的特征集進行下一輪訓練,一直迭代到保留需要數量的特征為止。

2.4 集成數據預處理技術

將上述3 種方法集成起來,提出基于集成的數據預處理技術,不僅能夠多維度進行數據預處理,克服多方面數據集本身存在的弊端;還可以結合各自方法的優勢,將數據預處理的能力發揮到最大。

3 實證研究

3.1 數據選擇與模型構建

在UCⅠ數據庫中選取了3 個數據集,如表1 所示。選擇決策樹、支持向量機和神經網絡這3 種機器模型以驗證所提出的數據預處理方法的有效性。

表1 3 個UCI 數據集

按照7∶3 的比例劃分為訓練集和測試集。首先用訓練集訓練3 個機器學習模型,迭代30 次從而得到最優參數;然后再用測試集驗證模型的準確性。所使用的模型評價指標包括召回率、準確率和AUC(Area Under Curve,ROC 曲線下與坐標軸圍成的面積)值。ROC(Receiver Operating Characteristic,受試者工作特征)曲線被稱為接受者操作特征曲線,可以用來評估分類算法的性能;AUC 值用于衡量分類模型的性能。AUC 的值介于0~1 之間,越接近1 表示模型的性能越好,越接近0.5 表示模型的隨機猜測性能,而越接近0 表示模型的性能越差。

3.2 實證結果

本文提出的基于集成的數據預處理方法下的3 種機器學習模型的實證結果如表2 所示,其中符號“&”前后的數字分別表示數據預處理前后的指標得分。從實證結果可以看出,無論是決策樹、支持向量機還是神經網絡,雖然在數據預處理之前就已經達到了很高的預測效能,均在85%以上,但是采用本文提出的基于集成的數據預處理技術之后,每一個機器學習模型的預測性能又更上一層樓,分別提升0.8%~4.7%,這表明了基于集成的數據預處理技術對于提高機器學習算法性能的有效性。從3 個算法來看,支持向量機在3 項指標上均表現出最優秀的性能,其次是神經網絡,然后是決策樹。

4 結論

本文提出了一種基于集成的數據預處理技術,將數據清洗、類別不平衡數據處理、特征選擇3 個階段集成到一起,并將其在決策樹、支持向量機、神經網絡這3 種機器學習算法上進行應用。通過UCⅠ數據庫的3 個數據集(splice_scale、ala 和DRD)的實證分析結果可以看出,在經過數據預處理之后,無論是哪個機器學習模型,都不同程度地提升了模型的預測性能,最高將預測準確率提升了3.5%。這樣的結果也證明了在大數據時代數據預處理方法作為數據分析、建模的首要部分,在整個過程中的重要性。

猜你喜歡
特征選擇數據量預處理
基于大數據量的初至層析成像算法優化
計算Lyapunov指數的模糊C均值聚類小數據量法
高刷新率不容易顯示器需求與接口標準帶寬
寬帶信號采集與大數據量傳輸系統設計與研究
基于預處理MUSIC算法的分布式陣列DOA估計
Kmeans 應用與特征選擇
淺談PLC在預處理生產線自動化改造中的應用
聯合互信息水下目標特征選擇算法
絡合萃取法預處理H酸廢水
基于自適應預處理的改進CPF-GMRES算法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合