?

基于SVM融合學習的電子檔案資源自動化分類方法*

2022-11-28 09:28張君
自動化技術與應用 2022年10期
關鍵詞:類別準確率分類

張君

(南方電網數字電網研究院有限公司,廣東 廣州510000)

1 引言

檔案是記錄個人、公司、國家機關以及各類集團組織的重要文件,在生產、生活及社會活動中具有關鍵性的地位[1]。當前社會已經進入云計算時代,在這個背景下,檔案由傳統的紙質版本,轉變成電子版,當前大多數檔案均采用云存儲方式保管,形成存儲在數據庫中的電子檔案,以此保障檔案資源調取的便捷性、靈活性和全面性[2]。然而,根據檔案的形式、性質、載體、所有制等,可以將檔案分為多種類別,在存儲電子檔案時,卻存在檔案類別不清晰的問題,影響檔案收錄[3]。因此,電子檔案資源分類已成為時下研究熱點問題。

國內外都十分重視檔案資源,針對檔案資源管理模式和基礎理論,進行了多方面的研究。然而,針對近期才發現的電子檔案資源分類存在的問題,研究成果相對薄弱,缺乏系統的電子檔案資源分類研究[4]?;诖?,文獻[5]將城市軌道交通建設項目檔案作為研究對象,根據相關規范,設計檔案資源分類方法,并與目前機構使用方法進行對比,驗證設計方法的可行性,但該方法分類精度較低。文獻[6]根據檔案數據語義,分析檔案內容,實現檔案的全自動分類,但該方法受算法訓練次數影響,分類精度偏低。文獻[7]提出基于泊松分布的特征加權NB 文本分類算法。結合泊松分布模型和NB算法,將泊松隨機變量引入特征詞權重,在此基礎上定義信息增益率對文本特征詞加權,完成檔案資源分類。但該方法難以劃分檔案資源非線性特征,導致檔案資源分類精度低。

針對這一問題,此次研究采用SVM 融合學習技術,提高電子檔案資源分類精度,提出基于SVM融合學習的電子檔案資源自動化分類。

2 基于SVM融合學習的電子檔案資源自動化分類

2.1 采集電子檔案資源

電子檔案資源分布較廣,需要采集所有檔案資源,形成完整的檔案資源集,為此,將已標記的檔案資源集,記為X1={(x1,y1),…,(xn,yn)},其中,yi表示第i個檔案資源數據的標記,構建檔案資源標記矩陣R,則有:

式(1)中,κ表示矩陣的特征值;p表示矩陣第j行檔案資源節點vj標記概率。

如式(1)所示的檔案資源標記矩陣[8],當R=0時,檔案資源節點表示不完整檔案資源,反之,R=1。此時,將檔案資源標記矩陣R,作為采集少數檔案資源數據邊界的一個標記。

根據式(1)所示的標記矩陣R,將零散的檔案資源,分為標記的少數檔案資源R1和未標記的少數檔案資源R2兩種,從R2中尋找對應的標記樣本的近鄰樣本,來合成完整的檔案資源集,則檔案數據資源邊的權重lij計算公式為:

式(2)中,k表示以歐幾里德距離為標準,尋找與標記的檔案資源樣本集[9],近鄰連接檔案資源;xi、xj表示相鄰的檔案資源,且成立。

根據式(2)所示的計算過程,將檔案資源中的未標記資源記為X2={(xl+1,yl+1),…,(xl+m,yl+m)},其中,l表示檔案資源采集邊界,m表示未標記檔案資源數量。按照上述過程,找到的檔案資源,多位于檔案資源標記矩陣R的附近。因此,將采集到的檔案資源,與原檔案資源集相結合,形成完整檔案資源集X。

2.2 電子檔案資源特征提取和選擇

依據此次研究,采集到的檔案資源集X,通過特征提取和選擇的方式,對檔案資源進行降維處理。假設,檔案資源集X,具有的資源特征集為A={a1,a2,…,aN},其中,N表示檔案資源集所具有的特征總數。由于檔案資源集中,具有N個資源特征,一一提取每一個特征,所需計算量過大[10],因此,只能選擇檔案資源中的最優特征來提取,則檔案資源特征選擇的過程如圖1所示。

圖2中,獲取到的檔案資源最優特征子集為A1={a1,a2,…,aM},且

在圖2的檔案資源特征選擇[11]過程,選擇到的檔案資源特征進行提取,其檔案資源特征提取過程如圖2所示。

圖2中,newaM表示檔案資源中的最優特征子集,其中,M表示最優特征子集個數,且M<N,ai≠newa,i=1,2,…,N,j=1,2,…,M。

依據上述的檔案資源特征選擇和提取過程,存在一定的不相關、冗余等檔案資源特征屬性,針對這些屬性,進行刪除處理,來降低自動化分類電子檔案資源計算量。

2.3 基于SVM融合學習自動化分類電子檔案資源

對于本次研究待提取和分類的檔案資源特征,采用SVM融合學習技術,構建SVM融合學習分類器,自動化分類電子檔案資源。SVM融合學習技術分類原理如圖3所示。

圖3中,分割點連接線,為電子檔案資源,距離檔案資源分割線L距離最近的兩個點的連接線,將其分別記為L1和L2,則分割線與兩條分割點連接線,存在平行關系。如圖3所示,依據SVM 融合學習自動分類電子檔案資源原理,按照該融合學習理論的風險最小化求解模型,讓電子檔案資源根據其特征,準確在分割線作用下,分割成兩類電子檔案資源,且在分割的過程中,還需保證被分割的電子檔案資源具有足夠的距離,形成最優分類面,則需要計算SVM分類器最優超平面。

假設,此次研究,采集到的電子檔案資源數據集X,屬于d維空間數據,在SVM分類器中,自動化分類電子檔案資源的線性判別函數f(x)為:

式(3)中,w表示分類間隔;c表示截距[12]。當wx+c=0 成立時,則wx+c=0為電子檔案類別之間的分界面表達式。

根據式(3)所示的電子檔案資源劃分線性判別函數f(x),需要滿足(4)式所示的表達式,才能促使電子檔案資源分類正確,其表達式如下式所示:

式(4)中,T表示矩陣轉置[13]。依據式(3)和式(4),可以將電子檔案資源劃分在兩個平面中,此時,需要讓劃分成兩部分的電子檔案資源中間,具有較大的分類間隔,即取的最小值:

式(6)中,sgn表示取整數值;x表示未分類電子檔案資源。如式(6)所示的SVM融合學習分類器,只可以分類線性電子檔案資源。為了分類電子檔案資源中存在的非線性特征,在式(6)中,引入核函數Φ,將非線性特征分類,轉化為線性特征分類,則核函數Φ的轉化運算過程如下式所示:

式(7)中,υ表示核函數Φ將非線性特征分類,轉化為線性特征分類運算符號。聯立式(6)和式(7),最終得到的SVM融合學習分類器[15](x)為:

采用式(8)所示的SVM融合學習分類器,即可根據此次研究,選擇提取的電子檔案特征,將電子檔案分成不同的類別。

此次研究將數據庫中的電子檔案資源整合成檔案資源集,從檔案資源集中選擇提取電子檔案資源重點特征,根據選擇提取的電子檔案特征,采用此次研究構建的分類器,自動化分類電子檔案資源。

3 實驗分析

選擇文獻[6]和文獻[7]方法作為實驗的對照組,與所提方法的實驗結果進行對比。將某數據庫中的電子檔案資源,作為此次實驗研究對象。比較三組方法的劃分電子檔案資源精度、召回率以及F1值。

3.1 實驗準備

此次實驗選擇的電子檔案資源數據集,共包含810個數據,其數據類別為9類,每個類別所包含的數據個數,如圖4所示。

在如圖4所示的檔案資源類別分布基礎上,選擇當前分類通用評價標準--準確率、召回率、F1 值三個評價指標,評價此次實驗選擇的三組分類方法,分類圖4所示的電子檔案資源精度。其準確率、召回率、精確度三個評價指標的分類評價指標定義,如表1所示。

表1 分類評價指標定義

根據表1所示的分類評價指標定義,其準確率、召回率、精確度的參數公式,如下式所示:

采用式(9)所示的分類性能指標計算公式,計算此次實驗選擇三組分類方法,分類電子檔案資源810個數據的準確率、召回率、精確度,其實驗結果如下。

3.2 實驗結果

3.2.1 第一組實驗結果

根據此次實驗選擇的810個電子檔案資源數據,采用三組分類方法,分別劃分810 個電子檔案資源類別,計算三組分類方法,類別劃分準確率,其實驗結果如圖5所示。

從圖5中可以看出,三組分類方法,分別將此次實驗選擇的810 個電子檔案數據進行分類處理,其分類準確率,受每個類別所具有的檔案數據個數影響,每個類別中,檔案數據個數越少,電子檔案資源分類準確率越高。其中,兩組目前方法,劃分810 個電子檔案數據類別準確率相近,其平均準確率分別為79%和77.5%;研究方法劃分810個電子檔案數據類別,平均準確率為88.75%,較兩組目前方法分別高9.75%和11.25%??梢?,此次研究的分類方法,具有較高的分類精度。

3.2.2 第二組實驗結果

在第一組實驗基礎上,計算三組分類方法,類別劃分召回率,其實驗結果如圖6所示。

從圖6中可以看出,三組分類方法,分別將此次實驗選擇的810 個電子檔案數據進行分類處理,其分類召回率,受每個類別所具有的檔案數據個數影響,每個類別中,檔案數據個數越多,電子檔案資源分類準確率越高。其中,兩組目前方法,劃分810 個電子檔案數據類別召回率相近,其平均召回率分別為79.75%和79%;研究方法劃分810個電子檔案數據類別,平均召回率為89.95%,較兩組目前方法分別高10.2%和10.95%??梢?,此次研究的分類方法,具有較高的分類精度。

3.2.3 第三組實驗結果

在前兩組實驗基礎上,計算三組分類方法的類別劃分F1值。F1值是對分類的準確率和精確度的調和值,其評價結果具有較高的客觀性和準確性。其實驗結果如圖7所示。

從圖7中可以看出,三組分類方法,分別將此次實驗選擇的810 個電子檔案數據進行分類處理,得到的F1 值同樣受每個類別所具有的檔案數據個數影響,上下差值較大。其中,兩組目前方法,劃分810 個電子檔案數據類別F1值相近,其F1值的平均值分別為81.95%和81%;研究方法劃分810 個電子檔案數據類別,F1 值的平均值為91%,較兩組目前方法分別高9.05%和10%??梢?,此次研究的分類方法,具有較高的分類精度。

4 結束語

綜上所述,此次研究采用SVM 融合學習技術,構建自動化分類器,實現電子檔案資源自動化分類。采用通用分類方法驗證方式驗證,此次研究的電子檔案資源自動化分類,劃分電子檔案資源類別,具有較高的分類精度。

猜你喜歡
類別準確率分類
論陶瓷刻劃花藝術類別與特征
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
頸椎病患者使用X線平片和CT影像診斷的臨床準確率比照觀察
一起去圖書館吧
按需分類
教你一招:數的分類
說說分類那些事
給塑料分分類吧
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合