?

基于決策樹特征選擇的電子檔案資源數字化共享方法*

2022-11-28 09:28丹,劉
自動化技術與應用 2022年10期
關鍵詞:公鑰數據量決策樹

張 丹,劉 歡

(1.中國南方電網有限責任公司,廣東 廣州 510000;2.南方電網數字電網研究院有限公司,廣東 廣州 510000)

1 引言

電子檔案在數據傳遞的過程易出現泄露、被竊取等問題,數據的隱私安全亟待解決[1]。但是,電子檔案資源屬于海量數據信息,其分類處理難度較大,電子檔案數據的共享安全問題也成為了當下的難點。本文就電子檔案資源的數字化共享進行了相應的探究,設計提高數據傳輸過程中的隱私防護能力。

文獻[2]基于Spark MLlib中決策樹算法設計了電子檔案數據隱私的保護,通過云計算提升了數據挖掘的性能,并對適用于傳輸方與接收方的設備進行了切分與標注,使同態加密算法與電子檔案相結合。然而這種數據共享方法由于過度降低數據的噪聲,會給數據的可用性帶來不可預估的影響。文獻[3]通過一種基于標簽相關度的Relief 特征選擇算法進行了一個邊緣智能計算的共享優化,分析無線網絡中的電子資源共享壁壘,實現了網絡資源的集中分配,提高了傳輸與共享的效率與安全性。但是這種方法依賴于服務器的性能,在應用性較差的服務器中無法得到更好的效果。文獻[4]基于區塊鏈技術設計了接收方與傳輸方的權限,并利用協議使得這種共享渠道能夠被控制。這種方法雖然提高了電子檔案的安全,保護了數據的隱私,但是卻需要在系統建立過程中增添不必要的消費,不適合大多數的電子檔案保存機構。為了得到廉價、高性能、效率更高的電子檔案資源數字化共享方法,本文基于決策樹特征選擇對以上文獻中的算法進行了優化,提出了以下方法。

2 電子檔案資源數字化共享方法

2.1 公共信息安全密鑰轉換

為保證電子檔案在共享過程中的安全與隱私,需要在傳輸之前將其加密,建立公共信息的安全密鑰。首先設定一個安全的信息參數ha,將該參數與大素數ka相結合,并共同建立二者共同的屬性集合[5]。

式(1)中,Ut表示安全參數與大素數相結合后產生的屬性集合循環映射總結構;xta1表示被選中屬性單元的前一個單元;xta2表示屬性集合中被選中的屬性單元;xta3表示被選中屬性單元的后一個單元[6]。此時就形成了集合中的屬性群組,此時的全局安全公鑰也應被設定在屬性群組中,以便數據中轉的云中心對任意一個公鑰進行加密[7]。此時安全公鑰的輸出結構為:

式(2)中,Gxag可以表示任意一個安全公鑰中的屬性單元;G1ag表示安全公鑰中的第一個屬性單元,同理Gnag表示安全公鑰中的最后一個屬性單元。每一個安全公鑰可以生成自身的安全私鑰,由算法進行用戶身份的判定,并提供一個隨機數,作為私鑰的生成屬性,其結構為:

式(3)中,Gxag表示安全公鑰中的任意一個輸出單元;δi表示在進行身份判定時需要由用戶提供驗證碼的隨機數;表示得到的私鑰結構[8]。得到的私鑰可以當作一種被隱秘執行數據傳輸行為的密文,在公鑰Gxag的訪問中以明文生成隨機向量,并在轉換成密文后計算線性密文的結構:

2.2 電子檔案決策樹分類編碼提取

為了保證電子檔案信息的安全,使用上文中的方法將所有信息全部轉換成密文形式,此時想要及時準確地將需要的數據傳輸給接收方,就需要構建一個電子檔案的分類標準,對其進行區域劃分。首先構建一個以電子檔案為中心的決策樹,這個決策樹需要將所有被收集的樣本完全舉例,然后計算其中重疊的部分,并通過數學方法判斷決策分類的誤差。假設樣本集合的個數為xi,訓練樣本為xi={x1,x2,…,xn},其中xi表示n個訓練樣本中的任意一個數值[10]。在樣本中有特征值為ζi,每一個樣本都有一個特征值,則特征值的集合可以表示為ζi={ζ1,ζ2,…,ζn},ζi表示特征值中的任意一個樣本特征。在檔案資源的特征分類中,通常有三種類別,可以通過決策樹建立如圖1所示的分類依據。

在每一個信息增益的節點,都會有一個特征對其進行總結,此時的電子檔案樣本分類期望為:

式(5)中,Esn表示電子檔案資源數字化的決策樹自動分類期望;Pi表示任意樣本被分類為類別i 的概率[11-12]。當子集的離散值為Sx時,其在值域Y中劃分的熵值可以表示為:

式(6)中,Exf表示當子集的離散值為Sx時,值域Y劃分的熵值;x1f表示第一個子集樣本的離散分值,同理xnf表示第n個子集樣本的離散分值;xn表示子集樣本的個數。此時的特征分類中,電子檔案信息A的信息增益可以表示為:

式(7)中,TA表示電子檔案A 的劃分類別,Esn表示決策樹分類的第一個屬性編碼;Exf表示決策樹分類的第二個屬性編碼[13-14]。綜合以上兩個屬性編碼,就能夠得到該電子檔案在決策樹中的具體分類位置。

2.3 公共密鑰解密參數計算

在得到了上文設計的電子檔案決策樹分類編碼之后,就可以將中央處理器云端中的數據傳遞到接收設備中,此時需要進行公共密鑰的解碼工作。想要解碼,就要根據上文中公共密鑰的加密操作計算相應的解碼參數。假設發送方受到的隨機數為xi,其發送方的身份ID為Ix,接收方的身份ID為Iy,則可以得到解碼工作的收獲因子為:

式(10)中,Txu表示接收方Iy在解密私鑰構件時得到的明文數據;b2xj表示該私鑰構件在決策樹分類編碼中的具體位置;U-μ表示權值屬性。如果Txu能夠被成功解譯,則表明以上步驟共享成功;若Txu不能被成功解譯,則表明共享失敗。

3 實驗研究

3.1 實驗準備

在得到上文中設計的電子檔案數字化共享方法之后,還需要進行測試與檢驗,以便觀察該共享方法的性能。在此過程中,將該共享方法與常規的三種方法相對比。將計算機設備分為用戶終端與數據云端,其中用戶終端用于接收電子檔案共享信息,數據云端用于提供共享資源[17]。由一臺服務器作為電子檔案資源的發送方,經過數據加密后,轉移至中央處理器的云平臺,該平臺是所有電子檔案的共享中心。電子檔案的接收方通過這個共享中心接收數據,經過數據解密處理后,收到相關檔案信息。如果電子檔案沒有通過中央處理器接收數據,而是直接由數據發送方轉移至數據接收方,就很容易被另外的惡意對象入侵,并竊取數據信息。本次實驗主要對四種數據共享方法的隱私保護能力進行測試,通過檔案信息轉移的敏感度計算算法的效能。

式(11)中,ηb表示算法對數據共享的保護能力量化結果,通常以百分數的形式表示;Bn表示檔案信息的敏感類別閾值;ai表示第i個經過轉移的電子檔案的頻數效率;bi表示完成電子檔案轉移的第i 個頻數估計效率。在這個百分比的計算中,ηb的值越大,其結果越差,ηb的值越小,則表明分布估計越貼近理想數據,其結果越好。本文綜合以上計算,對四種數據共享方法進行測試。

3.2 檔案隱私保護性能測試

為了檢測不同數據量電子檔案的數據轉移敏感度,構建三個數據庫,其中數據庫A的電子檔案數據量為10MB,數據庫B 的電子檔案數據量為100MB,數據庫C 的電子檔案數據量為1 000MB。下文的實驗測試結果,主要是對數據共享過程中四種方法保護檔案內容能力的概述,將文中設計的方法作為實驗組,將常規的三種檔案共享方法作為對照組分別為文獻[2]提出的基于Spark MLlib的電子檔案資源共享方法、文獻[3]提出的基于標簽相關度的電子檔案資源共享方法以及文獻[4]提出的基于區塊鏈技術的電子檔案資源共享方法,得到實驗結果如圖2所示。

在圖2中,被圓形覆蓋的曲線表示電子檔案數據量為10MB時的數據轉移敏感度,被叉號覆蓋的曲線表示電子檔案數據量為100MB 時的數據轉移敏感度,被三角形覆蓋的曲線表示電子檔案數據量為1 000MB時的數據轉移敏感度。根據四幅圖像可知,隨著檔案傳輸總量的增加,各曲線都在呈不同程度的上升趨勢,且數據量越大,數據轉移敏感度越高。其中實驗組在整個檔案傳輸總量由0~100%的過程中,數據轉移敏感度最低。為了得到更準確的數據,重復進行上述實驗操作,反復10次,得到如表1所示的實驗結果,再通過計算平均值的方式使實驗結果排除偶然數據的干擾。

表1 數據結果

如表1所示,實驗組在共享10MB、100MB、1 000MB數據檔案的過程中,其數據轉移敏感度平均值分別為16.55、20.45、28.45。對照組1在共享三類不同數據量的電子檔案過程中,其數據轉移敏感度平均值分別為21.45、25.6、38.9。對照組2在共享三類不同數據量的電子檔案過程中,其數據轉移敏感度平均值分別為21.1、34.15、42。對照組3在共享三類不同數據量的電子檔案過程中,其數據轉移敏感度平均值分別為19.3、29.85、45.45。在四種算法中,只有實驗組的數據轉移敏感度最低,因此可知:實驗組中基于決策樹自動特征選擇的電子檔案資源數字化共享方法擁有更好的數據隱私保護能力,在數據轉移過程中,不易被竊取檔案信息。而對照組的三種方法在此方面的性能均低于本文中設計的共享方法。

4 結束語

為使得電子檔案的資源能夠在被嚴格保密的同時加強流通性,需要設計更具應用價值的數據共享方法,使數據在被第三方云平臺傳遞時能夠不被惡意程序盜用。本文圍繞決策樹特征選擇進行了密鑰的分類標準,并將其應用在檔案的傳輸中,加強了電子檔案的保密效果,提高了數據共享的安全性。

猜你喜歡
公鑰數據量決策樹
基于大數據量的初至層析成像算法優化
高刷新率不容易顯示器需求與接口標準帶寬
簡述一種基于C4.5的隨機決策樹集成分類算法設計
神奇的公鑰密碼
國密SM2密碼算法的C語言實現
基于身份的聚合簽名體制研究
決策樹學習的剪枝方法
電力營銷數據分析中的數據集成技術研究
決策樹在施工項目管理中的應用
固定資產管理系統對物流管理的促進和發展
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合