?

基于深度學習的基層網絡數據個性化挖掘算法

2022-03-01 01:03彭吉瓊鄧倫丹
計算機仿真 2022年1期
關鍵詞:權值神經網絡精度

熊 蕾,彭吉瓊,李 銘,鄧倫丹

(1. 江西科技學院信息工程學院,江西 南昌 330098;2. 南昌大學科學技術學院,江西 共青城 332020)

1 引言

在數據庫技術與計算機網絡技術水平的持續升高的進程中,各種基層網絡平臺層出不窮,已然成為人們生活工作中不可缺少的一部分[1]。在各類基層網絡的使用過程中,用戶的各種數據均在基層網絡內聚集,為更加有效地運用互聯網空間內基層網絡數據資源,擴大基層網絡數據資源的應用范圍,需對基層網絡數據實施有效的挖掘[2-3]。怎樣由海量的基層網絡數據內容獲取到所需數據,成為當前眾多學者研究的重點課題。

以往所應用的數據挖掘方法中,大多通過資源檢索各類基層網絡數據資源的方式,運用數據封裝類型實施邏輯歸類區分,再經各自的數據挖掘算法實施數據挖掘。經過分析眾多基層網絡數據挖掘結果發現,以往的基層網絡數據挖掘方法所運用的數據挖掘邏輯算法大多缺少邏輯序列,在挖掘數據節點集合序列存在數列耦合性排序時,會導致此類算法邏輯發生數據挖掘效率下降、數據回流及數據溢出等問題,造成最終的基層網絡數據挖掘精度與效率的降低[4]。為有效提升數據挖掘精度與效率,很多學者做出了相關研究。其中基于貝葉斯網絡的挖掘算法在一定程度上優化了以往的數據挖掘算法,通過貝葉斯算法構建三層挖掘平臺實施數據挖掘,該算法挖掘精度高,但挖掘效率稍低[5];基于機器學習的數據挖掘算法是通過借助現代人工智能與各類數學模型,實現數據挖掘的目的,該算法具有較高的數據挖掘效率,但挖掘精度不夠穩定[6]。

深度學習屬于一種多層次的學習方法,其代表之一即為神經網絡。神經網絡可通過模擬人腦內部構造,模擬人腦的并行處理與自組織能力實施模擬推理與深度自主學習等,它無需依賴對象的數學模型,可通過深度自主學習以權值的方式對輸入和輸出實施編碼,實現輸入與輸出的關聯,具有較好的聯想記憶能力及概括能力,其魯棒性與精度較高令其在數據挖掘問題中具有較大的優勢[7-8]。模糊神經網絡(Fuzzy Neural Network,FNN)是通過有機結合神經網絡與模糊邏輯,令其既具備模糊邏輯的不準確信息處理能力,而且具備神經網絡的自學習能力,較普通神經網絡其學習速度更高且規模更小[9]。

綜合以上分析,本文研究一種基于深度學習的基層網絡數據個性化挖掘算法,通過構建5層模糊神經網絡并實施自主學習訓練與裁剪后,提取出模糊神經網絡規則,運用此規則實現基層網絡數據個性化挖掘,為有效運用基層網絡數據、擴大基層網絡數據的應用范圍提供幫助。

2 基于深度學習的基層網絡數據個性化挖掘算法研究

2.1 挖掘算法整體過程設計

基于模糊神經網絡的基層網絡數據個性化挖掘算法的過程包括數據準備階段、模糊神經網絡構建與訓練階段、網絡裁剪與規則提取階段,如圖1所示。

圖1 基于模糊神經網絡的基層網絡數據個性化挖掘算法過程圖

2.2 數據準備階段

數據準備階段屬于基層網絡數據個性化挖掘算法的基礎階段,為實施基層網絡數據個性化挖掘提供數據準備。該階段主要由數據清洗、數據選取及數據表示構成,其主要目的是實現對待挖掘數據的定義、處理及表示,令其可適用于所應用的數據挖掘算法。數據準備階段功能結構圖如圖2所示。

圖2 數據準備階段功能結構圖

各部分具體功能如下:

1)數據清洗部分:由于基層網絡內的數據來源不同,導致此類數據中難免存在某些精確度低、不完整、重復及不一致等數據,需經數據清洗對此類數據實施空缺值填充、不一致數據糾正以及去噪等處理[10],其中去噪處理選取小波非線性濾波方法實現。

2)數據選取部分:通過在兩個維上對用于此次挖掘的基層網絡數據列與行實時選取,分別為列或參數維的選取、行或記錄維的選取。

3)數據表示部分:該部分的主要任務為轉化經過清洗與選取的數據為模糊神經網絡數據挖掘算法能夠接受的形式。因模糊神經網絡數據挖掘算法能夠處理的為數值數據,故此部分應轉化符號數據為數值數據??蛇\用恰當的Hash函數,以給定的字符串為依據將某個唯一的數值數據形成。雖然基層網絡內所存在的數據類別較多,但此類數據幾乎均可歸為連續數值數據、離散數值數據及符號數據三種邏輯數據類別。此三類數據之間的轉化關系如圖3所示。

圖3 數據表示與轉化

通過符號“Apple”部分運用Hash函數轉化符號數據為其相對的離散數值數據,此時的離散數值數據不但能夠編碼為編碼數據,也能夠量化為連續數值數據。

經過數據準備階段對待挖掘基層網絡數據實施清洗、選取及表示后,獲取到可適用于模糊神經網絡挖掘算法的精確完整統一的基層網絡數據,為提升整體挖掘精度奠定基礎。

2.3 模糊神經網絡構建與訓練階段

2.3.1 模糊神經網絡的構建

構建五層模糊神經網絡,其中第1層屬于輸入層;第2層屬于模糊輸入層,在該層內經各個屬性的模糊隸屬度函數化成三個分別為大、中、小語言變量的隸屬度值,并令隸屬度的最高單元輸出為1,其它為0,以此構成第3層網絡的輸入;如果第2層網絡存在N個單元,那么N=3n,其中n表示輸入數量;第3層屬于隱含層,同第2層全連接,該層存在H個單元;第4層屬于模糊輸出層,同第3層全連接,該層存在Q個單元,且Q=3m,其中m表示輸出數量;第5層屬于期望輸出層,與輸入到模糊輸入層相似,經隸屬函數化成隸屬度值,最高值取為1,其它取為0,將通過模糊化之后的期望輸出向該層輸出。

針對基層網絡內一個屬性集中的數據序列,應運用統計的方式處理該數據序列,獲取到模糊隸屬度函數,實現模糊化過程[11]。所獲取到的模糊隸屬度函數形式可表示為

(1)

式(1)中,S、M及B依次表示屬于小、中、大輸入屬性的隸屬度值;對三個隸屬度函數交點位置斜率實施操控的參數以e-k1、e-k2及e-k3表示;三個隸屬度函數的中心值以δ1、δ2及δ3表示,可經求數據序列的均值χ與方差σ獲取到,其運算式為

(2)

式(2)中,輸入屬性x的樣本總數以k表示;輸入屬性的第i個樣本以xi表示,其中i=1,2,…,k。

2.3.2 模糊神經網絡的訓練

為提升模糊神經網絡的精度,需要通過訓練神經網絡的方式對隸屬度函數的參數實施調整。將數據準備階段中所獲取到的待挖掘基層網絡數據劃分為訓練組與測試組,選用反向傳播學習算法實施模糊神經網絡訓練,其中訓練組采樣數據以(X1,X2,…,Xn;Y1,Y2,…,Ym)i表示,針對該組數據的訓練過程如下:

1)在模糊神經網絡的第1層輸入X1,X2,…,Xn,那么outA(X1)=X1,…,outA(Xn)=(Xn);

2)依據式(1)在第2層運算各個輸入對應的三個隸屬度函數值;

5)在第5層中,對推理誤差實施運算同時修正參數,運算式為

ω(n+1)=ω(n)+αi×Δω

(3)

式(3)中,學習系數以ω(n)表示;訓練次數以n表示;第5層i節點以αi表示,當Δω>0時,ai=1,當Δω=0時,ai=0;

6)重復1)~5)訓練過程,直至學習完全部樣本數據;繼續重復以上全部訓練過程,直至學習時間結束或者訓練誤差比所要求誤差低為止。

2.4 網絡裁剪與規則提取階段

為令模糊神經網絡權值與節點數量最低,需根據特定規則裁剪訓練后模糊神經網絡,將訓練后模糊神經網絡內所存在的某些冗余權值消除掉,提升模糊神經網絡的訓練精度[12]。網絡裁剪過程為:

1)設神經網絡的誤差極限與權值刪除的閾值分別以η1和η2表示,同時η1+η2<0.5,訓練神經網絡至設定精度;

4)重新對模糊神經網絡實施訓練,如果神經網絡的精度比設定的精度低,則向步驟3)返回繼續對神經網絡權值實施取舍;反之則終止訓練,并運用此時的神經網絡權值。

完成神經網絡裁剪之后,對訓練所產生的規則實時提取。視網絡權值為0或近似于0的規則為無效規則,對于具備共同前提的全部規則,提取并保留其中權值最大規則,刪掉其余規則。在此基礎上,運用最終訓練后的模糊神經網絡依據所提取規則對測試組基層網絡數據實施挖掘。

3 實驗結果分析

為檢驗本文算法的應用效果,以采集的兩個標準基層網絡數據集(A數據集與B數據集)為實驗數據集,運用本文算法實施挖掘。其中A數據集屬于網頁數據集,共包括127個類別97874個網頁文本;B數據集屬于常見的文本數據集,共包括20051個文本?,F分別將兩個實驗數據集劃分為訓練集與測試集,并選取基于貝葉斯網絡的挖掘算法(文獻[5]算法)與基于機器學習的挖掘算法(文獻[6]算法)作為本文算法的對比算法,分別對三種算法實施訓練與測試,依據訓練與測試結果對比三種算法的應用效果與性能。

3.1 整體挖掘效率對比

檢驗三種算法的收斂速度與測試時單位時間處理數據樣本的數量,對比結果如圖4所示。

圖4 各算法收斂速度與訓練測試速度對比

通過圖4可以看出,在收斂速度測試中,本文算法的單位時間處理數據樣本數量明顯高于其它兩種算法,可見,本文算法在收斂速度與訓練測試速度上均具有顯著優勢,可有效節省訓練與測試時間,提升整體挖掘效率。

3.2 挖掘精度對比

為提升挖掘精度檢驗結果的可信度,實驗中運用A、B兩個數據集分別對三種算法實施15次訓練與測試,以各算法15次實驗結果的平均值作為檢驗各算法挖掘精度的對比結果。實驗中選取精確率P、查全率R及重合率D作為檢驗各算法挖掘精度的指標,各指標的運算方式為:

1)精確率P是指正確挖掘的數據量在挖掘總數據量中的占比,其運算式為

(4)

式(4)中,挖掘總數據量與真實待挖掘數據量分別以φ和r表示;

2)查全率R的運算式為

(5)

3)重合率D是指運用挖掘算法所挖掘到的數據與實際需要挖掘數據之間的相似程度,該值越高則表明挖掘效果越好,其運算式為

(6)

式(6)中,運用挖掘算法所挖掘到的數據以γ表示;實際需要挖掘的數據以θ表示。

各算法挖掘精度對比結果如表1所示。

表1 各算法挖掘精度對比結果

分析表1中數據可得知,在對A數據集實施挖掘中,本文算法的挖掘精確率、查全率及重合率均高于其它兩種算法,

表明本文算法針對A數據集的挖掘精度最高;在對B數據集實施挖掘中,本文算法的挖掘精確率、查全率及重合率均比挖掘A數據集時稍低,但也明顯比其它兩種算法高。由此可見,本文算法在針對不同數據集實施挖掘時,均有較高的整體挖掘精度,且挖掘性能較為穩定。

4 結論

本文針對深度學習的基層網絡數據個性化挖掘算法展開研究,設計包含數據準備階段、模糊神經網絡構建與訓練階段、網絡裁剪與規則提取階段的模糊神經網絡基層網絡數據個性化挖掘算法整體過程,經數據準備階段定義、處理及表示初始基層網絡數據,得到精度較高的待挖掘基層網絡數據,通過模糊神經網絡構建與訓練階段構建5層模糊神經網絡并對其實施訓練,由網絡裁剪與規則提取階段實現對訓練后模糊神經網絡內冗余權值及規則的刪減,同時保留最高權值規則作為模糊神經網絡的挖掘規則對基層網絡數據實施個性化挖掘。實驗結果表明,本文算法具有較高的收斂速度,在訓練與測試中具有較高的數據樣本處理效率,整體挖掘結果精度高且性能十分穩定,實際應用價值較高。

猜你喜歡
權值神經網絡精度
基于不同快速星歷的GAMIT解算精度分析
基于神經網絡的船舶電力系統故障診斷方法
基于人工智能LSTM循環神經網絡的學習成績預測
MIV-PSO-BP神經網絡用戶熱負荷預測
近似邊界精度信息熵的屬性約簡
三次樣條和二次刪除相輔助的WASD神經網絡與日本人口預測
電力系統短期負荷預測方法與預測精度
財務風險跟蹤評價方法初探
基于洪泛查詢的最短路徑算法在智能交通系統中的應用
淺談ProENGINEER精度設置及應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合