?

非顯著特征數據挖掘中SOM聚類算法的優化

2023-10-29 01:49許麗娟葉仕通
計算機仿真 2023年9期
關鍵詞:數據挖掘神經元代表

許麗娟,葉仕通

(廣州華商學院 數據科學學院,廣東 廣州 511300)

1 引言

在數據泛濫的當下,對于興趣推薦、故障檢測、圖像處理、傳感數據融合等應用方面,數據挖掘需要面對越來越艱巨的挑戰[1]。對于一些傳統應用需求,其任務就是對信息流進行主特征的識別,比較流行的處理手段通常包括特征提取、關聯規則,以及一些結合生物智能的聚類等[2]。數據特征深入研究可以分為顯著與非顯著,目前這些算法的提出主要針對顯著特征的檢測識別,很少有專門針對非顯著特征的算法,對于當前日益增長的復雜應用場景,已經很難滿足實際應用需求。比如存在稀疏甚至非規則數據,或者鄰域范圍內存在離群現象的場景,會因噪聲數據引入很多偽點,影響數據挖掘精度的同時,也增加了挖掘耗時,使算法性能整體被拉低[3,4]。

為了增強對信息的識別性能,一些學者已經關注到非顯著特征的數據處理領域。文獻[5]為了降低視頻圖像檢測的精度偏差,先將原始數據采取濾波操作,得到初步特征域,再根據SUSAN搜索其中的角點,推導灰度差異,最終完成特征識別。由于該算法是基于視頻圖像設計的,盡管在實驗中表現出優秀的魯棒性,可是很難將其遷移到數據的檢索和挖掘應用中。文獻[6]先對數據采取分解,再把各分解屬性做匹配計算,從而得到特征分類。經過在云計算數據庫上的仿真測試,驗證了該算法擁有良好的實時性,而在精度方面還有欠缺。文獻[7]針對多噪聲干擾引入濾波操作,為防止濾波發散設計了協方差比較,并采用模糊推理進行結果糾正?;谠朴嬎闫脚_的數據實驗,驗證了該算法對于傳感數據融合的可靠性,但是對于子域內的一些特征挖掘效果不夠理想。

由于數據挖掘的目標就是確定數據發展傾向,這與聚類的目標不謀而合,而SOM[8]因其在文本處理上表現出良好的學習性,本文提出SOM與聚類算法結合,完成對非顯著特征數據的挖掘。在傳統的一些SOM模型設計中,由于神經元規模過于龐大,使得本應歸為一類的特征卻未被支配到同一個神經元[9],因此對特征分類結果產生嚴重干擾。而當前對SOM的優化模型,大部分是對數據特征的逼近效果做改善處理,從而也帶來了算法過擬合的詬病。本文基于時頻分析和寬平穩過濾,來得到非顯著特征。并基于修正鏈接權重的SOM模型進行特征訓練,最終改善聚類的敏感性和適應性,增強對非顯著特征的挖掘效果。

2 非顯著特征挖掘

假定原始數據為U={u1,u2,…,ue},其中任意元素都是矢量,將非顯著特征基于頻域進行分析,得到頻域方程如下

ue=Uef+δeL(t)

(1)

f代表特征傳函;δe代表估計偏差;L(t)代表負載平衡模型,公式如下

(2)

wi代表相位;φi代表融合程度;ε代表修正程度;F(Ci+τi)是擬合操作。通過寬平穩特征,對特征采取過濾,公式如下

(3)

(4)

hi表示發送載波。通過時頻域的分析,可以完成非顯著特征的提取,以及擬合處理。在采用學習網絡對特征數據進行挖掘訓練的過程中,應該保證符合如下限定

(5)

ri(k)是序號為i的非顯著特征。訓練的期望公式如下

(6)

η是常系數;δ是訓練偏差。

此外,在訓練過程中,由于離群因子對特征分類的具有明顯的影響作用,于是這里針對非顯著特征將其進行重新定義。假定任意數據r,它的相似k近鄰記作SK(r)={r1,r2,…,rl+1},l表示r鄰域范圍內的對象數量,且鄰域范圍內對象包含r自身。根據r的鄰域情況,將離群因子公式表示如下

(7)

其中,Q(r)表示r的鄰域對象集合;dis(i)表示對象i的相似k距離。

3 SOM網絡聚類模型

SOM作為神經元聚類,具有無監督學習優勢。利用輸入與神經元的比較,決定網絡輸出結果,且每次比較輸出具有唯一性。所有輸出根據加權值向輸入靠攏,直至全部近似特征完成匯集為止。

圖1描述了SOM的神經元模型。其中,input為特征向量,表示為I={im|m=1,…,k},m代表I的維度。經過比較篩選,獲勝的神經元來到output層,對于任意獲勝神經元n,加權值可以描述成Wn={ωmn|m=1,…,k;n=1,…,d},d代表output神經元數量。由input層的I與加權值,就可以得到如下的歐氏距離求解公式

圖1 SOM網絡模型

(8)

對于SOM學習網絡,ωmn代表的含義為input層第m維向量和output層第n個篩選結果的鏈接權重。利用式(1),求解出最小dn(I)所對應的神經元。并以此神經元作為基準,在一定范圍內對其加權值進行調節,從而保證和input層向量的自適應近似性。在SOM模型中,output層篩選出的神經元數量對于最終結果有著重要影響。如果output層的輸出不足,則會使得分類不夠細致;而如果output層的輸出超量,則會使得網絡產生很多無效節點?;诖?本文提出如下方式計算output層輸出數量

d=nc+as0+b

(9)

nc代表聚類的個數;s0代表原始節點規模;a代表s0的影響因子;0

根據加權值的變化范圍,SOM鏈接加權的更新公式為

ω′mn=N(t)·Rm(t)·(in-ωmn)

(10)

t代表學習進行至第t輪;N(t)代表學習率;Rm(t)代表加權值的搜索空間。在學習輪次增加過程中,由于輸出逐漸趨于穩定,學習率也將逐漸降低。

通過以上自組織投影,SOM便能夠實現input層樣本的訓練工作,在ωmn作用下使網絡輸出結果穩定接近輸入I。再經過屬性計算,就可以達到聚類結果至output層神經元的投影計算。雖然此時的SOM中,任意樣本僅存在唯一的活動神經元,可以有效保證ωmn和I具有相同的分布狀態,但是為了能夠令ωmn和所屬類具有更好的擬合效果,需要對ωmn的調節方式采取進一步完善。引入加權調節修正因子,于是鏈接加權的更新過程描述為

ω′mn=N(t)·Rm(t)·(in-ωmn)+N(t)·C(t)

(11)

C(t)是修正向量,表示為

C(t)={c1(t),c2(t),…,ck(t)}

(12)

其中,ck(t)是目標函數,它的數量由輸入向量的維度決定,函數具體形式為

(13)

(14)

假定α與β滿足高斯分布,則根據maxck(t)能夠推導出如下關系

(15)

Trace(·)表示對矩陣對角線進行累加計算;T表示Hessen矩陣。

通過C(t)糾正神經元之間的鏈接加權。由于ck(t)值和逼近程度成反比關系,因此,糾正過程就是尋求最小ck(t)過程?;诖?再根據正則因子對糾正的過程進行約束,從而限定ck(t)值,防止出現過擬合現象。

4 仿真與結果分析

4.1 仿真數據集

仿真前,通過電商平臺搜集五類商品數據,將其映射成固定格式作為原始數據集,具體的實例與特征情況如表1中所描述?;赑ython的gensim對數據采取向量構造,并實現SOM訓練模型。訓練過程中鄰域半徑是0.3,學習率是0.5,原始節點規模的影響因子a=1,最大迭代數量是1000此。

表1 初始數據集

4.2 聚類效果仿真

圖2是對數據1進行非顯著特征聚類的結果,實驗設定了5個非顯著特征的類別。

圖2 聚類結果

通過可視化結果可以看出,經過SOM訓練后,確實出現了5個非顯著特征的聚集簇,其它類型數據分散周圍。

為了定量分析所提SOM優化算法的聚類性能,引入如下評價指標:

1)準確率,用于衡量被正確分類的樣本占全部樣本的比例,計算公式為

(16)

Ncorrect代表被正確分類的樣本數量;Ntotal代表全部樣本數量。ACC值越大,意味著聚類算法的識別效果越好。

2)凝聚程度,用于衡量分類中樣本之間的耦合程度,計算公式為

(17)

n代表聚類的數量;Ni代表聚類i中樣本數量;i代表聚類i中錯誤分類的樣本數量;ai代表與聚類i產生關聯的神經元數量。C值越大,意味著樣本聚類的越為緊湊,內斂效果越好。

將本文提出的改進SOM聚類與傳統SOM算法做性能比較,針對5個數據集,分別得到兩種聚類算法的ACC值與C值,結果比較如圖3和圖4。

圖3 準確率對比

圖4 凝聚程度對比

由ACC的結果可得,改進SOM算法對于不同數據集的聚類處理差異相對較小,平均準確率達到97.44%。而傳統SOM聚類對于不同數據集的處理敏感度很高,聚類準確度波動明顯,平均準確率僅為92.87%。這表明改進SOM算法具有良好的適應性與魯棒性。

從凝聚程度對比可得,在5中數據集測試中,改進SOM算法的最高凝聚程度達到0.553,平均凝聚程度為0.493。而傳統SOM的最高凝聚程度為0.478,平均凝聚程度僅為0.353。這表明改進SOM算法的輸出結果具有更好的低耦合高內斂效果。

聚類效果的改善,主要得益于鏈接權重計算時采用了修正因子,并采取貝葉斯對鏈接權重進行更新計算,保證了算法對不同維度不同類型數據的適應性和識別率。

4.3 數據挖掘效果仿真

為了衡量數據挖掘性能,對算法的準確性和執行時間進行仿真測試。采用文獻[5]、文獻[6]和文獻[7]中算法,以及傳統SOM算法作為比較,引入均方根誤差和執行時間指標。其中,均方根誤差計算方式如下

(18)

RMSE值越小,意味著數據挖掘的準確性越高。

關于RMSE的結果對比如圖5所示。通過不同算法的比較可得,SOM優化算法的RMSE指標較文獻[5]、文獻[6]、文獻[7],以及傳統SOM算法分別降低了0.307、0.125、0.062、0.640,對非顯著特征數據挖掘精度得到明顯提升。

圖5 RMSE結果對比

關于各算法的執行時間對比如圖6所示。通過比較可得,SOM優化算法的執行時間雖然不是最短的,但是已經能夠滿足當前數據規模下的挖掘需求,且同時保證良好可靠的挖掘準確性。

圖6 執行時間對比

5 結束語

本文針對非顯著特征數據挖掘存在的問題,采取時頻分析結合濾波算法的方式,降低稀疏與噪聲影響。同時考慮到特征訓練網絡的非監督性,引入SOM,并對其output輸出和鏈接權重的更新方式分別進行了優化設計。通過多個數據集上的可視化結果與數值結果,證明了改進SOM具有很高的準確度和凝聚程度;在非特征數據挖掘時,在較小的執行時間內,能夠保證較低的挖掘誤差,各項數據充分表明所提算法在非特征數據挖掘方面的性能優勢。

猜你喜歡
數據挖掘神經元代表
詮釋代表初心 踐行人大使命
四季的代表
《從光子到神經元》書評
探討人工智能與數據挖掘發展趨勢
“代表通道”新觀察
這個代表咋這么拗
躍動的神經元——波蘭Brain Embassy聯合辦公
基于并行計算的大數據挖掘在電網中的應用
一種基于Hadoop的大數據挖掘云服務及應用
基于二次型單神經元PID的MPPT控制
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合