?

基于改進密度峰值聚類的企業數據管理研究

2024-01-17 09:57陳易平李慶珍
貴陽學院學報(自然科學版) 2023年4期
關鍵詞:數據管理類別準確率

黃 鏗,陳易平,李慶珍

(1.廣州南洋理工職業學院 經濟管理學院,廣東 廣州 510900;2.廣州理工學院 計算機科學與工程學院,廣東 廣州 510540;3.中國政法大學 數據法治研究院,北京 102249)

大數據在多個行業的深入應用,以及各種大模型為海量數據的精細化深度分析提供的算力支持,為企業數據的集群化挖掘及分析提供了技術保證。不論是制造企業的工序分析,還是金融領域的大數據信用識別,電商領域的精準用戶畫像,電力行業的用電行為分析等,無時無刻不體現大數據應用的身影,數據分析的價值正逐漸為企業的發展提供新的機會。在企業數據的管理研究中,由于其他種類差異,其數據分析的要求及難度差別較大,[1]而且由于企業數據管理受到整個市場的影響,其數據分析不應當完全是獨立企業內部數據的孤立分析,而是要結合所在行業數據以及與該企業相關行業的上下游產業鏈所有數據,因此企業數據分析的準確度需要大量算力支持。聚類算法作為開放大規模數據分析的常用手段,其不受企業行業特點的限制,而且在應對大規模數據分析時,仍能保持較高分析效率。

當前,聚類算法在企業數據管理應用中的研究較多。劉超等[2]通過軟子空間聚類算法來判別銀行用戶信用類別,并提前對低信用用戶進行篩選并納入監管,以降低銀行經營風險。吳花平等[3]對各行業的碳排放進行聚類管理,根據企業的經驗和能源使用數據進行碳排放分類,以便實現碳排放不合格企業的提前預警,增強碳排放管理的智能性。李春生等[4]采用均值聚類對企業人員進行類別分析,根據行為類別進行績效評價,有效提高了績效評價的過程性和科學性,這都是聚類算法在企業數據管理中的有效應用。

本文采用密度峰值聚類算法用于企業數據管理應用,通過QWOA的優化,有效提高了DPC聚類算法在大數據分析應用中的適用性,且QWOA-DPC算法在多個行業的企業數據分析中均表現出較強的聚類性能。

1 密度峰值聚類算法

密度峰值聚類(DPC)在聚類時除了考慮節點間的距離值,還需考慮節點的屬性密度,將距離和密度兩者相結合,篩選聚類中心。

設包含N個樣本點的集合X被劃分為C={C1,C2,…,Ck},共k個類別,且X=C1∪C2…∪Ck,Ci∩Cj=φ(i≠j)。

設樣本點xi和xj的距離rij為:

(1)

其中樣本總維度為n。

xi在所有節點中的密度ρi計算方法[5]:

ρi=∑jχ(rij-rc)

(2)

其中rc為距離閾值,χ(x)滿足條件[6]:

(3)

由于χ(x)非可導,將其換為可導的高斯函數,公式(2)修改為[7]:

(4)

點xi的最小距離δi計算公式為[8]:

(5)

計算所有節點的ρi和δi,并對所有點的ρi和δi作乘積運算:

γi=ρi·δi

(6)

然后對比N個樣本點的ρi、δi和γi,選擇三者均較大的點作為聚類中心,然后根據距離進行其他節點的類別劃分。

2 改進的DPC企業數據聚類

2.1 鯨群優化算法(WOA)

鯨魚在捕食過程中的位置變化比較復雜,這類位置變化可以遷移到最優解的尋找過程。WOA正是將可能解賦予鯨群個體,通過個體的獵物搜索及捕食來完成解的尋優。

WOA個體的隨機位置變化方式為[9]:

(7)

(8)

(9)

(10)

螺旋攻擊方式[11]:

(11)

其中b為常數,l為[-1,1]的隨機數。

鯨魚發現食物后,根據概率p選擇運動方式,一種是包圍捕食,另一種是螺旋攻擊:[12]

(12)

不斷執行式(12)進行捕食運動,迭代直至獲取最優個體。

2.2 WOA鯨群位置的量子化

量子常用表示為[13]:

|φ〉=α|0〉+β|1〉

(13)

變換(13)式表示方法:

|φ〉=[α,β]T

(14)

令α=cos(θ),β=sin(θ),則式(13)為:

|φ〉=cos(θ)|0〉+sin(θ)|1〉=[cos(θ),sin(θ)]T

(15)

將鯨群所有個體位置進行重新編碼:

(16)

其中θij=2π·Rand(),Rand()∈(0,1),i∈{1,2,…,n},j∈{1,2,…,m},n和m分別為鯨魚規模和位置維度,則式(16)可寫為[13]:

(17)

按照式(17)對所有鯨魚個體位置進行編碼,然后再執行WOA優化求解操作。

2.3 QWOA-DPC聚類流程

在DPC計算中,節點密度值與距離閾值rc強相關,而該值設定對聚類中心的選擇影響明顯,最終影響聚類結果。因此,在DPC應用時,應選擇合理的距離閾值,隨機設置容易造成不合理的情況,因此采用WOA算法對該值進行優化,以篩選出更合理的DPC聚類中心。將若干rc隨機值構建鯨群,選擇聚類準確度為WOA適應度函數,并將WOA鯨魚個體位置進行量子化,擴展搜索方向和細化搜索精度,通過WOA的捕食運動過程來求解最優rc,最后采用最優rc進行DPC的聚類中心選擇。

圖1 基于QWOA-DPC的聚類流程

3 實例仿真

為了驗證QWOA-DPC算法在企業數據管理中的應用性能,分別從不同角度對三類企業進行數據管理應用分析,并進行實例仿真。其中WOA主要參數為:鯨群最大規模為500,b=1。

3.1 電網企業數據分析

采用QWOA-DPC算法對六個省份的供電企業2021年度電網數據進行聚類分析,分別從企業的發展前景、資產質量、輸配電服務和收入業績[14]4個維度進行聚類,其主要數據集如表1所示。

表1 電網數據集

采用QWOA進行距離閾值優化后,對于六個不同省份供電企業在四個維度得到的簇中心數目、簇內節點至簇中心的距離的標準誤差之和、QWOA-DPC的迭代次數統計結果分別如表2所示。

表2 電力企業的聚類類別

表3 電力企業的聚類標準誤差

表4 電力企業聚類的迭代次數

從表2可知,對于四個聚類維度,采用QWOA-DPC自適應得到的聚類類別數和表1的實際類別數均相同。在發展前景方面,只有E省電力企業有一個類別,其他省電力企業均分成了二類,六省電力公司的資產質量均分為了三類;輸配電服務質量方面,B省和D省供電服務質量均處于較高的水平,其他四省服務質量有一定參差;在收入業績方面,相比于其他三個維度,QWOA-DPC得到的聚類結果類別更稀疏,這可能是因為六個省份由于區域用電差距明顯,而造成的不同區域收入業績分散度高。

從表3可知,根據QWOA-DPC對四個維度的自適應聚類類別,在該類別下的樣本點至簇中心的距離與實際樣本點至簇中心距離的標準誤差均較小。其中企業F的發展前景和收入業績聚類效果最佳,企業B的資產質量聚類準確度最高,企業D的輸配電服務聚類質量最高。

從表4可知,6個電力企業完成4個維度QWOA-DPC聚類的迭代次數較接近,這說明QWOA-DPC在不同電力樣本的聚類效率方面表現較穩定。

3.2 電商用戶聚類

采用QWOA-DPC算法對國內五家主流電商企業的用戶數據進行聚類分析,對用戶進行類別劃分,以篩選出對企業發展有幫助的用戶[15]。其數據集如表5所示。

表5 電商用戶數據

分別采用QWOA-DPC算法對5個電商平臺的用戶進行聚類分析,結合聚類結果標簽,統計聚類純度(P)、標準互信息(NMI)和F值(F)。

表6 QWOA-DPC的聚類性能

從表6可知,對于五家電商企業,其QWOA-DPC的聚類純度均在0.86以上,其中電商企業4的聚類純度最高,達到了0.9062;NMI性能基本保持0.77以上,電商企業5的NMI值最高,達到了0.8012;6家電商企業的F值均達到0.85以上,電商企業4的F值最高為0.8970。橫向對比發現,相比于其他4家企業,QWOA-DPC在電商企業4的聚類適應度最高。下面對測試樣本進行QWOA-DPC聚類仿真,根據樣本的原有類別實際值,統計測試樣本的聚類性能。

表7 聚類準確率及時間

從表7可知,5家電商企業的聚類準確率均高于0.9,聚類時間基本在22s左右。根據表6和表7可得到電商企業的用戶分類情況,根據用戶類別制定維持優質用戶的策略方案、挖掘潛在用戶的營銷價值,并分析影響用戶消費的關鍵因素,為不同用戶提供個性化服務,增強用戶黏度,從而為電商企業的管理提供有效建議。

3.3 在線學習企業聚類

采用QWOA-DPC算法對某在線學習企業的資源數據進行聚類分析,該在線平臺為開放式資源分享平臺,用戶既作為使用者又作為資源貢獻者,在學習資源管理時,既要為用戶提供個性化資源,又要對上傳的資源數據進行類別劃分,僅靠人力分類效率低下,自適應算法是企業數據管理的重要手段。[16]下面對表8中的五個專業類別資源進行聚類分析。

表8 在線學習數據集

對表8中的五類數據集進行QWOA-DPC性能仿真,五類資源集的詞特征數量多。在聚類時,分別選擇不同詞特征數量參與聚類,結果如圖2所示。

圖2 不同詞特征數量的QWOA-DPC聚類準確率

從圖2可知,詞特征量對QWOA-DPC的聚類準確率影響明顯。在詞特征量為5時,QWOA-DPC的聚類準確率均在0.7以下,這主要是參與聚類的特征過少,造成聚類準確度受到較大影響;在詞特征量為10時,5類樣本集的聚類準確率上升明顯,均超過了0.9;而詞特征量為15和20時,其準確率曲線基本重合。這說明在詞特征數為15時,QWOA-DPC的聚類準確率基本達到穩定,再增加詞特征參與聚類,對準確率上升幫助不大,但可能會增加QWOA-DPC聚類的復雜度。

表9 不同詞特征數量的QWOA-DPC聚類召回率和F1值

從表9可知,在詞特征量為5時,QWOA-DPC的聚類召回率和F1值均較低;而詞特征量為15和20時,兩者性能基本達到穩定。聚類穩定時,5類數據集性能差距并不大,這說明QWOA-DPC對在線學習資源的聚類穩定性較強。這表明在對用戶上傳資源進行歸檔時可以有效借助QWOA-DPC模型來實現自動歸類,為在線學習平臺數據管理提供有效幫助。

4 結論

本文采用DPC算法用于企業大數據聚類,并結合QWOA算法對DPC關鍵參數進行優化求解,有效提高了DPC聚類算法應對多屬性多維度企業數據分析的適應度。實驗證明,QWOA-DPC算法在電力、電商、教育三個行業的企業數據聚類中均表現出較高的聚類性能。

猜你喜歡
數據管理類別準確率
企業級BOM數據管理概要
定制化汽車制造的數據管理分析
海洋環境數據管理優化與實踐
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
CTCS-2級報文數據管理需求分析和實現
高速公路車牌識別標識站準確率驗證法
服務類別
論類別股東會
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合