盛麗華,沈 暉
(南通大學信息化中心,江蘇 南通 226019)
多源異構信息作為社會經濟活動中大量出現的非結構化、非標準化數據資源,對監測結果采集和分析有著至關重要的作用。由于計算機技術和互聯網的不斷進步,各項系統的結構日益復雜。系統內部數據類型開始復雜化和多樣化,如何準確監測多源異構數據是現階段研究的熱點話題[1-2]。
國內相關專家針對上述內容展開了大量研究,例如涂夢昭等人[3]分析地下水存水量的變化趨勢,構建利用GRACE衛星數據校準水文模型,通過模型完成地下儲水量監測。王周虹等人[4]將網分裝置采集的信息上調至調控主站,通過變電站內各種類型的配置描述文件,構建調控交互數據監測模型,利用信息之間的關聯度將離散報文匹配分析處理,最終實現交互數據的監測。王軍飛等人[5]主要通過PS點選取方法提取邊坡數據特征,通過相干系數初選PS點,同時剔除極限誤差點,最終獲取PS點,實現數據監測。
在上述幾種監測方法的基礎上,提出一種基于邊緣計算的多源異構數據融合信息化監測方法。實驗結果表明,所提方法的實時性和監測性能均得到明顯改善。
半參數回歸模型主要是由參數分量和非參數分量共同組成,具有比較強的解釋能力。多源異構數據由于存在非線性誤差,所以可以將觀測模型表示為式(1)的形式:
s=Ha+s(t)+u
(1)
式中,s(t)代表和時間存在關聯的函數,即非線性函數;Ha代表半參數回歸模型;u代表多源異構數據中的噪聲;s代表觀測模型。
通過獲取的多源異構數據,估計得到非線性函數對應的值,利用觀測值減去全部線性值,進而構建觀測模型為:
(2)
為了獲取更加滿意的去噪效果,引入小波閾值收縮法去噪處理。由于小波變換中的正變換具有比較強的相關性,可以有效分解信號的能量,獲取信號在小波域集合中的小波系數。將半參數回歸模型引入到小波閾值收縮方法中,將其應用于多源異構數據預處理中[6-7],詳細的操作步驟如下所示:
1)對于全部的多源異構數,通過最小二乘多項式擬合處理,獲取對應的擬合值集合D,如式(3)所示:
(3)
2)計算全部多源異構數據對應的殘差值,如式(4)所示:
τ(x,y)=D·sgn(ω)-β(x,y)*s(t)
(4)
式中,τ(x,y)代表多源異構數據的殘差值;ω代表噪聲標準方差;β(x,y)代表半軟閾值。
3)檢驗步驟2)獲取的殘差值是否為白噪聲序列,假設是,則直接跳轉至步驟5);反之,則繼續下一步。
4)選取Daubechies小波對多源異構數據殘差序列分解處理,獲取小波系數。為了有效避免傳統閾值方法存在的不足,引入半軟閾值方法對多源異構數據預處理,采用Daubechies小波對去噪后的小波系數重構處理,進而估計出對應的非線性函數,同時跳轉至步驟1)。
5)輸出擬合值,完成多源異構數據預處理[8-9]。
分析邊緣計算的相關定義和技術特點,可以有效解決多源異構數據融合問題。優先給出多源異構數據標準化處理的詳細操作步驟:
1)將采集到的多源異構數據通過時序特征分解處理,將B作為標準轉換的輸入,設定B以矩形的形式存在,如式(5)所示:
(5)
2)對多源異構數據的形成特點展開深入分析,融合全部類型的數據,進而完成數據變換處理,根據數據的類型制定對應的廣義冪-標準分數標準化變換方案,即:
①假設B是以向量的形式存在,則可以直接得到變換處理后的向量結果;
②假設B的存儲形式為矩陣,需要采用列向量計算全部數據的均值和標準差,對兩者標準化處理,即可獲取對應的結果矩陣;
③假設B的表現形式為多維數組,則需要根據維度信息對數據求解,得到與之對應的均值和標準差,對兩者標準化處理,即可獲取高維數據組。
3)將B采用廣義冪-標準分數數據展開標準化處理B′,對應的矩陣為:
(6)
4)通過選定的多源異構數據處理方案對數據迭代處理,同時重復步驟2)和步驟3),完成迭代處理之后,將全部匯聚數據變換處理。
5)在完成多源異構數據的量綱和量級處理處理后,全部數據的格式均為統一的,可以將其直接傳輸到系統內存儲,主要是為了簡化后續多源異構數據的融合步驟,當全部數據完成標準化處理后,則停止計算。
在邊緣計算模式下,多源異構數據的融合處理主要包含三個步驟,分別為:
1)信息融合處理;
2)狀態評估方法;
3)關聯決策。
(7)
式中,cm代表測試數據集;m代表測試數據集總數;t代表數據采集時間;E(u)代表隨機兩個成分之間的沖突程度。
多源異構數據融合的操作步驟如下所示:
1)對多源異構數據屬性子集展開概率初始化處理,將R設定為多源異構數據融合模型的框架,則函數u:2u→[0,1]需要滿足以下約束條件:
(8)
式中,u(A)代表多源異構數據之間的信任程度。
2)根據步驟1)設定的約束條件可以獲取信任函數Bel(A),如式(9)所示:
(9)
式中,u(B)代表全部子集分配概率值之和;A和B代表不同的多源異構數據融合集合。
3)設定多源異構數據融合似然函數,以此為依據確定全部數據特征屬性的信任程度值。其中,數據屬性成分對應的可信度ρ(a)可以采用式(10)計算:
(10)
4)計算多源異構數據融合的信任空間,進而獲取信任函數和似然函數之間的關系表達式,如式(11)所示:
(11)
式中,τ(a)代表信任函數;pl(a)代表多源異構數據的特征度量結果;?(a)代表似然函數。
5)通過構建的多源異構數據融合框架確定數據合成規則,根據不同源中數據特征屬性索引完成特征級數據融合處理,最終完成數據融合處理[10-11]。
在完成多源異構數據的預處理和融合處理之后,采用隱半馬爾可夫模型展開數據信息化監測。隱半馬爾可夫模型是一種操作簡單且效率高的隨機模型,在各個研究領域內都得到了十分廣泛的應用。
隱半馬爾可夫模型ψ是由一個三元組成的,對應的表達式如式(12)所示:
ψ=(r,M,Z)
(12)
式中,r代表系統的初始狀態概率;Z代表狀態集合;M代表狀態空間的轉移概率矩陣,如式(13)所示:
(13)
在系統的調用序列中,可以將不同數據的排列組合看做是模型的不同狀態。在數據使用過程中,需要更好完成數據的轉換和銜接等操作,為后續的數據監測提供一定的數據支撐[12-13]。
將提取的特征向量設定為隱半馬爾可夫模型的狀態,則狀態和轉移可表示為圖1的形式:
圖1 隱半馬爾可夫模型狀態及轉移圖
隱半馬爾可夫模型中的狀態轉移矩陣和初始分布可以通過對歷史數據的觀察得到。在訓練數據中,為了完成數據的拓展,則隱半馬爾可夫模型的狀態轉移概率為:
1)必要狀態下的狀態轉移概率?ij可以表示為式(14)的形式:
(14)
式中,Qij代表狀態i向狀態j轉移的概率;Nij代表狀態i向狀態j轉移的總次數;ε代表必要狀態。
2)補充狀態下的狀態轉移概率如式(15)所示:
?i(u,v)={Qij-ε}·Nij
(15)
隨著多源異構數據的長度持續增加,經過計算可以得到各個觀測序列的取值概率。但是在正常狀態下,概率值會越來越小,無法將概率取值作為判斷觀測序列是否正常的依據。所以,需要對長度完全一致的觀測序列展開監測更加有意義。
為了方便多源異構數據融合信息化監測,可使用以下的遞推公式L(s):
(16)
式中,tu,v代表滑動窗口;對于滑動窗口而言,需要滿足以下條件:
1)確定性:
對數據集訓練處理,得到各個數據集對應的狀態量,確保各個狀態量在訓練數量增加的情況下不會發生任何變化。
2)隨機性:
將狀態設定為變量,通過一種隨機規則可以較好描述系統調用的隨機性。
通過對隱半馬爾可夫模型[14-15]的分析,建立和進程對應的隨機模型,將研究系統內對應的調用序列設定為一個隨機信號,全部信號均來自設定的信號源,同時進程具有特定的功能。由于大部分信號離散源是有記憶的,所以可以采用具有時間規律的條件熵展開衡量,同時設定隱半馬爾可夫模型的狀態序列長度H(x,y),對應的計算式為:
(17)
完成上述操作之后,將融合處理后的數據輸入到隱半馬爾可夫模型中,實現多源異構數據融合信息化監測。
為了驗證基于邊緣計算的多源異構數據融合信息化監測(所提方法)的有效性,分別采取參考文獻[3]方法與參考文獻[4]方法做對比。實驗選取Windows 2015作為實驗平臺,數據庫為SQL,對應的組成架構如圖2所示。
圖2 實驗架構示意圖
采用不同方法對數據監測實時性展開測試處理,實驗測試結果如圖3所示。
圖3 不同方法的數據監測實時性測試結果對比
分析圖3中的實驗數據可知,各個方法的數據監測實時性會隨著時間的變化而變化。在三種方法,所提方法的多源異構數據融合信息化監測實時性百分比均處于95%以上,而參考文獻[3]方法與參考文獻[4]方法的檢測實時百分比在75%~80%之間,所提方法的實時性明顯優于其它兩種方法。
為了驗證所提方法的監測性能,在設定時間內分析采用各個方法獲取的多源異構數據融合信息化監測結果,實驗結果如圖4所示。
圖4 不同方法的多源異構數據融合信息化監測結果對比
由圖4中的實驗數據可知,采用不同方法對多源異構數據融合信息化監測處理,經過對比分析證明,采用所提方法獲取監測結果與實際值一致,而另外兩種方法獲取的監測結果和真實值存在較大誤差。因此可以得出,所提方法的監測結果更加精準。
為了準確監測融合處理后的數據變化情況,提出一種基于邊緣計算的多源異構數據融合信息化監測。采用小波閾值去噪方法對多源異構數據預處理,消除其線性誤差。構建多源異構數據融合架構,完成數據融合處理,并將其輸入到隱半馬爾可夫模型中,實現多源異構數據融合信息化監測。經過實驗測試證明,所提方法可以獲取高精度的監測結果,且監測實時性明顯優于其它方法。在后續研究過程中,對所提方法展開更加全面的優化處理,可以進一步增加多源異構數據來源的廣度,例如監測對象的聲音信號以及生產計劃等,充分利用多源異構數據的優勢。