?

航標運行狀態模式識別和數值預測

2020-06-23 03:28陳麒龍陸一軍
中國水運 2020年5期
關鍵詞:航標模式識別概率

陳麒龍 陸一軍

摘 要:針對航標運行狀態模式識別依賴經驗閾值的現狀,為檢驗經驗閾值是否具有普適性,提出基于概率的閾值模式識別效率度量算法。實驗結果表明:該算法能準確度量閾值的模式識別效率;經檢驗,經驗閾值不具備普適性。因而,提出基于概率的模式識別模型。實驗結果表明:以概率作為閾值具有普適性,該模型能準確識別頻繁模式和異常模式,且性能更好。為實現數值預測,提出基于概率密度的加權平均算法。實驗結果表明:該算法的預測精度較高。本文為航標運行狀態模式識別和數值預測提出了新的解決方案。

關鍵詞:水路運輸;航標;概率;模式識別;數值預測

航標遙測數據是反映航標運行狀態的數值信息,包括:數據采集時間(Time)、電壓(Voltage)、電流(Current)、航標位置(Longitude、Latitude)、離位距離(Distance)。頻繁模式表示航標的“常態”,異常模式表示航標的“非常態”。對頻繁模式和異常模式的識別,傳統方法是依據經驗閾值進行分類,存在主觀臆斷的問題。對航標運行狀態的數值預測,目前仍處于研究階段。如何檢驗經驗閾值是否具有普適性,如何實現航標運行狀態的數值預測,是亟待解決的問題。

對數據的頻繁模式和異常模式的模式識別,已有不少算法和模型,如:基于相關性度量算法、基于頻繁子樹算法、基于最大熵隱馬爾科夫模型,以及基于統計特征的支持向量機 [1-4]。移動對象位置預測的模型有:馬爾科夫模型、高斯混合模型、卷積神經網絡模型[5-7]。核密度估計(kernel density estimation,KDE)是一種估計數據的概率密度函數(probability density function,PDF)的算法,利用概率密度函數可以計算出給定數值區間的概率。概率可以用來度量經驗閾值的模式識別效率,以此來檢驗經驗閾值是否有效,判定經驗閾值是否具有普適性。概率反映隨機事件發生的可能性,是客觀的,以概率作為閾值進行分類,就是將“大概率”的數據作為“常態”,將“小概率”的數據作為“非常態”,從而使閾值成為一種客觀的指標,而具有普適性。概率密度與概率是正相關的,將概率密度轉化為權重,以加權平均數作為預測值,既消減了極端值的影響,又使預測值趨于“大概率”。相對于相關性度量算法、頻繁子樹算法、馬爾科夫模型、支持向量機、高斯混合模型、卷積神經網絡模型等,核密度估計和概率的計算過程更為簡單,算法和模型易于解釋,且性能良好,適合航標運行狀態模式識別和數值預測。

1 經驗閾值檢驗

1.1核密度估計原理

1.2 實例分析

已知經驗閾值:電壓10.8 V,電流0.09 A,離位距離150 m。以洋山港主航道的Y4#燈浮標連續60天凌晨3時的航標遙測數據為例(如表1),檢驗經驗閾值是否有效,是否具有普適性。

電壓的概率密度分布如圖1所示。對電壓經驗閾值構造區間為(0,10.8],計算出電壓小于或等于10.8 V的概率為0,表明在凌晨3時,以“10.8 V”作為電壓閾值無法有效識別異常模式,應當增大閾值。當閾值為“13.2 V”時,區間(0,13.2]的概率為0.0651,表明在該時段,以“13.2 V”作為閾值識別異常模式的效率為6.51%,識別頻繁模式的效率為93.49%。

電流的概率密度分布如圖2所示。對電流經驗閾值構造區間為[0,0.09],計算出電流小于或等于0.09 A的概率為0.0506,表明在凌晨3時,以“0.09 A”作為電流閾值,識別異常模式的效率為5.06%,識別頻繁模式的效率為94.94%,電流經驗閾值有效。

離位距離的概率密度分布如圖3所示。對離位距離經驗閾值構造區間為[150,+∞),計算出離位距離大于或等于150 m的概率為0,表明在凌晨3時,以“150 m”作為離位距離閾值,無法有效識別異常模式,應當減小閾值。當閾值為“75 m”時,區間[75,+∞)的概率為0.0436, 表明在該時段,以“75 m”作為閾值識別異常模式的效率為4.36%,識別頻繁模式的效率為95.64%。

以上實驗表明:

(1)概率可以準確度量閾值的模式識別效率,可以用來檢驗經驗閾值是否有效;

(2)經驗閾值不具有普適性;

(3)利用概率可以找到合適的閾值。

2 模式識別

2.1 基于概率的模式識別原理

基于概率的模式識別的思路是:以理論概率作為閾值,將概率小于理論概率的樣本單元作為異常模式,而概率大于理論概率的樣本單元作為頻繁模式。模式識別流程是:第一步,對樣本容量為n的樣本估計概率密度函數;第二步,以新觀測值為中心構造區間;第三步,積分計算區間的概率;第四步,計算理論概率作為閾值,將區間的概率與閾值進行比較和分類。

區間長度應當根據樣本數據精度來設置,假設新觀測值為xi,樣本數據的精度為b,那么區間為:[xi-(b/2) , xi+(b/2)]。閾值a的計算公式為:a=b/R,R表示樣本數據的極差,即:R=max(x)- min(x)。閾值的本質是:將樣本的值域等間隔劃分為m個區間,區間長度為b,樣本單元落入某一區間的理論概率,即:m=R/b,a=1/m=b/R。

2.2實例分析

以洋山港主航道Y4#燈浮標“12/31 3:08”的航標遙測數據為例(電壓13.228 V,電流0.098 A,離位距離43.6 m)。

電壓的數據精度為0.001,樣本數據的極差為0.08。因此,閾值為0.0125。新觀測值13.228的區間為[13.2275,13.2285],區間的概率為0.0171,大于閾值,為頻繁模式。

電流的數據精度為0.001,樣本數據的極差為0.08。因此,閾值為0.0125。新觀測值0.098的區間為[0.0975, 0.0985],區間的概率為0.0860,大于閾值,為頻繁模式。

離位距離的數據精度為0.1,樣本數據的極差為63.2。因此,閾值為0.0016。新觀測值43.6的區間為[43.55, 43.65],區間的概率為0.0013,小于閾值,為異常模式。

以上實驗可以得出結論:

(1)以概率作為閾值,使閾值成為一種客觀的指標,具備普適性;

(2)基于概率的模式識別模型能夠有效識別頻繁模式和異常模式。

2.3 與傳統方法比較

傳統方法的優點是:直接進行數值對比,計算量小。缺點是:①閾值不具備普適性,如果閾值設置不合理就無法識別異常模式;②閾值設置過程繁瑣,為保證閾值有效,需要先度量閾值的模式識別效率,找出合適的閾值;③當燈器設備的規格型號改變時,就必須重新設置電壓和電流的閾值;④閾值的模式識別效率需要定期評估,需要定期調整閾值。

新模型的優點是:①以概率作為閾值,具有普適性;②閾值設置簡單、靈活可控,可以使用理論概率,也可以使用其他概率;③燈器的型號規格改變時,無需重新設置電壓和電流的閾值;④模型易于解釋,閾值就是模式識別的效率,對于給定的觀測值,閾值越小,分類結果越偏向頻繁模式,閾值越大,分類結果越偏向異常模式。缺點是:需要計算概率密度函數和概率,比傳統方法的計算量大。

綜上所述,新模型的性能比傳統方法更好,但是計算量更大。 在航標管理上,總是希望發現航標潛在的異常,而且現在的服務器性能完全能夠滿足新模型的計算需求。因此,推薦使用新模型。

3 數值預測

3.1基于概率密度的加權平均算法

3.2 實例分析

已知“12月31日凌晨3時”的實測數據:電壓13.228 V、電流0.098 A、航標位置(122.28244440 °, 30.54266667 °)。以表1的數據為樣本,計算“12月31日凌晨3時”的預測值及誤差,過程數據如表2所示。

電壓的概率密度是雙峰分布(如圖1),預測值為13.2282,誤差為0.0002;電流的概率密度是單峰分布(如圖2),因此權重為1,預測值為0.0983,誤差為0.0003;航標位置的概率密度是多峰分布(如圖4),分別對經度和緯度計算加權平均數,預測值為(122.28278039 °,30.54292107 °),以歐氏距離表示的誤差為0.00042。

3.3 數值預測精度評估

以洋山港主航道Y4#燈浮標12月1日至12月7日各時段的數值預測為例。實驗組:新算法,對照組:中位數。度量指標:均方誤差,? ? ? ? ? ? ? ? ? ? ? ? ? ? ,xi是預測值,yi是實測值。如表3所示,各時段的實驗組MSE都比較小,表明新算法的預測精度較高;從各時段的MSE看,大多數時段的實驗組比對照組小,且MSE之和,實驗組也比對照組小,表明新算法的預測精度優于中位數。

3.4統計性質分析

樣本數據的特性對預測精度的影響體現在:樣本數據的方差越小,則MSE越小;反之,樣本數據的方差越大,則MSE越大。將概率密度峰值轉化為權重,以加權平均數作為預測值,消減了極端值的影響,使預測值趨于“大概率”。概率密度峰值反映的是“常態”情況下的數值水平,未來偶然出現的“非常態”的實測值,將導致短期內的MSE變大,但是對長期的MSE影響不大。

4 結論

針對航標運行狀態模式識別依賴經驗閾值的現狀,為檢驗經驗閾值的普適性,提出基于概率的閾值模式識別效率度量算法,并用于檢驗經驗閾值。經檢驗,經驗閾值不具備普適性。因而,提出基于概率的模式識別模型,該模型能夠有效識別頻繁模式和異常模式,而且比傳統方法的性能更好。為實現數值預測,提出基于概率密度的加權平均算法,該算法的數值預測精度較高。本文為航標運行狀態模式識別和數值預測提供了新的解決方案。下一步,將研究航標漂移、燈器設備故障導致的“持續非常態”情況下的航標運行狀態數值預測,擬從短期觀測數據著手,分析數值變化趨勢,比較和分析線性回歸模型、非線性回歸模型、時間序列模型的擬合效果和預測精度,尋找合適的模型。

參考文獻:

[1] 任永功, 高鵬, 張志鵬. 一種利用相關性度量的不確定數據頻繁模式挖掘[J]. 小型微型計算機系統, 2019, 40(03):623-627.

[2] 吉小洪, 徐愛萍. 基于TrieMerging機制數據流滑動窗口模型的頻繁模式挖掘[J/OL]. 計算機應用研究:1-7[2020-02-20]. https://doi.org/10.19734/j.issn.1001-3695.2019.01.0006.

[3] 胡江, 趙冬梅, 張旭, 等. 基于最大熵隱馬爾科夫模型的電網故障診斷方法[J]. 電網技術, 2019, 43(09):3368-3375.

[4] 劉玉敏, 劉莉. 基于統計特征的動態過程質量異常模式識別[J]. 統計與決策, 2017(19):32-36.

[5] 宋路杰, 孟凡榮, 袁冠. 基于Markov模型與軌跡相似度的移動對象位置預測算法[J]. 計算機應用, 2016, 36(01):39-43+65.

[6] 喬少杰, 金琨, 韓楠, 等. 一種基于高斯混合模型的軌跡預測算法[J]. 軟件學報, 2015, 26(05):1048-1063.

[7] 肖延輝, 王欣, 馮文剛, 等. 基于長短記憶型卷積神經網絡的犯罪地理位置預測方法[J]. 數據分析與知識發現, 2018, 2(10):15-20.

[8] 關紹云, 鄭麗坤, 金一寧, 等. 基于高斯核函數的局部離群點檢測算法[J]. 哈爾濱商業大學學報(自然科學版), 2019, 35(02):185-190+203.

[9] Andrew Harvey, Vitaliy Oryshchenko. Kernel density estimation for time series data[J]. International Journal of Forecasting, 2012, 28(01):3-14.

[10] Moses Charikar, Paris Siminelakis. Hashing-Based-Estimators for Kernel Density in High Dimensions[C]// 2017 IEEE 58th Annual Symposium on Foundations of Computer Science (FOCS). IEEE, 2017.

[11] 馬夢知, 范厚明, 黃莒森, 等. 基于非參數核密度估計的集裝箱碼頭交通需求預測模型[J]. 大連海事大學學報(自然科學版), 2019, 45(01):77-84.

[12] 程媛, 遲榮華, 黃少濱, 等. 基于非參數密度估計的不確定軌跡預測方法[J]. 自動化學報, 2019, 45(04):153-164.

猜你喜歡
航標模式識別概率
輕身調脂消渴片的指紋圖譜建立、化學模式識別及含量測定
概率與統計(1)
概率與統計(2)
關于航標社會化養護模式相關問題的探討
概率與統計解答題集錦
汽車外觀造型創新設計遺傳算法的應用
自動潔地機器人的設計
分布式光纖傳感邊坡工程檢測設計
“海眸”文化:擦亮你的眼睛
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合