?

基于近鄰穩定性的離群點檢測算法

2019-07-16 11:55黃馨玉陳曉東

電子技術與軟件工程 2019年8期

關鍵詞：離群鄰域質心

黃馨玉　陳曉東

摘要：本文提出了基于近鄰穩定性的離群點檢測算法。實驗證明本文提出的算法具有較高的精確度。

[關鍵詞]離群點鄰域質心不穩定因子

離群點是指那些明顯偏離其它數據、不滿足數據的一般模式或行為，與存在的其它數據不一致的數據。物理學中質心與穩定性間存在聯系，離質心越近的點，穩定性越強，反之穩定性越弱。JihyunHa等人受這一性質的啟發提出了使用不穩定因子的健壯離群點檢測算法（INS算法）。該算法容易將處于稀疏區域與稠密區域的交界處的正常點誤判為離群點。為解決該問題本文提出了基于近鄰穩定性的離群點檢測算法（NSINS算法）。

1基于近鄰穩定性的離群點檢測算法

1.1算法思想

本文提出了基于近鄰穩定性的離群點檢測算法。該算法的主要思想是：數據集中任意一"點p的k個最近鄰組成p的k個鄰域，其中第i個鄰域包含了p和距離p最近的前i個點。每個鄰域計算兩個質心。一個質心與p相關，即鄰域中包括點p時的質心;另一個質心與p無關，即鄰域中不包括點p時的質心。最后會得到兩類質心，每類都有k個。比較這兩類質心的位置變化，最終確定p的不穩定程度。定義與p無關的質心考慮到了近鄰的穩定性對p不穩定因子的影響。

1.2相關定義

定義1鄰域（neighborhood）。點p的鄰域表示距離點p最近的k個點的集合，用6：（p）表示，即：

其中d（p，q）表示p，q之間的距離，Pr是p的第k個最近鄰。當P點計入6r（p）中時，6.（p）的基數是k+1;當p點不計入6r（p）中時，6，（p）的基數是k。

定義2相關鄰域質心（relatedcentreofmass）。點p的相關鄰域質心表示p的鄰域包括點p時的質心，用rm，（p）表示：

其中（...q.）是點q在d維空間中的坐標。

定義3無關鄰域質心（unrelatedcentreofmass）。點p的無關鄰域質心表示p的鄰域不含p時的質心，用urmx（p）表示：

其中點q代表第k個鄰域中除p以外的任意一點，xq=（x**"，xx）是點q在d維空間中的坐標

定義4相關質心距離（distance of unrelated center mass）。相關質心距離表示兩個相鄰的相關質心之間的距離。用rm_d（p）表示：

定義5無關質心距離（distanceofunrelatedcentermass）。無關質心距離表示兩個相鄰的無關質心之間的距離。用urm_d：（p）表示：

定義6不穩定因子（instabilityfactor）不穩定因子定義為相關質心距離之和與無關質心距離之和的比，用INSF表示：

INSF（P）值為1，說明p與鄰域內各點均勻分布;值大于1，說明p的加入使得鄰域質心的變化加劇，從而說明p的不穩性較強;值小于1，說明p的加入使得鄰域質心的變化減緩，從而說明p的穩定性較強。比值越大，p離群可能性越高。

2實例分析

數據集采用INS算法中的葡萄酒質量數據集。該數據集包括1599個紅葡萄酒樣本數據和4898個白葡萄酒樣本數據。品質差的葡萄酒和品質高的葡萄酒數據量很少，是離群點檢測的目標。紅葡萄酒數據集中K取值50時，INS準確率88.9%，NSINS準確率94.4%;K取值100時，INS準確率88.9%，NSINS準確率100%。白葡萄酒數據集中K取值50時，INS準確率65%，NSINS準確率85%;K取值100時，INS準確率70%，NSINS準確率80%。

3結束語

本文提出的算法改進了使用不穩定因子的健壯離群點檢測算法，考慮到了近鄰的穩定性對被檢測點的影響，該算法綜合兩類質心的變化情況來決定不穩定因子大小。在數據集分布不規則的情況下優勢明顯。

參考文獻

[1]Xia Huo-Song. Data warehouse anddata mining technolo [M]. Beijing： Science Press， 2004： 229-231.

[2]Jihyun Ha， Seulgi Seok， Jong-SeokLee. Robust outlier detection us ingthe instability factor [J]. Knowledge-Based Systems. 2014（63）： 15-23.

猜你喜歡

離群鄰域質心

重型半掛汽車質量與質心位置估計

汽車實用技術(2022年14期)2022-07-30

基于GNSS測量的天宮二號質心確定

北京航空航天大學學報(2021年4期)2021-11-24

稀疏圖平方圖的染色數上界

吉林大學學報（理學版）(2020年3期)2020-05-29

基于鄰域競賽的多目標優化算法

自動化學報(2018年7期)2018-08-20

關于-型鄰域空間

周口師范學院學報(2016年5期)2016-10-17

離群數據挖掘在發現房產銷售潛在客戶中的應用

中國房地產業(2016年9期)2016-03-01

基于局部權重k-近質心近鄰算法

應用科技(2015年5期)2015-12-09

離群的小雞

作文評點報·低幼版(2015年5期)2015-05-30

應用相似度測量的圖離群點檢測方法

西安交通大學學報(2014年8期)2014-04-16

一種基于核空間局部離群因子的離群點挖掘方法

上海電機學院學報(2014年3期)2014-02-28

電子技術與軟件工程2019年8期

電子技術與軟件工程的其它文章: 工信部：1-2月全國互聯網企業完成業務收入1498億元; 工信部：培育一批工業互聯網領域基礎性、行業通用工業APP; 多個芯片項目落地　成都加快千億元半導體產業布局; “互聯網+醫療”要瞄準百姓就醫痛點; 5G和AI讓產業互聯網發展進入“快車道”; 尚德敏學　唯實惟新

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合