?

基于距離分布的AIS異常數據處理方法

2021-03-11 02:01馮宏祥ANNAMujalColilles楊忠振
中國航海 2021年4期
關鍵詞:船位水域預處理

馮宏祥, ANNA MujalColilles, 楊忠振

(1.寧波大學 海運學院, 浙江 寧波 315832; 2.加泰羅尼亞理工大學 航海學院, 西班牙 巴塞羅那 08003)

隨著船舶普遍裝備船舶自動識別系統(Automatic Identification System,AIS),海上交通及相關研究領域進入“大數據”時代,AIS大數據包含多種信息,具有多源、海量和快速增長等特征,對其進行挖掘具有廣泛的應用價值。目前,AIS大數據分析已在船舶行為識別[1]、海上交通特征分析[2]、船舶避碰[2]、海事調查[3]、船舶排放[4]、航路規劃[5]、海上風電選址[6]、漁業經濟[7]和航運經濟[8]等領域得到廣泛應用。但是,AIS數據在產生、傳輸和接收過程中不可避免地會出現異常,數據噪聲使很多原始AIS數據無法反映真實的船舶動態規律。[9]因此,需要數據預處理才能保證AIS數據的應用與挖掘質量[10],AIS大數據預處理是AIS大數據挖掘的基礎和前提條件。

盡管AIS大數據已成為海事領域的研究熱點,但有關AIS數據預處理的研究相對較少。[10]PALLOTTA等[11]開發一種船舶航路提取與異常數據檢測算法,用以解決多船共用海上移動業務識別碼(Maritime Mobile Service Identity,MMSI)的問題。SANG等[12]提出結合內河船舶航行特點的AIS航跡再現方法,把在航道轉彎段的軌跡劃分為直線、曲線和圓弧等3種類型,從而過濾掉異常單點B類AIS數據。SHELMERDINE[13]運用EXCEL的篩選功能預處理AIS數據的方法針對小樣本數據十分有效,但在處理海量數據時效率較低,實用性差。文獻[14]提出一種清除由時間不同步引起的異常AIS數據的算法,但無法清除由位置異常等引起的數據異常問題。WU等[15]研發了一個簡單的算法用以評估AIS信息和每個候選船之間的關聯,但僅限于在高速采樣AIS信息的小區域內應用。文獻[9]和文獻[10]分析了引起AIS軌跡異常的原因,提出檢測AIS航跡物理完整性、空間邏輯完整性和時間精度的方法,其普適性好但在使用時仍需進行數據的物理完整性、空間邏輯完整性和時間精度識別。因此提出一種簡單、普適性強的AIS大數據預處理方法。

1 問題的提出

1.1 MMSI誤共用問題

MMSI是船舶的唯一身份識別碼,但現實一直存在MMSI誤共用的問題。例如412000000、413000000、123456789、412888888和413888888等典型MMSI經常被多個船舶的AIS設備共同使用。2018年3月28日MMSI為412000000的船舶AIS軌跡見圖1。圖1中:軌跡的發散表明AIS數據存在異常,這是由于某種原因使該MMSI被14個AIS設備誤共用所導致的結果見表1。

圖1 MMSI為412000000的船舶AIS軌跡

1.2 船舶AIS信息更新時間完整性問題

根據國際海事組織(International MaritimeOrganization,IMO)的有關規定,船舶運動時AIS播發信息的時間間隔最長不應超過3 min。當同一艘船舶前后記錄信息的時間間隔過長時,AIS軌跡可能會出現奇異點,進而導致軌跡曲線不平滑,甚至出現軌跡穿越陸地、島嶼的現象。2018年3月28日MMSI為123403001的船舶AIS軌跡圖見圖2。由圖2可知:該船舶00:10:28從嘉興某碼頭駛出,05:06:28航行至野黃盤島西側水域時AIS信息停止更新;21:27:11—21:29:42后在野黃盤島—東霍黃礁之間又播發4條信息,之后便又停止了AIS數據更新。05:06:28—21:27:11期間,該船舶連續16 h 20 min 43 s未播發信息,AIS軌跡圖上出現長達48.3 n mile的異常跳躍。

表1 MMSI為412000000的船舶AIS設備信息統計

圖2 時間不完整導致AIS(MMSI為123403001)軌跡圖

分析研究水域所有的2 429 477條AIS信息記錄后,發現有1 674條更新時間超過3 min,0.068 9%,見表2。由于把這1 674個異常點與其前后時刻的船位點相連接不能真實地反映船舶的運動狀態,而這些異常點又是實際的船位。因此,應將其從記錄集合中分離出來。

表2 同一船舶AIS信息更新時間間隔統計表

1.3 AIS位置信息異常問題

由于船舶運動時AIS播發信息的最長時間間隔不應超過3 min,而在本文研究的水域內船舶航速通常小于15 kn,因此,可推斷研究水域內同一船舶前后記錄之間的距離一般不應超過0.75 n mile。當外界環境干擾、設備自身原因或網絡通信阻塞時,某些時刻的船位數據可能出現異常,使前后兩條連續記錄信息的船位距離超過0.75 n mile。此時,AIS軌跡上會有異常點,導致軌跡曲線不平滑,甚至出現軌跡穿越陸地、島嶼的情況。2018年3月28日MMSI為413455780的船舶AIS軌跡異常見圖3。該船2018年3月28日共3次出現在10 s的時間內船位跳躍超過3 n mile的異?,F象,其中最大為37.9 n mile,在AIS軌跡圖上表現為3個異常的“毛刺狀”脈沖。

圖3 位置信息異常導致軌跡異常(MMSI為413455780)

在研究水域所有的2 429 477條記錄中,共發現4 102條更新距離超過0.75 n mile的記錄,占0.168 8%(見表3)。這些異常點屬于數據噪聲,顯然不是船舶的真實船位,將其與前后時刻的船位點相連接會得到錯誤的船舶運動狀態信息,因此應從記錄集合中刪除如圖3所示。

表3 同一船舶AIS信息更新距離間隔統計表

2 基于距離分布的AIS異常數據處理算法

由上述分析可知,MMSI誤共用、AIS信息更新時間不完整及AIS位置信息異常等均會導致AIS軌跡圖上出現距離更新異常的現象。為明確AIS數據所顯示的距離更新的規律,對研究水域內的2 429 476個更新距離進行統計見圖4,發現各距離的出現頻次服從正態分布,即

X~N(μ,σ2)

(1)

式(1)中:μ為船位點更新距離均值;σ為標準差。

圖4 船位點更新距離間隔頻次統計及其曲線擬合

經檢驗,船位點更新距離的概率密度函數約為

(2)

式(2)中:x為船位點更新距離。

根據統計指標可發現:僅有3 187和2 359個更新距離落在μ+σ、μ+3σ之外,分別占0.131 2%和0.097 0%。因此,可考慮剔除落在μ+σ或μ+3σ之外的更新距離數據(本研究僅以μ+3σ為例)。這樣做可同時解決MMSI誤共用、AIS信息更新時間不完整及AIS位置信息異常所導致的距離更新異常問題,既簡化算法,又提高計算效率。

根據上述問題的描述和解決問題的思路,提出以下基于距離分布的AIS異常數據處理算法的步驟:

1)從數據庫導入解碼后的AIS數據,設置船速、經緯度門檻閾值。

2)剔除與本研究區域無關的數據,目的是減小計算樣本以提高計算效率。

3)計算同一船舶前后2個點之間的時間間隔及距離間隔。

4)剔除AIS信息更新距離大于μ+3σ的船舶位置數據。

5)標繪清除異常數據后的船舶AIS軌跡。

步驟1)~步驟5)的算法偽代碼如下:

3 實例研究

選取矩形水域(30°N~30.85°N,121.1°E~122.95°E)作為研究水域見圖5,該水域北至上海南匯嘴,南至舟山本島,西至嘉興港,東至西塊島。水域內商、漁船混雜,航線交錯,交通流密集,屬中國沿海通航環境較復雜的水域。選用的AIS數據來源于東海航海保障中心寧波航標處,源數據以SCII格式壓縮封裝,1 d的AIS原始數據文件容量高達1.3 GB。本文提取了2018年3月28日的AIS數據原碼,解碼后寧波航標處轄區及研究水域的船舶數量見表4。由表4可知:研究水域1 d內共出現船舶1 549艘,MMSI1 490個,錄得AIS信息2 429 477條。利用解碼后的AIS數據標繪研究水域的船舶軌跡得軌跡圖如圖5所示。由圖5可知:部分AIS軌跡穿越了舟山本島、岱山島、衢山島和洋山島,甚至深入到寧波慈溪的陸上;還有部分AIS軌跡保持數十海里,甚至上百海里的直線狀態。這些現象顯然是異常的,未經預處理的AIS數據難以直接應用。

圖5 研究范圍內未經處理的AIS數據顯示的船舶軌跡(2018年3月28日)

表4 寧波航標處轄區原數據概況(2018年3月28日)

采用本研究提出的算法對樣本集合中的AIS原始數據進行預處理,經過識別、分割與剔除異常數值后,標繪得到船舶AIS軌跡見圖6。由圖6可知:異常位置點均得以消除,預處理后每艘船舶的AIS軌跡都較為平滑,符合船舶交通流的基本特征。

圖6 本算法處理后的AIS數據顯示的船舶軌跡分布圖(2018年3月28日)

研究發現共有59個船名誤共用MMSI,占全部記錄的3.71%。59個船名所對應的并非全為實際存在的船舶。例如,圖1和表1中的數值為412000000的MMSI被14個船名所誤共有,考察發現,AIS船名“0”“07”“A”等實際上是船用B類AIS漁網定位儀,其MMSI均顯示為412000000,顯然是由于漁船船員的輸入錯誤所致。

1)根據這一現象建議漁業管理部門加強對漁船船員的培訓和教育,加強對漁船的執法檢查,督促其規范使用AIS設備,使AIS真正發揮協助海上避碰的作用,避免干擾通航秩序。

2)AIS大數據也給海事和漁業管理提供了新的方法和手段,即用AIS大數據挖掘發現船舶和船員管理中存在的問題,從而實現“遠程、無線、無接觸”執法。

分析研究水域所有2 429 477條AIS記錄數據,其中1 674條更新時間超過3 min,MMSI為123403001的船舶居然在2018年3月28日5:06:28—21:27:11的長達16 h 20 min 43 s期間內沒有AIS信息更新。這說明該船AIS設備存在異常,從側面反映這類船舶管理中存在隱患,值得相關管理部門關注。此外,和文獻[10]相比較,本算法的另外一個改進是沒有剔除船速為0的數據記錄,因此,經算法預處理后的數據還可用于分析船舶停泊及錨泊規律。例如,發現在嘉興、嵊泗、東霍山和衢山島東等水域,存在大量AIS軌跡圍成的小圓圈,有些位于錨地內,有些距離錨地較遠。對其實施進一步挖掘,可為有關部門的通航管理和交通規劃提供參考。

數據樣本和研究水域中分別有6 813 162、2 429 477條船舶的AIS信息記錄,在配置為主頻2.90 GHz、內存16.0 GB的工作站中,運用MATLAB實現算法編程,可在4 min內完成數據的預處理及AIS軌跡的標繪,表明本算法的計算效率高。另外,本算法的可移植性強,可直接應用于其他水域的AIS粗數據預處理,也可應用于更大范圍水域AIS粗數據的快速處理。

基于距離分布的船舶AIS異常數據處理方法,通過剔除或隔離異常更新距離對應的船位點(即更新距離落在μ+σ或μ+3σ之外的船位點),即可消除由于MMSI共用、AIS信息更新時間不完整及位置信息異常所引起的數據異?;蝈e誤。該方法類似于限幅濾波算法(或去除峰值的均值低通濾波算法)[16],可達到濾波算法相似的結果。

4 結束語

AIS大數據挖掘在水上交通管理、航路規劃、安全監督和航運經濟等方面有著廣泛的應用,而高質量的AIS數據是這些應用的基礎。由于環境干擾、設備因素、使用不當和信號傳輸等原因,AIS大數據中不可避免地存在數據噪聲。本文在分析AIS軌跡標繪產生錯誤或誤差原因的基礎上,從距離分布的角度對AIS數據集的誤差進行分析,提出了一種具有普適性的提高AIS大數據質量的數據預處理方法,且以洋山港附近海域1 d的AIS數據為例,進行原始數據預處理,然后用預處理后的數據繪制船舶AIS的航跡分布圖,驗證算法的適用性。

猜你喜歡
船位水域預處理
進博會水域環境保障研究及展望
北極航道的船舶組合導航方法*
柳江水域疍民的歷史往事
新版《遠洋漁船船位監測管理辦法》發布
城市水域生態景觀設計探討
基于預處理MUSIC算法的分布式陣列DOA估計
淺談PLC在預處理生產線自動化改造中的應用
絡合萃取法預處理H酸廢水
談ECDIS中的船位問題
基于自適應預處理的改進CPF-GMRES算法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合