?

聚類分析技術在海南省極端降水研究中的應用

2016-12-27 15:10莫云音董凌宇吳盛洪葉彩榮
科技傳播 2016年19期

莫云音+董凌宇+吳盛洪+葉彩榮

摘 要 本文對海南省近55年的自動站逐日降水觀測資料進行數據清洗,利用數據庫加以存儲。接著利用圍繞極端值的三分聚類算法對海南省的日降水量進行聚類分析,得到近55年來海南省的日極端降水量的日際分布情況。結果表明海南極端日降雨量55年以來每年均有出現,但冬季和初春極少,主要集中在8—10月,而且海南省極端降水量呈東多西少的空間分布特征。

關鍵詞 極端;降水數據;挖掘聚類分析

中圖分類號 P4 文獻標識碼 A 文章編號 1674-6708(2016)172-0145-02

隨著氣象信息化的推進,全國建立了大量的氣象觀測站,自建立氣象觀測站以來,各地積累了數十年的氣象觀測數據,這些數據的數據量出現了成幾何倍數增長的態勢。海南省氣象局作為省級氣象部門,經過幾十年的存儲積累,也擁有了龐大的氣象觀測數據。面對海量的觀測數據,單純靠手工處理來對其進行應用研究分析,幾乎是不可能的。目前,隨著計算機技術、并行處理技術的飛速發展和廣泛應用,數據挖掘相關技術無論從理論上還是從實踐上都已經十分成熟,是近年來數據分析方面一個十分活躍的領域,越來越多的學者將其應用于數據分析當中。因此,采用數據挖掘技術來處理這些歷年累積的氣象數據,已經完全可能。

極端降水事件通常會造成城市內澇、海水倒灌,引起山體滑坡、泥石流等災害性天氣,近年來受到越來越多的關注。極端降水通常是小概率事件,存在空間的差異性,不同的地區的極端降水表現出不同的特征及變化趨勢。海南的極端降水事件也有自已的特征。因此,本文對海南省近55年的自動站逐日降水觀測資料進行數據清洗,利用數據庫加以存儲,采用聚類挖掘分析技術對海南省的日降水量進行聚類分析,以期得到近55年以來海南省的日極端降水量的日際分布情況。這對于認識海南的極端降水事件特征具有重要的意義。

1 聚類分析技術

1.1 聚類分析定義

聚類分析是根據數據對象的相似性對其進行聚類,使相似性很高的對象在同一類中,使相似度很低的對象在不同的類中。目前,聚類分析技術在各領域中已經得到廣泛的使用。在商業上,市場分析人員可以利用聚類分析技術,根據購買模式挖掘出不同客戶群的特征,從而區分出不同的客戶群。在生物學上,聚類分析技術可以根據動植物的基因進行聚類,挖掘出各個種群的固有結構,從而能夠更好地了解各類動植物。在氣象上,氣象研究工作者可以利用聚類分析技術來對全國各個地區的降水量進行聚類分析,對全國各地區的干旱等級進行劃分,從而為氣象防災減災、農作物養殖等方面提供有效的指導。

1.2 圍繞極端值的三分聚類算法

圍繞極端值的三分聚類算法策略是:在待挖據的數據集中,找出一個最大值和最小值,然后分別以這兩個值為聚類中心CMax和CMin,對剩余的數據進行劃分。下一趟中在剩余的數據中尋求一個最大值和最小值,將這一趟發現的最大值和最小值分別劃分給CMax和CMin,按此方法進行下去,直到剩余的數據量為原來總數據量的1/3時為止。

過程描述為:

輸入:結果簇數目3、數據集D、數據集對象數量n。

輸出:大值中心簇CMax和小值中心簇CMin,以及由剩余對象組成的中間簇CMid,其中,每個簇包含的對象數量各為n/3。

算法:

1)遍歷數據集D一次,找出D中的最大值DMax和最小值DMin,分別以DMax和DMin為聚類中心展開聚類,并標記DMax和DMin的狀態為已被訪問過,下次不再進行訪問。

2)繼續遍歷數據集D,找出D中的最大值DMax和最小值DMin,DMax劃分給CMax,DMin劃分給CMin,并標記這兩個值的狀態為已被訪問過,下次不再進行訪問。

3)重復步驟2),直到遍歷次數達到n/3次。

4)將未做標記的數據歸為一簇。

5)輸出CMax和CMin以及CMid,CMax按從大到小的順序排列,CMin按從小到大的順序排列,CMid中的對象則按其原來的相對位置進行排列。

圍繞極端值的三分聚類算法是專門為異常點的挖掘設計的,比較適合于極端降水的挖掘,所以本文采用它來對海南省的日降水量進行聚類分析。

2 聚類挖掘技術的應用

2.1 數據清洗及預處理

所用資料為海南島18個觀測站 、西沙永興島觀測站和西沙珊瑚島觀測站1961~2015年的逐日降水資料。

數據源中數據可能存在錯誤項,缺失值,重復值以及數據不一致等問題,在進行數據挖掘時,這些數據會影響到數據的挖掘過程,產生錯誤的挖掘結果。因此,在開始數據挖掘前需要對數據進行清洗、集成和轉換,才能為數據挖掘行為提供完整的、干凈的數據源。

自動氣象站實時觀測數據按照臺站號,逐小時進行記錄,自動氣象站設備故障、數據采集計算機故障、通訊網絡中斷、數據接收存儲中心軟硬件故障等會造成數據記錄的缺失。處理數據缺失值的常用方法有:列均值、就近跨距均值、就近跨距中值、線性內插值和線性擬合值。由于本文研究的降水量這個氣象要素是離散型變化的,所以對短時間(12小時以下)缺測記錄采用空間插值法來補充,對長時間(12小時以上)缺測記錄則對比人工定時觀測記錄來補充。

2.2 數據庫設計

為了便于進行數據挖掘,設計建立數據庫儲存經過預處理的數據集。首先完成數據庫的概念結構設計,得到由日降水量實體構成的E-R模型,如圖1所示。接著根據設計的E-R模型完成數據庫的物理結構設計,創建數據庫,并在數據庫中創建每日降水量表,如表1所示。

2.3 挖掘結果

海南極端日降雨量55年以來每年均有出現,但冬季和初春極少,主要集中在8~10月,進入5月后開始增多,在9月達到最高值,11月后幾乎沒有極端降水出現,海南省汛期出現的極端日降雨量數占全年的八成。而且海南省極端降水量呈東多西少的空間分布特征。

3 結論

本文采用聚類分析技術對海南省的18個基準站的日降水量進行分析研究,得到近55年來海南省的日極端降水量的日際分布情況。這對于認識海南的極端降水事件特征,做好防災減災服務工作具有現實的意義。數據挖掘技術的產生給氣象領域的分析研究帶來了新的發展,越來越多的氣象研究學者將其應用于氣象防災減災、氣象服務、氣候分析、天氣預報預測、氣象數據質量控制等領域的研究當中。然而,目前幾乎沒有學者將數據挖掘技術應用于海南氣象領域研究中,因此,本文將數據挖掘技術應用于海南極端降水研究中是本文的一個創新之處。希望本文的工作能夠對海南氣象服務、防災減災等方面的深入研究提供有用的參考。

參考文獻

[1]翟盤茂,王萃萃,李威.極端降水事件變化的觀測研究[J].氣候變化研究進展,2007,3(3):144-148.

[2]吳慧,吳勝安.近48年海南省極端降水時空變化趨勢[J].安徽農業科學,2010,38(19):10101-10103.

[3]吳勝安,郭冬艷,楊金虎.海南熱帶氣旋降水的氣候特征[J].氣象科學,2007,27(3):307-311.

[4]柯維耀.影響海南島熱帶氣旋降水分布特征分析與預測系統設計[D].成都:電子科技大學,2013.

[5]鄭忠平.基于關聯規則和聚類分析的異常天氣挖掘[D].成都:電子科技大學,2011.

[6]史靜,黨岳,張永欣,等.自動站數據質量控制中關聯規則挖掘的應用[J].氣象科技,2014,42(4):612-616.

[7]劉偉東,尤煥苓,任國玉,等.北京地區自動站降水特征的聚類分析[J].氣象,2014(7):844-851.

[8]吳巖峻.不同天氣系統對海南島降水的貢獻及其變化的研究[D].蘭州:蘭州大學,2008.

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合