?

基于數據挖掘的天氣因素研究——以吉安縣為例

2023-01-09 06:16吳玉春李金忠
關鍵詞:吉安縣本站氣壓

吳玉春,曾 寰,李金忠,楊 治,劉 華

基于數據挖掘的天氣因素研究——以吉安縣為例

吳玉春,*曾 寰,李金忠,楊 治,劉 華

(井岡山大學電子與信息工程學院,江西,吉安 343009)

影響天氣的因素有降雨量、氣壓、氣溫、風速及風向等,研究天氣影響因素對人們的生產生活有一定的指導作用。本研究提出使用數據挖掘技術探究天氣因素之間的相關性。使用K-S檢驗方法對數據進行正態性檢驗,使用Pearson相關系數,對天氣逐日數據降雨量、氣壓、氣溫、風速進行相關性檢驗,使用Eta相關系數對天氣逐日數據降雨量、氣壓、氣溫、風速與風向進行相關性檢驗,使用一元線性回歸對天氣因素氣壓和氣溫進行分析。在中國氣象網站的吉安縣1980-2019年天氣數據上進行實驗,實驗結果表明:數據集中各數據項不服從正態性分布,天氣當中的氣壓與氣溫具有強負關聯線性關系,風向類型與氣壓、氣溫有強關聯關系。

天氣分析;數據挖掘;線性回歸;Pearson相關系數;Eta相關系數

數據挖掘定義為從數據集合當中自動抽取隱藏在數據中的有用信息的非平凡過程,這些信息的表現形式為:規則、概念、規律和模式[1]。決策者可以通過數據挖掘技術來分析特定類型的歷史數據和當前數據,并從中發掘關聯關系,預測未來可能發生行為。隨著氣象信息化程度的提高,氣象部門積累了海量的氣象數據,據有關文獻顯示,氣象部門每天業務的應用的數據高達PB數量級[1]。如何利用好這些數據用以提高預報準確性和災害天氣預警能力成為重要關鍵問題。

目前,應用于氣象研究領域的數據挖掘技術主要包含兩個方面:采用數理統計方法如統計分析、相關分析方法和回歸分析在內的統計學模型;采用機器學習及數值分析軟計算方法應用于空間數據研究和氣象模式建模等[2]。

文獻[3]采用了C4.5分類方法、k-means聚類方法以及關聯規Apriori算法用于挖掘PM2.5與能見度、風速、風向、露點和濕度的相關關系。文獻[4]采用GIS空間分析技術及Mann-Kendall檢驗應用于華東區域暴雨的時空特征進行研究得到暴雨的發生表現出較強的空間差異性。文獻[5]使用了數理統計方法用于評估干旱檢測模型構建當中,得出采用SVM方法用于構建的模型對高程表現出較高的敏感性。文獻[6]選取地表溫度、大氣壓強等5個影響降水的氣象要素,分別采用C4.5、隨機森林對降水進行預測。文獻[7]采用k-means對經過一定規則提取的序列化特征進行符號化,并最終得到降雨天氣預測模型。文獻[8]將KNN算法應用霾等級的預報應用當中。文獻[9]利用神經網絡、樸素貝葉斯、隨機森林和K -近鄰算法構建天氣預報預測模型,并在Kaggle網站的天氣數據對各模型算法進行訓練和測試得出隨機深林算法取得最佳性能。文獻[10]運用數據挖掘技術中數據預處理技術來對從加拿大政府網站上的爬取天氣的天氣數據和海洋表面溫度數據進行篩選、無關數據剔除、數據歸一化等來完善數據,接著使用SPSS軟件進行時間序列分析,以及使用三維散點圖和直觀圖得到溫度在地域上的變化趨勢;同時建立連續復小波變換模型來對海洋表面溫度進行分析,得到海洋表面溫度存在周期性波動變化。綜合以上文獻,可以看出,天氣數據的分析常采用數理統計分析、相關性分析等統計學模型,其中數理統計分析方法主要包含:散點圖、直方圖等頻率分析技術;相關性分析用于對數據進行篩選,可用于對數據進行降維,去除無關數據的影響等。若需對天氣中某個因變量隨自變量的變化則采用回歸分析、機器學習等技術來對收集到的天氣數據進行建模分析。

本文從中國氣象網站上獲取了吉安市吉安縣1980年至2019年的天氣數據,利用數據挖掘技術中的相關性分析和一元線性回歸方法對該天氣數據進行分析與實驗并得出了一些相關結論。

1 研究方法

1.1 相關性系數

對不同數據類型之間的變量采用不同相關性分析方法,數據類型可以分為三類:標度型(Scale)、有序型(Ordinal)和類別型(Nominal),它們之間的定義分別為:標度型數據為連續性的數值如身高、體重、溫度等;有序型的數據為具有高低次序的階段性離散數值如年齡、學歷等;類別型的數據為沒有高低次序和大小區分如性別、民族等。

相關性分析方法一般采用四種:卡方檢驗,Spearman系數、Pearson系數、Eta系數。檢驗不同類型的變量的相關性方法如表1所示。

表1 不同類型變量的相關性方法

由于本研究涉及的數據類型為類別型數據和標度型數據,因此,接下來將只介紹Eta相關系數和Pearson相關系數。

Pearson相關系數適用于兩個連續變量的線性相關性描述,其計算方法為公式(1)。

Pearson相關系數僅僅是變量之間線性關系的一個度量,它不能用于描述非線性關系。當|| ≥ 0.8時,可視為高度相關;0.5 ≤ || ≤ 0.8時,可視為中度相關;0.3 ≤ || ≤ 0.5時,視為低度相關;當|| ≤ 0.3,說明兩個變量之間的相關程度極弱,可視為不相關。

當求取類別型變量與連續型(標度型)變量的關聯強度時,可利用η(Eta)系數。其計算方法如公式(2)所示。

1.2 一元線性回歸

回歸分析當中,線性回歸可以用來定量的分析兩種或兩種以上變量間的相互依賴關系,當只包括一個自變量和一個因變量且二者的關系可用一條直線擬合時,稱為一元線性回歸分析。其線性方程為公式(3)。

=+(3)

其中x為自變量,y為因變量。擬合求解時采用最小二乘法,其方程為公式(4),(5)。

2 結果

2.1 數據源

文中分析的數據集來自中國氣象網,收集到的為吉安市吉安縣1980年1月1日至2019年12月31日逐日天氣數據,數據條數為14609條,數據格式為表2。

表中2019年12月31日的數據表示為10237×0.1hPa = 1023.7hPa的平均氣壓,98×0.1℃ = 9.8℃的平均氣溫,38×0.1mm = 3.8mm累計一天的降水量,平均風速為17×0.1m/s = 1.7m/s,最大風速風向的編碼為2。表中各列的數據類型有標度型和類別型,其中平均氣壓,平均氣溫,20-20時累計降水量(一天累計降雨量),平均風速為標度型,最大風速風向為類別型。

表2 天氣數據的原始格式

2.2 數據正態性分布檢驗

本研究采用概率密度直方圖的形式對天氣各特征數據進行直觀顯示,結果如圖1所示:

由圖1可得出數據集中各特征數據正態分布不明顯。因為樣本量大小14609>5000,所以采用Kolmogorov–Smirnov(K-S)檢驗方法對以上各列天氣數據進行進一步正態分布檢驗,各列數據項在顯著性水平為0.01的情況下,其結果如表3所示,K-S檢驗結果表明各數據項均不符合正態分布。

表3 采用K-S正態性檢驗結果

注:*代表1%的顯著性水平

結合兩種方法對數據進行正態性檢驗,得出平均本站氣壓、平均氣溫、一天累計降水量、平均風速這些數據項均不符合正態分布的分布規律。如果樣本數據正態分布,則樣本數據大概率可以代表總體數據,樣本數據若非正態分布,則樣本數據和總體數據之間關聯弱。論文中獲取的1980-2019年的天氣樣本數據不符合正態分布,不能代替總體天氣數據規律,采用相關性分析和一元線性回歸的分析結果不作為總體預測結果。

2.3 相關性分析

針對吉安市吉安縣天氣數據進行了相關性分析,其中平均本站氣壓、平均氣溫、20-20時累計降雨量,平均風速各列由于是標度型數據,因此可以采用Pearson相關系數對它們之間的線性相關性進行分析;由最大風速風向屬于類別型數據,而其他各列數據類型為標量型數據,因此,最大風速風向列與其他列相關性分析采用Eta相關系數。結果如表4和表5所示。

表4 基于Pearson系數的相關性分析結果

注:**在 0.01 級別(雙尾),相關性顯著。

表5 基于Eta系數的相關性分析結果

由表4和表5所展示的結果可以得出,平均本站氣壓與平均氣溫具有較高的負線性相關性,最大風速的風向分別與平均本站氣壓,平均氣溫具有較強相關性。

2.4 一元線性回歸分析

采用一元線性回歸方法對平均本站氣壓與平均氣溫作進一步分析,通過數據擬合得到如圖3(a)所示線性方程y=1.02E4-0.88x,其中x為平均氣溫,y為平均本站氣壓,線性置信度R2為0.790,表明具有較高的線性擬合度。從圖3(b)所示的回歸標準化殘差的正態P-P圖和圖3(c)所示的回歸標準化殘差的散點圖也可以得出其擬合性好。

(a)平均本站氣壓與平均氣溫線性回歸圖;(b)回歸標準化殘差的正態P-P圖;(c)回歸標準化殘差的散點圖

2.5 極端天氣分析

由于天氣狀況中暴雨天氣危害極大,而在氣象部門發布的天氣預報中小雨、中雨、暴雨等專業術語,它們之間的區別是:小雨是指24 h內降水量不超過10 mm的雨,小到中雨為5 ~ 16.9 mm,中雨為10 ~ 24.9 mm,中到大雨為17 ~ 37.9 mm,大雨為25 ~ 49.9 mm,大到暴雨為38 ~ 74.9 mm。24 h內雨量超過50 mm的稱為暴雨,超過100 mm的稱為大暴雨,超過250 mm的稱為特大暴雨。我們統計了吉安市吉安縣降雨量> 38 mm的隨月份變化的歷史統計結果,結果如圖4所示,吉安市吉安縣暴雨發生頻率比較高的時段為4-6月份。

圖3 1980-2019吉安縣暴雨天氣隨月份變化的歷史統計

3 結論

本研究采用數據挖掘相關技術對吉安縣1980年至2019年的天氣的逐日數據進行分析,各特征項不服從正態分布,吉安縣平均本站氣壓與平均氣溫具有較高的負線性相關性,最大風速的風向分別與平均本站氣壓、平均氣溫具有強相關性,吉安縣暴雨發生頻率比較高的時段為4-6月份。通過對實驗結果的分析,有利于指導人們生產生活。

[1] 彭霞云,裘薇,李文娟,等.數據挖掘技術用于降水相態判別的嘗試[J].科技通報,2018,34(1):44-47.

[2] 賈志明,王東峰,程智.數據挖掘技術在氣象預報研究中的應用[J].黑龍江科學,2020,11(8):34-35.

[3] 危蓉,徐偉.基于大數據的天氣狀況研究[J].信息通信,2015(12):122-123.

[4] 婁寧.基于時空數據挖掘技術的華東區域暴雨時空特征[J].應用生態學報,2017,28(12):4043-4050.

[5] 張婧嫻,沈潤平,郭佳.不同數據挖掘方法在綜合干旱監測模型構建中的應用研究[J].江西農業大學學報,2017, 39(5):1047-1056.

[6] 張佳華,姚宜斌,曹娜.基于決策樹對有無降水進行預測[J].測繪地理信息,2017,42(5):107-109.

[7] 陳曉云,吳本昌,韓海濤.基于多維時間序列挖掘的降雨天氣模型研究[J].計算機工程與設計,2010,31(4):898-902.

[8] 熊亞軍,廖曉農,李梓銘,等.KNN數據挖掘算法在北京地區霾等級預報中的應用[J].氣象,2015,41(1):98-104.

[9] Fairoz Q Kareem,Adnan Mohsin Abdulazeez,Dathar A Hasan. Predicting weather forecasting state based on data mining classification algorithms[J]. Asian Journal of Research in Computer Science,2021.

[10] 陳波,姬家昌,多俊杰.關于全球氣候變化和極端天氣數據的量化分析[J].科學技術創新,2020(24):56-57.

RESEARCH ON WEATHER FACTORS BASED ON DATA MINING – TAKING JI’AN AS AN EXAMPLE

WU Yu-chun,*ZENG Huan,LI Jin-zhong,YANG Zhi,LIU Hua

(School of Electronics and Information Engineering, Jinggangshan University, Ji’an, Jiangxi 343009, China)

This paper proposed to use data mining technology to explore the correlation among weather factors. Pearson correlation coefficient and Eta correlation coefficient tests were performed on daily data of rainfall, air pressure, air temperature, wind speed and wind direction. The linear equation was used to fit the air pressure and air temperature with high correlation. Experiments were carried out on the weather data of Ji’an city from China meteorological website. The experimental results showed that Pearson correlation coefficient analysis suggested air pressure was strongly negative correlated with air temperature, but Eta correlation coefficient analysis suggested wind direction type is strongly correlated with air pressure and air temperature.

data mining; weather analysis; linear regression; Pearson correlation coefficient; Eta correlation coefficient

TP311.13

A

10.3969/j.issn.1674-8085.2022.06.011

1674-8085(2022)06-0071-05

2022-05-19;

2022-06-24

國家自然科學基金項目(62141203);江西省教育廳科技計劃項目(GJJ180574);吉安市指導性科技計劃項目(吉市科計字2021[8]號基礎11);井岡山大學科研基金項目(JZ2004)

吳玉春(1975-),女,江西吉安人,高級實驗師,碩士,主要從事數據挖掘研究(E-mail:1322391726@qq.com);

*曾 寰(1990-),男,江西吉安人,實驗師,碩士,主要從事數據挖掘研究(E-mail:584251395@qq.com).

猜你喜歡
吉安縣本站氣壓
維斯塔潘衛冕F1總冠軍
看不見的氣壓
基于SWOT分析的吉安縣旅游發展研究
SKY微型氣象站對比觀測數據分析
《液壓與氣壓傳動》課程教學改革探索
MAZDA CX-5(2020款)蟬聯2019CCPC大賽冠軍
基于FPGA熱壓罐的溫度和氣壓控制研究
壓力容器氣壓端蓋注射模設計
消 息
吉安縣退出貧困縣 江西第二個脫貧摘帽貧困縣
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合