?

基于數據挖掘的氣象數據分析系統的設計

2022-07-04 11:45汪浩然蔡朝朝張津豪婁家正陳毅季曉亮
科學與財富 2022年6期
關鍵詞:數據處理數據挖掘可視化

汪浩然 蔡朝朝 張津豪 婁家正 陳毅 季曉亮

摘? 要:伴隨著我國云計算與大數據等技術的起興與發展,我國氣象事業等領域積攢了大量的數據信息,因此人們可以利用其技術來指導分析氣象。氣象數據挖掘是一個新興的領域,它充分運用大多地域中存在卻沒有用到的數據,將這些數據按數據挖掘技術的要求進行分析處理、統計分類,可以有效預測氣象的在未來一段時間的表現。本文主要講述“基于數據挖掘的氣象數據分析系統”創新項目的研究目的、研究過程和主要功能。我們研發此系統的目的是為了讓關注、研究天氣的人員或機構更加直接地瀏覽氣象信息,簡單地預測近日最高與最低地表溫度,大大節約了傳統復雜信息整理的工作量,提高觀察信息效率。

關鍵詞:數據挖掘;氣象分析;數據處理;可視化

一、系統設計

(一)開發工具的選擇

Windows10、Pycharm、Navicat Premium、HBuilder X、Jupyter Notebook、sklearn、echarts、python、Django。

關于算法庫的選擇,sklearn是一個Python第三方提供的非常強力的機器學習庫,它包含了從數據預處理到訓練模型的各個方面。在實戰使用scikit-learn中可以極大的節省我們編寫代碼的時間以及減少我們的代碼量,使我們有更多的精力去分析數據分布,調整模型。sklearn擁有可以用于監督和無監督學習的方法,一般來說監督學習使用的更多。sklearn中的大部分函數可以歸為估計器(Estimator)和轉化器(Transformer)兩類。估計器(Estimator)其實就是模型,它用于對數據的預測或回歸?;旧瞎烙嬈鞫紩幸韵聨讉€方法:fit(x,y):傳入數據以及標簽即可訓練模型,訓練的時間和參數設置,數據集大小以及數據本身的特點有關。score(x,y)用于對模型的正確率進行評分(范圍0-1)。但由于對在不同的問題下,評判模型優劣的的標準不限于簡單的正確率,可能還包括召回率或者是查準率等其他的指標,特別是對于類別失衡的樣本,準確率并不能很好的評估模型的優劣,因此在對模型進行評估時,不要輕易的被score的得分蒙蔽。predict(x)用于對數據的預測,它接受輸入,并輸出預測標簽,輸出的格式為numpy數組。我們通常使用這個方法返回測試的結果,再將這個結果用于評估模型。轉化器(Transformer)用于對數據的處理,例如標準化、降維以及特征選擇等等。同與估計器的使用方法類似:fit(x,y):該方法接受輸入和標簽,計算出數據變換的方式。transform(x):根據已經計算出的變換方式,返回對輸入數據x變換后的結果(不改變x)fit_transform(x,y):該方法在計算出數據變換方式之后對輸入x就地轉換。

關于開發工具的選擇,Pycharm在兼容性、靈活性、生態系統、社區交流方面都具有一些優勢。

關于可視化插件的選擇,echarts包含了豐富功能的圖表,還提供了自定義系列,只需要傳入一個renderItem函數,就可以從數據映射到任何你想要的圖形,更棒的是這些都還能和已有的交互組件結合使用而不需要操心其它事情。

關于前端框架的選擇,Django海量的自帶工具和功能組件,開發者可借此迅速搭建Web應用。且Django的Model層自帶數據庫ORM組件,即使不懂SQL也不影響數據庫操作。憑借自帶的后臺管理,開發者僅需少量代碼就可實現完整的后臺數據管理。其APP可插拔的設計理念,使得系統可維護性極高,即使隨意對其添加和刪除,也不會對整體系統產生影響。

二、系統實現

(一)前端

主要頁面包括用戶登錄界面,登錄之后將會展現各地區的氣溫、污染指數、空氣質量等信息,其頁面主要是存在Templates下的count文件下,內容為根據爬取的數據繪制的最高氣溫變化、最低氣溫變化、平均污染變化的折線圖與餅狀圖。上面有導出數據、機器學習跳轉鏈接,分別是下載數據與跳轉數據分析可視化、構造回歸模型后預測結果的界面。

(二)數據獲取與存儲

數據的獲取是利用了網絡爬蟲技術,依靠requests模塊,傳遞2345天氣網的url,發送請求并且獲取響應。通過分析url,需要填入起始日期與結束日期的參數,然后進行拼接,最終可以獲取我們所要的時間范圍內的數據。數據的返回的格式是json格式,將我們想要獲得的是data字符里面包含的天氣信息,通過python取字典的值的方式獲取。最終獲取的數據比較規整,只需要把\\替換為空就可。

數據的存儲是依靠Sqlite數據庫,Django框架本身默認的就是Sqlite數據庫,創建的時候便就已經自帶,方便快捷。同時,它管理簡單,甚至可以認為無需管理。操作方便,Sqlite生成的數據庫文件可以在各個平臺無縫移植??梢苑浅7奖愕囊远喾N形式嵌入到其他應用程序中,如靜態庫、動態庫等。本項目有5張表,其中核心表為weather表。

(三)數據處理與分析

根據大量的數據值,我們對最高溫度與最低溫度進行隨機森林訓練,把最終訓練的模型存放在ml文件夾下。隨機森林是一種元估計器,它在數據集的不同子樣本上匹配多個分類決策樹,并使用均值來提高預測精度和控制過擬合。如果bootstrap=True(默認),則使用max_samples參數控制子樣本的大小,否則將使用整個數據集來構建每棵樹。

隨機森林有兩種算法:

(1)RandomForest algorithm:

樣本提取時允許replacement,在隨機選取的部分features上進行劃分,與原論文的vote方法不同,sklearn通過平均每個分類器的預測概率來生成最終結果。

(2)Extremely Randomized Trees:

有兩個class,分別處理分類和回歸,默認使用所有樣本,但劃分時features隨機選取部分。

隨機森林算法既可以應運到分類RandomForestClassifier(隨機森林分類)、又可以用于回歸問題RandomForestRegressor(隨機森林回歸)。

參考文獻:

[1] 鐘曉,等.數據挖掘綜述[J].模式識別與人工智能,2001,vol.14No.1,48-55.

[2] 吉根林,孫志揮.數據挖掘技術[J].中國圖像圖形學報,2001,vol.6(A),vol.8:715-721.

作者簡介:蔡朝朝(1978-),女,福建閩侯人,通訊作者,副教授,研究方向:數據庫技術與程序設計;汪浩然(2000-),男,安徽合肥,在讀本科生,研究方向:計算機科學與技術;張津豪(2000-),男,江蘇徐州,在讀本科生,研究方向:計算機科學與技術;婁家正(1999-),男,江蘇徐州,在讀本科生,研究方向:計算機科學與技術;陳毅(1999-),男,重慶,在讀本科生,研究方向:計算機科學與技術;季曉亮(1999-),男,江蘇南通,在讀本科生,研究方向:計算機科學與技術。

基金項目:新疆農業大學2021年大學生創新項目:基于數據挖掘的氣象數據分析系統的設計(dxscx2021321)

猜你喜歡
數據處理數據挖掘可視化
基于CiteSpace的足三里穴研究可視化分析
認知診斷缺失數據處理方法的比較:零替換、多重插補與極大似然估計法*
基于Power BI的油田注水運行動態分析與可視化展示
ILWT-EEMD數據處理的ELM滾動軸承故障診斷
探討人工智能與數據挖掘發展趨勢
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創新
基于并行計算的大數據挖掘在電網中的應用
一種基于Hadoop的大數據挖掘云服務及應用
基于希爾伯特- 黃變換的去噪法在外測數據處理中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合