?

云計算挖掘民航氣象歷史歸檔數據

2017-03-22 22:17劉彬卿
電子技術與軟件工程 2017年3期
關鍵詞:私有云云計算

劉彬卿

摘 要目前,民航氣象中有大量歷史歸檔數據,海量的氣象數據具有很高的挖掘價值,數據價值的挖掘需要大量的計算,而云計算為此提供良好的基礎。由于各地區空管局氣象中心之間網絡的聯通,為空管局內部建設自己的私有云提供了便利的條件。搭建私有云為各空管局之間數據共享和云計算提供了物理條件。云計算技術使用分布式的計算技術實現了并行計算的計算能力和計算效率,解決了單機服務器計算能力低的問題。本文最后用hadoop搭建了云計算平臺作為實驗,并用該平臺處理了部分歷史歸檔數據。

【關鍵詞】氣象數據 云計算 私有云 Hadoop

1 背景

目前氣象預報主要使用4種預報處理方法:第一種是經驗預報方法,在天氣圖形勢預報的基礎上,根據天氣系統的未來位置和強度,對未來天氣的分布做出預測;第二種是統計預報方法,通過統計某一現象在歷史的特定環境條件下出現的概率,從而推測出在未來存在類似環境時出現的可能性;第三種是數值預報方法,利用大氣運動方程組,在一定的初值和邊值條件下對方程組進行計算,預報未來的天氣;還有一種是集成預報方法,即把不同預報方法對同一要素的多種預報結果綜合在一起,進而得出一個優于單一預報方法的預報結果。

氣象數據獨立存在幾乎沒有價值,但往往配合其他數據,就會產生綜效。從海量的氣象數據眾挖掘與其他商業活動的關聯,從而實現精準營銷和精確預報具有很重要的意義。目前,空管局氣象中心有著海量的氣象數據,包括了各類結構化和非結構化的數據,MM5,WRF等氣象數值預報模式每天的計算量更是驚人。氣象預報的精度也從幾百公里、幾十公里提高到幾公里,大大增加了模式的計算量。這需要配置很高的硬件才能實現,目前信息中心的數值預報每個計算模式是4臺linux系統并行運算,該模式對硬盤的可靠性要求高,節點的接入和去除也比較復雜。因此如何高效的從這些海量數據中挖掘氣象歷史規律,有效地存儲、處理氣象大數據已經成為急需解決的問題?,F在,云計算技術可以為氣象大數據服務提供技術支撐。

2 Openstack建設私有云

OpenStack是由美國國家航空航天局和Rackspace合作研發的,以Apache許可證授權,并且是一個自由軟件和開放源代碼項目,它是一個云平臺管理的項目。部署OpenStack主要有三個核心開源項目,Nova(計算)、Swift(對象存儲)和Glance(VM存儲庫)。Nova提供了跨服務器網絡的VM實例的管理,它的應用程序編程接口(API)為未知物理硬件和系統管理程序提供了一種計算編排方法。Swift項目可通過配置了普通硬盤的標準服務器提供可伸縮的冗余存儲集群,可用于主要是靜態數據的長期存儲。Glance為Nova能夠使用虛擬磁盤映像提供了一個存儲庫,提供了一個API來注冊磁盤映像,還提供了磁盤映像校驗和、版本控制(和其他元數據)以及虛擬磁盤驗證和審計/調試日志.

目前全國七個空管局的氣象中心信息室之間網絡連接,數據共享。用于報文和氣象產品分發的通信機為類linux系統(AIX或者linux),本文構想七個空管局氣象中心用openstack搭建一個私有云。服務器、網絡、存儲的虛擬化,不但合理使用了各局之間的硬件,而且實現了數據的異地備份,節點的添加和去除也很方便。

該云計算數據中心整合了存儲系統、刀片服務器以及小型機等,通過虛擬化、自動化、虛擬存儲等技術將氣象數據處理業務系統集成統一管理,構建了統一架構的應用服務平臺,針對各種應用的維護、管理、升級均在服務器端實現,減少各地區管理員的維護和日常工作任務。云計算數據中心的用戶交互接口以Web方式向用戶提供。首先是針對物理資源虛擬化,虛擬化機制將具體的物理計算特性加以封裝隱藏,對外提供統一邏輯接口,從而屏蔽物理設備多樣性帶來的差異,實現了服務器虛擬化、存儲虛擬化、網絡虛擬化.目錄服務是用戶可以訪問的服務清單,監控統計用于監控用戶申請資源的運行情況,進行用戶使用節點情況的統計。用戶端在原有較低資源配置情況下實現遠程高強度計算和大存儲容量的工作。這種模式可以很好地解決當前空管局氣象中心信息室的資源難共享、數據不一致等問題,提升資源的利用率,當然也可以在一個中心單獨部署,方便管理和維護所有應用。

3 用Hadoop挖掘氣象數據

3.1 MapReduce處理技術

搭建云計算數據中心實現服務器虛擬化、存儲虛擬化、網絡虛擬化,方便了系統管理,也為hadoop云計算軟件的工作提供了基礎。Hadoop包括Hadoop內核、MapReduce、Hadoop分布式文件系統(HDFS)以及一些相關項。

MapReduce通過把對數據集的大規模操作分發給網絡上的每個節點實現可靠性,每個節點會周期性的把完成的工作和狀態的更新報告回來。如果一個節點保持沉默超過一個預設的時間間隔,主節點記錄下這個節點狀態為死亡,并把分配給這個節點的數據發到別的節點。每個操作使用命名文件的不可分割操作以確保不會發生并行線程間的沖突;當文件被改名的時候,系統可能會把他們復制到任務名以外的另一個名字上去。如圖1所示。

(1)與傳統的計算方法相比,基于mapreduce模型編寫整編算法的優越性主要體現在以下幾個方面:mapreduce計算模型是分布式的,它充分利用了多個節點的計算能力和 I/O帶寬,將原本集中在一臺單機上依靠順序運行的算法改為可以并行運行,使得在較短時間內最大程度利用了現有空閑資源。

(2)map和reduce之間的中間結果不需要程序干預平臺,本身會將所有map輸出的結果進行處理,省去用戶程序中對大量中間結果的存儲和處理,簡化用戶程序邏輯。

(3)mapreduce 計算模型下任務運行更靈活。由于計算任務本身無需對數據源范圍進行框定,所以可在不修改任務界面和程序的情況下,完成對不同時間段歷史資料整編值的計算。

3.2 氣象數據挖掘

數據挖掘是氣象數據處理的重要組成部分,從已知數據集中發現各種模型和概要的過程,其實數據挖掘是一個循環反復的過程,首先利用一些分析工具對數據進行檢查,從某一個方面對數據進行分析,可能對數據做一些修改,然后又回到開始,應用其他的分析工具,獲得一個不一樣的或者更好的結果。盡管如此,數據挖掘不是分析方法的隨意應用,而是精心安排和攝入考慮,決定什么才是最有用、最合適的一個過程。數據挖掘的過程可簡要歸納為:問題定義、數據清洗與集成、數據選擇與轉換、數據挖掘算法執行、以及結果的評估與表示。

目前,氣象數據挖掘的方法主要有聚類分析、分類分析、時間序列分析、關聯規則及孤立點分析、回歸分析、依賴關系分析等,目前,有人采用聚類方法對氣溫數據進行處理,得到了很好的氣候區劃結果,還有人采用粗糙集方法對臺風路徑進行預測。

3.3 實例

本文設計了一套測試方案,包括云平臺集群構成、系統環境參數、并行任務、數據自身存儲結構等。通過修改平臺本身各項參數配置以及測試數據存儲形式,分析云計算平臺中map-reduce計算模型運算時效的各種因子,目前新疆空管局信息中心數值預報系統為4臺linux并行,本文模擬該環境,虛擬化出4個系統,每個系統配置相同,系統版本為linux的一個分支CentOS 7,主節點配置IP地址為:192.168.2.1,其他3個分節點配置IP為192.168.2.2,192.168.2.3,192.168.2.4.

測試使用了MM5的計算,根據計算測試,比較和分析傳統計算模型與mapreduce模型的計算時效量級。云平臺的管理上更便捷,云計算平臺的計算能力和運行時效與云平臺集群構成、系統環境參數、并行任務、數據自身存儲結構以及服務器性能、最大并行任務數、單個任務計算量、平臺穩定性等諸多因素有關,在其他參數不變的情況下,任意兩參數之間也并不是簡單的線性關系。

hadoop在任務調度時,任務初始化時間和尋址時間在任務整體運行時間的比例是決定任務時效能否提高的重要標準。由于基于傳統小文件方式運行的任務初始化時間和尋址時間占總體任務的很大一部分,所以可優化空間較大。

4 小結

目前空管局氣象中心的數值預報的并行預算,節點管理麻煩,存儲管理相對云平臺也不可靠,使用openstack搭建空管局氣象中心的私有云,在現有基礎上將民航氣象中心及全國七個地區民航氣象中心構成為八個大型航空氣象計算和存儲中心,該云中心擁有十到百萬億次計算能力和TB到PB級產模式。服務器、存儲、網絡均虛擬化,不但簡便了管理,降低運營成本,減少故障率,更是在此基礎上搭建hadoop的云計算,數據挖掘歷史數據。MapReduce分布式處理技術可以有助于氣象大數據的處理與分析。本文設計的云環境下的氣象大數據服務框架為氣象行業大數據服務奠定基礎,提供了一個技術參照。云環境下氣象大數據的服務與應用可以加速氣象行業信息化進程、加快各地區空管局氣象部門信息共享、完善異地災難備份方案。云平臺的適當應用能解決現有氣象業務中一部分科學計算任務面臨的問題,所以探索和開展基于云計算平臺的通用大數據量科學計算的適用性和可行性是有意義的。

參考文獻

[1]彭九慧,丁力,楊慶紅.幾種降水集成預報方法的對比分析[J].氣象科技,2008,36(05):520-523.

[2]朱珠.基于 hadoop 的海量數據處理模型研究和應用[M].北京:北京郵電大學,2008:7-20.

[4]萬至臻.基于mapreduce模型的并行計算平臺的設計與實現[M].杭州:浙江大學,2008:17-21

[5]張強,熊安元,張金艷等.晴雨(雪)和氣溫預報評分方法的初步研究[J].應用氣象學報,2009,20(06):692-698.

[6]金之雁,顏宏.數值天氣預報并行計算模式的設計與可行性討論[J].應用氣象學報,1993,4(01):117-121.

[7]沈文海.從云計算看氣象部門未來的信息化趨勢[J].氣象科技進展,2012,1(02):49-56.

作者單位

民航新疆空中交通管理局氣象中心信息室 新疆維吾爾自治區烏魯木齊市 830001

猜你喜歡
私有云云計算
虛擬網絡建設思考與實現
實驗云:理論教學與實驗教學深度融合的助推器
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合