?

民航氣象數據庫系統故障分析及處理

2016-10-18 10:59張國晶
中國新通信 2016年16期
關鍵詞:數據庫系統日志氣象

張國晶

【摘要】 民航氣象數據庫系統是依托民航 ATM 網絡建設的以華北空管局氣象中心為主節點數據庫,華東、中南、西南、西北、東北、新疆地區氣象中心為分節點數據庫的星形民航氣象情報廣域網數據庫系統,該數據庫系統是民航氣象業務的核心系統,承擔著全系統的資料收集、情報交換、預報平臺、服務支持等重要任務。本文從日常工作中幾個故障入手,給出故障的分析過程以及處理過程,以方便維護人員在遇到類似問題時能夠及時做出準確的排查。

【關鍵詞】 民航氣象數據庫系統 通信分系統

一、引言

民航氣象數據庫是航空氣象領域的數據庫系統,它是集氣象資料處理、通信傳輸和信息服務為一體的數據庫應用系統。它的主要功能是收集全國各地機場的氣象情報并進行交換,它的主要功能是對民航各機場的氣象情報進行收集和交換,對全球的氣象數據進行組織和管理,提供統一的數據接口,開放式的數據訪問,對海量的氣象數據進行快速檢索和有效存儲,具有靈活授權、高度共享、分布訪問、安全可靠等特點。它把系統所收集的大量氣象數據資料按照一定的結構組織起來,并通過給用戶提供數據維護、存儲、檢索等功能, 使氣象信息系統可以方便、及時、準確地從數據庫中獲得所需信息,為民用航空器的飛行提供及時、準確、標準化氣象資料,是氣象數據庫應用服務統一的支撐平臺。民航青??展芊志謿庀髷祿煜到y主要由通信子系統、數據庫子系統、預報平臺、監控子系統、應用和服務子系統等組成。本文詳細分析了幾起在民航氣象數據庫系統運行過程中出現的故障,方便相關數據庫維護人員在遇到此類問題時進行參考借鑒。

二、常見故障及排查

2.1數據庫監聽無法啟動

故障現象:2014年11月2日民航氣象數據庫系統應用服務器出現死機,重新啟動系統,啟動過程中發現監聽listerner無法正常啟動,根據系統錯誤告警提示得知:無法正常打開監聽日志文件及打開該文件出錯,即listener.log。

故障分析及解決過程:根據以往的處理經驗,出現此故障是由以下幾種原因引起:1)磁盤空間不足:磁盤空間不足,無法提供存儲空間以及程序運行空間,易出現上述情況。istener.log該日志文件的目錄為/u0/oracle/product/10.2.0/ db/network/log;通過使用df –v命令查看磁盤使用率,發現u0 所在磁盤的使用率為54%,且每周周維護時定期清除過期的歷史資料,故排除此種情況。2)日志過大而無法打開:通過命令查看,該日志文件的大小為4GB,同時查看1號數據庫及其他分局數據庫系統該日志文件的大小,發現均為4GB,且備份該日志后,用1號數據庫系統的日志文件進行替換,系統任然無法啟動,故排除此種情況。3)配置文件出現錯誤:根據以往數據庫監聽無法啟動的案列,此種情況可能是由于配置文件出現錯誤引起的,查看并與1號數據庫對比,發現配置文件未丟失且內容無異常,故配置文件是正確的。4)經向廠家負責氣象數據庫系統的軟件工程師請教并進行遠程檢查后發現,該日志文件的權限出現了問題,當時的權限為root:system,而該文件的權限應為 oracle:dba,故此故障是由該日志文件的權限發生改變引起的,使用root賬戶進行登錄,對文件的權限進行修改,之后再次啟動系統,監聽恢復正常,數據庫可以正常啟動。

2.2 數據庫磁盤空間使用率高

故障現象:近期民航氣象數據庫系統頻發出現登錄慢或死機現象,經檢查發現home文件系統增長迅速,且氣象數據庫磁盤空間利用率高,而通過歸檔文件遷出不能有效的釋放磁盤空間。

故障分析及解決過程:氣象數據庫機的磁盤空間超過70%時,通過歸檔文件的遷出,來釋放磁盤空間,但有時經過文件歸檔遷出后,磁盤空間利用率僅僅降了幾個百分點,短時間之內又會超過70%,通過歸檔文件的遷出,很難有效的釋放磁盤空間,尤其到了雨季后,磁盤空間的利用率漲幅更是比平常要快,鑒于以上原因,機務員經過檢查發現,home文件系統硬盤資源只有50G,而監控顯示文件系統的利用率達90%,通過命令查找大文件,顯示沒有,逐級查找大文件,發現/home/mhdbs/trash/rad/p2imag 文件夾異常大可達25G,即home文件系統的50%,進入文件夾查看發現每天全國下發的雷達圖可達3G左右,保存7天可達21G左右,正是由于雨季來臨后,雷達圖的數量增多,導致磁盤空間利用率漲幅很快,因此機務員將早期的雷達資料刪除,保留最近三天的資料,磁盤利用率可降到41%左右,系統運行暢通。

2.3 修改控制文件,本地數據庫無法收到氣象情報

故障現象:2015年6月24日收到民航空管局關于寧蒗瀘沽湖機場飛行氣象情報參加國內交換的批復,12:40(UTC)機務員對通信機控制數據進行修改,將寧蒗瀘沽湖機場的SACI76,SPCI76,FCCI76,FTCI76,WSCI76公報加入控制數據。在13:00(UTC)時次發現本地數據庫中沒有最新時次的氣象情報。

故障分析與處理過程:在發現本地數據庫中缺少最新時次的氣象情報后,機務員首先檢查通過ping西安交換服務器檢查網絡的連通性,網絡連接正常;檢查通信系統運行狀態,各進程運行正常,且MQ通道運行正常,隊列無積壓,檢查通信系統/home/comm/history/的留底文件,發現沒有最新時次報文收發記錄;故初步判斷是由于先前修改控制數據導致本地數據庫無法收到氣象情報。首先,通過預報編發報主機發送請求報,請求全國各地機場的氣象情報,2分鐘之后可以看到AFTN線路上有收報記錄,通過預報綜合信息服務平臺進行查看,發現數據庫報文資料恢復正常。機務員進入目錄20150624bak(提取和制作BSB的目錄)進行檢查,發現當前目錄下生成一個core文件,進入$HOME/msdat目錄,使用ls –l命令查看,通過文件最新修改時間發現MSS01. dat文件并不是最新作的控制數據,MSS04.dat是最新控制數據。判斷是在mv MSS*.dat $HOME/msdat過程中程序發生崩潰,導致mv命令執行失敗,只將MSS04.dat文件移動過去,MSS01.dat文件移動失敗。在$HOME/msdat目錄中,MSS01. dat和MSS04.dat兩個文件并不是由同一個bsb.txt文件生成的,所以當通信機收到氣象情報后,把它當成錯報丟棄。使用備份的bsb.txt文件重新制作BSB文件,并且確定$HOME/ msdat目錄下MSS01.dat和MSS04.dat是當前最新制作的BSB文件,執行冷啟動。持續監控下一時次,發現報文入庫正常。

三、小結

作為一名氣象數據庫維護人員,必須要掌握民航氣象數據庫系統的整體網絡架構拓撲,了解氣象資料的傳輸走向以及處理流程,通過不斷的業務學習,來提升自身的業務能力和素質,在系統出現故障之后,一定要保持沉著冷靜、有條不紊,不盲目的進行故障判斷,從關鍵點入手,逐步深入,檢查系統的各項運行狀態,找出異常,快速定位故障并進行故障排除。每一次故障的排除過程對我們來說是一個很好的學習機會,事后要善于對故障進行記錄、總結,組織科室全體人員進行學習討論,以便日后遇到類似情況時,能夠快速的定位解決設備故障,提高設備的運行率,保證各項業務的不間斷運行。

參 考 文 獻

[1] 太極計算機股份有限公司,民航氣象衛星傳真廣播系統用戶手冊,1-60.

[2] 朱盛文 民航氣象數據庫系統故障案例分析[期刊論文]-中國新通信 2015(23).

[3] 陳齊亞 民航氣象數據庫通信系統[M].西安,2011.

[4] 俞霄靚.陳齊亞.梁欣.兀鵬越 民航氣象數據庫系統一起典型資料傳輸故障的分析及處理[期刊論文]-計算機時代 2014(12).

[5] 李占睿 民航氣象二期數據庫系統管理、維護和二次開發[期刊論文]-氣象水文海洋儀器 2011(1).

猜你喜歡
數據庫系統日志氣象
計算機數據庫系統在信息管理中的應用
氣象樹
高效管理日志文件用命令行就可以
讀扶貧日志
雅皮的心情日志
雅皮的心情日志
文章有象
對分布式數據庫系統的安全分析
數據庫系統在信息管理中的使用
數據庫系統在計算機體系結構中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合