?

淺談IT運維管理之系統集中監控

2013-09-03 06:32劉平均鄧陽名朱文柳
中國信息化·學術版 2013年7期
關鍵詞:監控系統數據采集

劉平均 鄧陽名 朱文柳

【摘 要】隨著網絡應用技術不斷發展,IT系統越來越復雜,業務對IT系統的依賴程度也越來越高。本文從項目背景、需求目標、功能設計、效果分析幾方面探討集中監控系統的建立。

【關鍵詞】IT運維管理; 監控系統 ;數據采集

【中圖分類號】C93【文獻標識碼】A【文章編號】1672-5158(2013)07-0070-01

前言

隨著企業信息系統項目的不斷建設和應用領域的不斷拓展,企業管理運營對信息系統的依賴性越來越大,對IT基礎平臺的運行可靠性要求也越來越高,企業的信息化工作逐步從項目建設階段轉向以深入應用、提升應用水平的運行維護階段。提高運維管理水平已成為現階段企業信息化系統應用的重要保證手段。

一、背景

信息管理部是信息化專業主管部門,負責網絡、主機等IT基礎設施和應用系統的建設、維護,致力于提供安全、高效、快捷的IT服務。近年來,隨著信息化建設的深入,企業應用不斷增多,主機服務器、網絡實施、操作系統、數據庫、應用服務器等軟硬件平臺日益復雜,服務用戶的面不斷擴大,如何維護好日益增多的主機網絡設備,保證各個應用系統安全順暢運行,為用戶提供良好的服務并及時解決各類問題和故障,是IT運維管理的關鍵所在。目前IT運維管理還處于初級階段,還沒有構建一個綜合的IT運維管理體系。對網絡、主機、系統等的管理和服務是分散的、不關聯的,沒有實現數據、信息和知識庫的共享,沒有實現規范化和流程化。因此需要建立一套融合組織、制度、流程、技術的IT運維管理體系,從粗放、分散、低效的管理逐步過渡到科學、規范的管理,實現從手工運維到自動化運維。按照IT運維管理理論、方法和標準,結合實際和建設需要,遵循立足需求、統一規劃、分步實施原則。根據實際人員和管理情況,當務之急是需要建立集中監控系統,實現對網絡及信息系統的綜合管理監控和日常技術支持,快速響應和及時解決信息系統運行過程中出現的各種問題和故障,確保網絡及信息系統正常、穩定、高效運行。

二、系統架構

2.1 系統架構圖

集中監控系統實現對不同服務對象和IT資源的實時監控,包括主機、數據庫、中間件、存儲備份、網絡、安全、機房、業務應用和客戶端等,并通過集中監控管理平臺對不同被管對象進行綜合處理和集中管理,其系統架構如圖1所示。

2.2 數據采集層

數據采集層負責基礎監控數據的采集、歸并、篩選、過濾、關聯等處理,同時對數據進行本地存儲。數據采集的方式根據被監控對象的不同可分為:

(1)路由交換機及網絡安全設備的數據采集方式采用SNMP協議輪詢,接收SNMPTRAP以及Sys-log,采集相關的狀態、事件信息。

(2)主機服務器針對不同的操作系統類型和監控的要求,采用SNMP協議、WMI、TELNET的方式輪詢。對于特殊應用需求,可以采用AGENT的方式采集數據,滿足個性化的需求。

2.3 數據分析處理層

數據分析處理層根據系統設定的各項功能模塊的具體要求,對數據采集層提供的數據進行進一步組織、分析和存儲,并將結果提供給上層的數據呈現層2.4 數據呈現層數據呈現層根據數據分析處理層提供的數據,通過Web界面以視圖、報表等方式向用戶展現。

三、系統主要功能

3.1 數據采集

數據采集是整個集中監控系統的基礎功能。采用SNMP、WMI、TELNET等協議輪詢、接收SNMPTrap、Syslog,或者通過安裝在主機/服務器上的A-gent上報信息,來獲取被監控對象的狀態信息、日志信息和告警信息,并作相應處理。

3.2 故障判斷集中報警

故障判斷根據采集的基礎數據和設定的判斷基準,對事件進行判定,確定故障是否存在,并生成故障級別信息。集中報警功能根據故障判斷提供的故障級別信息,采取不同的報警策略自動觸發,驅動不同的報警程序,比如郵件、短信、聲光等。

3.3 性能管理

性能管理對設備性能進行實時監控,比如:網絡設備的CPU、內存、端口流量,主機系統的CPU、內存、磁盤讀寫、交換文件等。監控參數管理可以定義監控周期和性能閾值,當性能超過閾值時,系統發出報警信息。

3.4 網絡拓撲管理

網絡拓撲管理利用直觀的圖形展示,幫助管理員更好地了解網絡系統的聯接情況,在網絡中出現故障時能夠快速定位故障發生的位置,從而更快速恢復故障。網絡拓撲管理根據網絡連接情況,自動生成和實際情況相符的網絡拓撲圖,為管理員提供真正的網絡視圖。通過網絡拓撲圖管理員可以方便地掌握設備分布情況和每個設備的運行狀態。

3.5 報表管理

報表管理用戶可以訂制資源使用報表、故障統計報表、資源趨勢報表、TOPN統計報表、可用性統計報表、綜合報告等不同類別的報表,并生成柱狀圖、曲線圖、餅圖等直觀圖表,實現各種信息的統計和分析,全面、宏觀地展示網絡的運行情況,有助于更細致地分析網絡數據,察看網絡、系統中可能存在的熱點故障、故障多發設備、故障多發時間,性能變化趨勢等,從中發現規律和趨勢,為決策者和管理人員提供詳細的統計分析報表。

3.6 配置管理

配置管理主要反應網絡系統中被監控系統配置更新的情況。

3.7 系統管理

系統管理主要包括系統配置、用戶管理、監控行狀況等的管理。用戶管理是實現系統用戶的基本信息維護和權限管理。監控策略管理是根據不同的監控對象和應用環境,設置不同的監控策略,比如數據采集周期、報警方式。

四、結束語

通過實施集中監控系統,可以獲得以下效果:各個分布在不同物理區域的系統都納入到集中監控系統,管理員可方便查看各個系統的運行情況,提高工作效率,節約人力成本。實現自動監控,在無需人員查看的情況下及時發現系統隱患和故障,提高發現系統錯誤的及時性、準確性,提高工作質量。按區域,設備,時間對監控項目的結果進行統計,并提供周報,月報,年報。使管理層能更方便有效地了解網絡、系統的運行情況,進行運行趨勢分析以及統籌規劃。

猜你喜歡
監控系統數據采集
無線廣播電視安全優質播出的技術分析
CS5463在植栽用電子鎮流器老化監控系統中的應用
縣級區域雨量站觀測設備監控系統的研究與設計
大數據時代高校數據管理的思考
基于廣播模式的數據實時采集與處理系統
通用Web表單數據采集系統的設計與實現
基于開源系統的綜合業務數據采集系統的開發研究
基于Zigbee技術的煤礦井下通風機監控系統設計
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合