?

電力營銷全方位可視化監控系統的應用

2018-11-24 08:05國網湖南省電力有限公司信息通信分公司童一維陳中偉
大眾用電 2018年11期
關鍵詞:運維信息系統監控

● 國網湖南省電力有限公司信息通信分公司 童一維 陳中偉

南瑞集團(國網電力科學研究院)有限公司 盛紅雷

隨著國家電網公司信息化建設的不斷深入,信息系統已經融入到電力公司生產經營的各個層面,信息化逐漸成為生產經營不可或缺的重要組成部分,也是保障電力公司安全生產的重要環節。

營銷系統是湖南省電力有限公司信息化的核心業務應用系統,直接面向社會公眾。系統于2009年上線,電力客戶繳費、客戶信息查詢、抄表計費等核心業務均在營銷系統中開展,營銷系統的安全、穩定運行成為了電力公司為電力客戶提供優質服務的關鍵。自營銷系統上線以來,業務規模不斷擴大,用戶量從450萬增加到2400萬,接口從8個增加到29個,核心業務功能增加了35個,系統架構愈加復雜。

在這種情況下,一旦營銷系統發生故障,信息系統運維人員往往只能根據經驗對數量眾多的營銷系統組件(服務器、數據庫、中間件等)進行逐一排查,很難快速定位到故障點,導致故障恢復時間長、故障影響范圍擴大,直接影響營銷系統為客戶提供優質的服務。

如何通過監控后臺及時、準確地發現營銷系統的故障,成為了擺在運維人員面前的一個課題。

1 監控系統現狀與需求

1.1 監控完整性

監控系統使用的多是監控主流信息設備,如服務器、數據庫、中間件、網絡設備等,隨著公司信息化工作不斷深入,信息設備類型越來越多樣化,這就需要將生產環境中的各類設備均納入監控,減少人工巡視工作量。

同時,傳統的物理設備/節點監控有時無法完全、真實地反應信息系統的實際運行狀況。營銷系統業務功能的響應快慢,與用戶的體驗感息息相關,直接影響到營銷優質服務的開展,因此,必須要實時獲取營銷系統業務流程的完整性能情況。

1.2 監控準確性

傳統的監控軟件多是關注監控信息設備/節點的幾個主流指標,如服務器的CPU利用率、內存利用率等,實質上每一類型信息設備/節點均含有豐富的運行指標來反應其運行狀況,需要將其他的運行指標進行綜合評估分析與納控。

信息系統監控其中一個重要作用就是需要發出合適的告警信息。傳統的告警配置多是根據行業推薦值進行告警等級分類與對應的閾值設定,不一定適合每個信息系統的實際生產監控需要,因此,需對每個監控指標的告警閾值進行合理分析與調整,以便更精確地反映系統運行情況。此外,一個告警事件的發生可能會影響到多個信息設備/節點的正常運行,產生多條告警信息,因此需根據一定的規則對告警進行壓制合并,輔助提供告警源信息,并協助進行告警根源分析。

1.3 監控信息可視化展示

由于信息設備類型眾多,通常是利用多種監控采集軟件或者其他手段對相關運行指標進行采集,這些數據分散于各個監控采集軟件中。為了方便運維人員與運行值班人員從整體上掌握系統運行情況,需要構建統一的告警展示平臺,集中展現采集到的各類告警信息與指標性能變化情況。

傳統的監控往往只能顯示零散的監控信息,無法從信息系統的整體角度直觀顯示其運行情況,而在信息運維過程中,需要能夠直觀展示信息系統相關的業務流程、應用程序、軟硬件平臺和基礎架構等之間的關聯關系,從整體角度展示系統相關的各設備/節點的運行情況與告警信息,精確定位故障點,并在第一時間通知運維人員及運行值班人員,實現故障的及時響應、快速修復。

2 營銷系統監控實施

2.1 營銷系統軟硬件平臺監控全覆蓋

隨著新技術在實際生產中的不斷應用,信息設備類型越來越多樣化,在湖南省電力有限公司營銷系統中,除了常用的Linux操作系統、Oracle數據庫、WebLogic中間件、存儲設備等軟硬件設備外,還使用了InfiniteBand卡、閃存卡、SSD盤、Oracle Active DataGuard等關鍵新技術/設備。

通過監控系統的部署、研究與實施,已經將這些新技術/設備納入了監控,填補了公司在此類新設備監控方面的空白,實現了營銷系統軟硬件平臺監控的全覆蓋。

2.2 構建監控指標體系

針對營銷系統中各種不同類型的設備,首先根據經驗設置監控指標和告警閾值,在實際監控過程中,根據運行以及告警情況,持續對監控指標和告警閾值進行調整、優化,使得告警閾值趨于合理。構建監控指標體系,使監控納管工作有章可循,監控采集指標更有針對性,更準確地反映信息系統與設備的運行狀況,告警信息更準確,最大限度避免不必要的告警對正常運維、監控工作造成干擾。

通過與短信平臺、郵件系統的集成,將告警信息通過短信、郵件等方式實時地通知給相關工作人員,提高告警信息處理的及時性。

2.3 開展營銷系統業務監控

經過調研溝通,選取營銷系統的“抄表算費”“客戶查詢”這2個與客戶服務密切相關的核心業務流程。采用自動撥測技術,模擬用戶每5分鐘登錄營銷系統,執行這2個業務流程。

對這2個流程中共計12個流程節點(如營銷系統登錄、電量電費計算等)的響應時間進行了實時監測。同時,定期對抄表用戶數、待處理任務數等28個反映營銷系統業務量的業務指標也進行統計和計算。

通過采集業務流程執行狀態及響應時間,實時獲取了營銷系統用戶體驗的第一手數據,即時發現營銷系統性能的薄弱點。

根據業務流程響應時間以及業務指標量的變化趨勢,分析營銷系統業務高峰期,分析用戶操作數量和系統吞吐量,協助對應用系統承載能力進行評估,助力系統的容量管理。

3 構建營銷系統全局監控視圖

3.1 信息系統分層監控模型

利用Obashi方法論,對營銷系統的系統架構進行梳理,從業務模塊、業務環節、業務數據,到相應的應用、硬件設備、數據庫、中間件等軟硬件平臺,建立起邏輯架構關系,建立面向業務可視化監控的分層模型并定義各層的管理對象,形成分層監控視圖模型,如圖1所示。

圖1 營銷系統分層監控視圖模型

結合生產實際,營銷系統分層監控模型包括應用系統層、業務功能層、軟件平臺層、硬件平臺層這4個層級。

3.2 監控信息可視化展示

監控信息的統一、分層展示是監控平臺的一個重要特性,通過采用動態圖形、靈活定制監控對象以及與動態告警提示的結合,實時展現被監控資源的關鍵性能指標與信息指標,幫助用戶克服信息盲視,更加輕松有效地管理日益增多的信息資源。

數據展示接受來自數據處理實時推送過來的數據,并及時地反饋到互動視圖當中,用戶不用頻繁的設定和等待查詢,提高了系統界面的互動性和信息的準確性、及時性。

可視化展示根據不同的數據維度導航并展示不同的信息,劃分為多個層次,包括應用系統層、應用服務層、系統服務層、物理平臺層。

(1)應用系統層:分層展示營銷系統的軟硬件平臺、業務應用等組件及其運行情況。

(2)業務功能層:可視化展示營銷系統關鍵業務功能的辦理流程。點擊流程的每個節點,可以展示該節點的響應時長及業務辦理量。

(3)軟件平臺層:展示支撐營銷系統運行的中間件、數據庫等軟件的運行情況,按照其所支撐的業務功能,對軟件平臺進行分組。點擊每個節點,可詳細查看中間件節點、數據庫服務具體的性能指標和告警信息。

(4)硬件平臺層:展示支撐營銷系統運行的的主機、網絡設備的運行情況,以及主機與網絡設備的關聯關系。點擊每臺設備,可詳細查看該主機、網絡設備性能指標和告警信息。

一旦營銷系統發生故障或者異常,在統一展現平臺會實時彈出告警信息,相關異常點在可視化視圖中會出現紅燈閃爍,準確定位故障源,便于快速修復故障。

4 取得的成效及展望

通過對軟硬件平臺全面納控,開展業務功能監控,實現了對營銷系統的全方位精準監控。構建起營銷系統全局監控視圖,實現營銷系統監控一張圖,提供了一雙監視營銷系統運行和應用狀況的“火眼金睛”。采用短信、郵件等多種方式將告警信息實時通知到相關人員,有效提升了故障處理效率,營銷系統故障平均處理時長縮短了75%。一方面節省了運維人員的人力資源,另一方面,營銷系統故障處理效率提高,用戶體驗好感提升。

該方法現已推廣到了國網湖南省電力有限公司的全部信息系統。下一步,提高系統監控、告警的自動化程度,將是深化應用的努力方向。

猜你喜歡
運維信息系統監控
企業信息系統安全防護
The Great Barrier Reef shows coral comeback
運維技術研發決策中ITSS運維成熟度模型應用初探
你被監控了嗎?
Zabbix在ATS系統集中監控中的應用
風電運維困局
基于區塊鏈的通航維護信息系統研究
信息系統審計中計算機審計的應用
雜亂無章的光伏運維 百億市場如何成長
基于SG-I6000的信息系統運檢自動化診斷實踐
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合