?

IT運維的自動化探索

2014-10-21 20:07曾德華
電子世界 2014年12期
關鍵詞:關鍵因素自動化探索

曾德華

【摘要】伴隨著信息化的不斷深入,企業數據量呈指數倍上升趨勢,傳統IT運維管理出現了瓶頸,迫切需要IT運維自動化提升IT運維效能,高效、靈活地實現IT對業務的支撐,本文重點分析了IT運維自動化現狀及存在的問題,探索建立高效IT運維自動化系統的關鍵因素和未來發展方向。

【關鍵詞】IT運維;自動化;存在問題;關鍵因素;探索

IT運維自動化是指通過將IT運維日常的、大量的重復性工作自動化,把過去的手工執行轉為自動化操作,從傳統被動式服務轉變為主動預防式服務,從而全面提升IT運維效能。IT運維自動化的價值不僅在于保障系統本身的正常運行,降低運行成本,提高運行效率,更重要的是更高效、靈活地實現IT對業務的支撐,應對加速變化的業務流程,與業務融為一體,不斷創新。

1.IT運維自動化研究的背景

伴隨著信息化的不斷深入,企業數據量呈指數倍上升趨勢,面對越來越復雜的業務,面對越來越多樣化的用戶需求,不斷擴展的IT應用需要更加合理的模式來保障IT服務靈活便捷、安全穩定。傳統IT運維管理也逐漸出現了一些瓶頸,從初期的幾臺服務器發展到龐大的數據中心,單靠人工已經無法滿足在技術、業務、管理等方面的要求,標準化、自動化、架構優化、過程優化等降低IT服務成本的因素越來越被人們所重視。IT運維從誕生發展至今,自動化作為其重要屬性之一已經不僅僅只是代替人工操作,更重要的是深層探知和全局分析,關注的是在當前條件下如何實現性能與服務最優化,同時保障投資收益最大化。

2.IT運維自動化現狀及存在的問題

目前許多企業的IT運維已經實現從人工運維過渡到計算機管理,但大部分還停留在IT運維管理軟件的應用深化,管理流程的制定、梳理和優化,管理制度的完善階段,尚處于“半自動化”的狀態。傳統IT運維仍然是等到IT故障出現后再由運維人員采取相應的補救措施。運維管理部門平常的工作就像是“救火隊”。運維人員總是隨時緊張的待命,以便應付計算機系統各種各樣的需求,即使這樣,運維部門的服務質量和維護成本仍存在很多問題,主要表現在以下三個方面:

(1)被動運維效率低下

在IT運維過程中,只有當事件已經發生并已造成業務影響時才能發現并著手處理,這種被動“救火”不但使IT運維人員終日忙碌,也使IT運維本身質量很難提高。目前大多數企業的IT運維人員日常大部分時間和精力是處理一些簡單重復的問題,而且由于故障預警機制不完善,往往是故障發生后或報警后才會進行處理,不但事倍功半而且常常會出現惡性連鎖反應。

(2)缺乏一套流程化、標準化的IT運維機制

目前許多企業在IT運維管理過程中自動化的運維管理模式不足,也沒有明確的角色定義和責任劃分,使得問題出現后很難快速、準確地找到根本原因,無法及時地找到相應的人員進行處理和修復,或者是在處理過程中存在問題,缺乏發現故障的流程化,而在解決問題時不但缺乏標準化的解決方案,也缺乏一個完整的跟蹤記錄。

(3)缺乏高效的IT運維技術工具

隨著信息化的深入,企業IT系統日趨復雜,林林總總的網絡設備、服務器、中間件、業務系統等讓IT運維人員難以從容應對,即使加班加點地維護、部署、管理也經常會因設備出現故障而導致業務的中斷,嚴重影響企業的正常運轉。出現這些問題部分原因是企業缺乏事件的監控和診斷工具等IT運維技術工具,因為在沒有高效的技術工具的支持下故障事件很難得到主動、快速的處理。

3.建立高效IT運維自動化系統的關鍵因素

(1)梳理IT運維管理自動化流程。

依據ITIL等標準化的最佳實踐,實現配置、變更、事件等管理的自動化,通過流程管理,將人員、經驗、知識、工具及工作有效地整合在一起,起到互相促進的作用,同時也使得IT運維管理可量化、可衡量。

(2)建立自動監控管理平臺。

通過監控工具實現對用戶操作規范的約束和對IT資源進行實時監控,包括服務器、數據庫、中間件、存儲備份、網絡、安全、機房、業務應用和客戶端等內容,通過自動監控管理平臺實現故障或問題綜合處理和集中管理,將海量的網絡和服務器等節點進行實時的監控,通過有效的閥值設定,實現準確的故障以及與故障報警以及準確定位。例如,在自定義周期內進行自動觸發完成對IT運維的例行巡檢,形成檢查報告。包括自動運行維護,以完成對系統補丁的同步分發與升級、數據備份、病毒查殺等工作。

(3)合理選擇配置自動化工具。

配置變更檢測自動化。IT設備配置參數一旦發生變化,將觸發變更流程轉給相關技術人員進行確認,通過自動檢測協助IT運維人員發現和維護配置。

維護事件提醒自動化。通過對IT設備和應用活動的時時監控,當發生異常事件時系統自動啟動報警和響應機制,第一事件通知相關責任人。

系統健康檢測自動化。定期自動地對IT設備硬件和應用系統進行健康巡檢,配合IT運維團隊實施對系統的健康檢查和監控。

維護報告生成自動化。定期自動的對系統做日志的收集分析,記錄系統運行狀況,并通過階段性的監控、分析和總結,定時提供IT運維的可用性、性能、系統資源利用狀況分析報告。

(4)建立事件處理知識庫和跟蹤體系。

明確角色定義和責任劃分, 建立流程化的故障和事件處理機制,利用系統不斷完善的事件規范化處理和跟蹤指南,減少IT運維操作的隨意性和強化運維的執行力度,大幅度降低故障發生的概率。當系統分配任務后,處理人員只需要參照相關知識庫,一步一步操作,確保在指定時間內完成流程所規定的環節與工作。通過建立服務跟蹤體系,來保證服務達到規定的水平等級,即使服務失敗,也可以正確分析原因,幫助IT服務部門做出正確的應對決策。同時,用戶還應可以通過自助服務臺、電話服務臺等隨時追蹤該故障請求的處理狀態。

(5)確立IT運維流程處理優先級。

設立IT運維關鍵流程,引入優先處理原則,制定IT運維的每個關鍵流程,分配不同的優先級,例行的事按常規處理,特別事件要按優先級次序處理,也就是把事件細分為例行事件和例外關鍵事件,保證關鍵業務的最佳響應。

4.IT運維自動化未來發展展望

隨著云計算和虛擬化技術的發展,在為企業信息化建設節省大量成本的同時,也給企業的IT運維工作帶來了前所未有的挑戰,虛擬化的實施徹底改變了傳統的IT基礎架構,由原本固化單一的物理基礎架構轉變為虛擬多變的動態云架構,又使得運維工作產生了進一步的變化。中小公司不必再考慮諸如容災、備份方面的事宜,資源的按需交易不僅使得資源不再浪費,也使得業務調整時的伸縮變得更加容易且經濟上更加劃算,大大簡化了傳統意義上的運維工作,IT運維自動化工作的重點也將轉移到智能平臺架構的選型與優化上來,運維需要更關注業務特性及與之相關的技術體系,幫助研發決定各類云服務的選型、評估其對業務的適用性。隨著自動化運維技術的發展,運維人員有更多精力、條件,投入到整個服務架構的梳理、設計中,甚至以提供基礎組件的方式參與到研發過程,使得產品天生具有較高的可運維性。

參考文獻

[1]Jan van Bon,章斌譯.基于工TIL的全球最佳實踐.IT服務管理[M].清華大學出版社,2006,1.

[2]楊小曄.IT運維管理平臺的設計與實現[D].北京郵電大學,2011.

[3]張鵬.基于ITIL的IT運維管理中心的分析與設計[D].北京郵電大學,2011.

[4]王麗麗.IT運維管理流程優化研究[D].北京林業大學,2010.

猜你喜歡
關鍵因素自動化探索
AGV小車在白酒行業自動化立體倉庫中的應用
社會轉型期行政權控制的路徑探索
房地產項目策劃課程案例教學探索與實施
“創新人才培養模式”下的實驗教學改革探索
配電室無人職守集控站在京博石化的運用
配電線路運行資料管理自動化的探討
簡析建筑工程節能檢測的關鍵因素
單克隆抗體制備的關鍵因素
機械式脹形關鍵因素對橋殼壁厚分布的影響
部署資產管理的五個關鍵因素
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合