?

數據中心基礎設施運維管理工作的研究

2022-05-11 00:02李銳
今日自動化 2022年3期
關鍵詞:運維管理數據中心基礎設施

李銳

[摘 ? ?要]隨著云計算、移動互聯網、大數據等新業務模式和新技術的不斷發展,以智慧城市、虛擬現實、人工智能等為代表的產業應用正在全面實施和加速演進,數據中心已成為國家戰略性的信息基礎設施。數據中心的安全性、可靠性和穩定性支撐作用會更加凸顯。文章在了解傳統數據中心配套設施運維基礎上,深入研究大數據時代數據中心設施運維管理工作的具體措施,提出通過主動、積極地精細化運維管理來不斷提高數據中心各系統的可用性,從而滿足用戶需求。

[關鍵詞]數據中心;基礎設施;運維管理

[中圖分類號]TP308 [文獻標志碼]A [文章編號]2095–6487(2022)03–0–03

Research on the operation and Maintenance Management of Data Center Infrastructure

Li Rui

[Abstract]With the continuous development of new business models and new technologies such as cloud computing, mobile Internet, and big data, industrial applications represented by smart cities, virtual reality, artificial intelligence, etc. are being fully implemented and accelerated. Data centers have become national Strategic, fundamental information infrastructure. The security, reliability and stability of the data center will be more prominent. On the basis of understanding the operation and maintenance of the supporting facilities of traditional data centers, we deeply study the specific measures for the operation and maintenance of data center facilities in the era of big data, and propose to continuously improve the availability of various systems in the data center through active and active refined operation and maintenance management. meet user needs.

[Keywords]data center; infrastructure; operation and maintenance management

1 概述

互聯網從最初Web1.0、2.0應用,逐漸演進到云計算、大數據時代,進而全面邁向“互聯網+”的萬物互聯時代,數據中心作為互聯網的關鍵基礎設施和物理承載體,逐漸從成本中心演變為服務中心,從支撐業務到驅動業務發展,并成為業務創新的加速器[1]。

隨著“互聯網+”滲透到各行各業,數據中心的規模日益龐大,系統日漸復雜,數據中心安全運行也面臨諸多挑戰:

(1)系統設施大幅增加,標準化程度不高,管理難度大。隨著數據中心不斷發展、業務系統不斷擴容,數據中心供配電系統、制冷系統、消防系統、安防系統以及VESDA(極早期煙霧報警系統)等設備同樣迅速增加,基礎設施運維任務日益繁重,維護質量難以保證。

(2)運維管理難度大,運維工作碎片化,行業運維人才短缺,運維管理規范化、一體化程度不足。

2 關鍵設施運行維護

數據中心設施系統架構包含關鍵基礎設施、人員構成、操作規程以及運維操作管理平臺(DCOM),如圖1所示。

圖1中可以看出,數據中心關鍵設施包括IT模塊、強電模塊、弱點模塊以及暖通模塊,這些關鍵設施的運行維護要求對日常工作的細節進行嚴格把控,尤其是對它們的操作及其維護要點應有較為深入的了解,有計劃、有重點地針對關鍵設施開展行之有效的維護工作并使之常態化,是運維人員及時發現故障隱患和提升維護質量的有力手段。

2.1 高低壓配電

高低壓配電系統為數據中心所有設備提供電力支持,合理的供配電系統設計和安全穩定輸出是數據中心連續、高效運行的可靠保證。供配電系統具有結構設計復雜、自動化程度高、運行方式靈活、設備質量和性能要求高等特點。

數據中心的高低壓供電系統由高壓和低壓配電線路、變電站(或配電站)及用電設備組成。一般由10 kV高壓配電柜、變壓器、低壓主配電柜、終端配電箱、應急發電機、UPS等主要設備構成。

高低壓配電系統維護的技術性強,內容專業且具體,執行過程中通常需要設備原廠專業工具和儀器,其維護一般分為自主維護和購買專業廠家維保,作為使用方更多關注維護工作計劃和管理以及在廠家維護過程中進行現場監督和提供支持,確保設備日常巡檢項目以及預防性檢測項目保質保量完成。

(1)高壓配電柜檢測維護周期。以施耐德10 kV配電柜PIX產品為例,在實際運行過程中,檢測維護周期,如表1所示。

(2)變壓器檢測維護周期。干式變壓器與油浸式變壓器相比具有安裝輕便、結構簡單、防火性能好的特點,在數據中心被廣泛使用,檢測維護周期,如表2所示。

(3)低壓配電柜檢測維護周期。以奧利圖iPD智能精密配電柜為例,在實際運行過程中,檢測維護周期,如表3所示:

2.2 UPS

UPS的作用主要有不間斷切換、隔離作用、電壓變換作用、頻率變換作用和提供一定的后備時間。其中不間斷切換和提供后備時間是保證對負載供電的連續性;其他三項是保證對負載供電的質量。通常情況下,UPS設備開機時會檢查設備運行環境,設備房間的溫度、濕度等設定應符合要求,一般溫度不宜超過25℃。

UPS系統的日常維護內容包括UPS設備巡檢、UPS的輸入/輸出配電柜巡檢、蓄電池巡檢等,巡檢頻次為2~3次/d,UPS系統的定期維護主要包括功能性檢查(含電池放電測試)、故障模擬測試等,一般檢查頻次為1次/季度。

2.3 蓄電池組

閥控式密封鉛酸蓄電池(VRLA)在UPS電源中廣泛的應用,數據中心機房對蓄電池的要求可以歸納為安全性、可靠性(高功率)、長壽命、經濟性。但由蓄電池故障而引起供電系統故障的比例約為30%至50%。因此,加強蓄電池的正確使用和維護,對提升系統可用率、降低UPS電源系統故障率、延長設施使用壽命都有著重要的意義。

進行蓄電池組例行化維護時,應重點檢查電池外觀與結構不可出現裂紋、變形、漏液等現象,檢查連接條緊固程度、氣密性、電壓/內阻(1次/每季度)、環境、電流校準(對比UPS顯示值)。同時做好每季度激活性充放電以及每年核對性放電。另外,針對蓄電池出現漏液或者內阻過大(>3 mΩ)的情況,考慮12 V 200 AH VRLA使用壽命約5~8a(不同品牌、不同使用單位的規定略有差異),應當盡快更換蓄電池單體或蓄電池組以確保安全穩定運行。

2.4 制冷系統

通常情況下,數據中心制冷系統可分為水冷型和風冷型。風冷型適用于小型數據中心,具有獨立的制冷回路,成本較低,維護量較小。水冷型則適用于大型數據中心,采用自然冷卻手段,規模節能效應顯著,但系統組成復雜,維護量較大。

2.4.1 風冷精密空調維護

風冷精密空調維護工作主要針對室內機,室內機主要由壓縮機、風機、蒸發器、過濾器、加濕器、加熱器、排水系統、控制器等構成。在實際運行過程中,壓縮機、加濕器出現故障的比例較高。

壓縮機是維持制冷系統高低壓力的核心,其正常工作時,高低壓的壓力值會在一個正常范圍內,以艾特網能Cool Master系列CM100DA精密空調使用R410A制冷劑為例,壓力值正常范圍設定,如表4所示。

以佳力圖MEAD802精密空調使用R22制冷劑為例,壓力值正常范圍設定,如表5所示。

當壓力值超出正常范圍時,應判斷壓縮機或制冷系統存在故障。若壓力偏低,檢查是否系統中制冷劑不足,或存在泄露;當壓力偏高,檢查冷凝系統(室外機)是否工作正常,或系統是否存在堵塞問題等。

精密空調加濕器分為電極加濕器和紅外加濕器,電極加濕器結構原理相對簡單,成本較低,但對水質要求較高,維護工作量較大。應定期清潔加濕,避免大量水垢積淀在加濕灌中,同時在日常加濕過程中,注意檢查加濕電流及排水管排水是否正常。

2.4.2 冷凍水型空調系統維護

冷凍水型空調系統主要由制冷主機、冷卻塔、冷卻水泵、冷凍水泵、分集水器、末端機房空調和膨脹水箱等組成。在實際運行中,應當嚴格遵守維護規程,按照操作手冊對系統各組成部分進行定期巡檢。

除此之外,冷凍水型空調系統還應注意如下事項:

(1)預防市電中斷。宜采用雙路市電保證水泵不間斷運行和自啟動,對于T4標準的數據中心冷凍水循環水泵和末端可采用UPS或EPS電源。

(2)水源儲備。應當儲備一定數量的水源用作冷卻塔熱量排放蒸發以及排污,一般可儲備8~12 h且雙路補水水源。

(3)管網和設備的備份冗余。對于大型數據中心,管網應當為環形管路或雙支路[4]。管路和閥門的配置可滿足系統不停機維護的要求,制冷主機、冷卻塔、水泵和末端可采用N+1備份。

3 DCIM運維管理可視化

數據中心基礎設施管理(DCIM)是一套可以收集、監控、管理、控制基礎設施的工具。DCIM向管理人員提供諸多信息,包括環境監測、電力系統、制冷系統、報表管理、數據分析等,輔助管理人員根據需求做出適當的維護計劃[2]。對于DCIM的維護工作可從以下兩個方面開展。

3.1 IP化采集設備

IP化采集設備目前有兩種,一種是透傳模式,另一種是前端智能主機模式。以前端智能主機模式為例,在實際巡檢維護中,應當模擬以下場景:

(1)后臺管理系統與前端智能主機設備出現通信異常,通過網頁是否可以登錄IP化采集設備,查看相關動力、環境設施的參數信息,對該設施進行模擬狀態變化,查看在IP化采集設備上是否有相應的事件記錄;判斷通過網頁設定的UPS、空調等控制功能是否生效。

(2)對被監控設施進行相關的操作,模擬故障告警等相關狀態,查看DCIM管理端是否能夠收到狀態變化信息、是否能夠在指定時間內頻繁告警。

3.2 管理服務器

DCIM管理服務器包含硬件和軟件兩個層面。①硬件層面維護通常包括除塵以及硬件配置升級,保證服務器處理性能的同時兼顧穩定性;②軟件層面維護應當包括數據維護、應用軟件升級等。

4 運維管理規范化

做好數據中心基礎設施運維管理離不開完整的規章制度和嚴格的維護操作規程。

4.1 加強制度體系建設

加強數據中心運維體系制度建設,明確運維體系組織結構,落實管理人員主體責任,維護人員定崗定責[3]。

4.2 建立健全操作規程

結合實際,針對數據中心具體設施制定相應的維護操作規程并嚴格執行,做到有章可循、有法可依。加強考核管理,最大程度降低人為因素造成的故障。

4.3 制定設施維護計劃

按照配電、制冷、監控、消防和物理安全五大系統分類制定維護計劃表,做到有日常巡檢、周巡檢、月度維保、季度維保、半年維保和年度維保,巡檢和維保內容對應五大系統各類設施,特別是關鍵設施如:冷水機組、高低壓配電柜、變壓器、發電機、UPS、PDU、精密空調等,同時做好關鍵基礎設施的應急演練;消防、監控系統設備巡檢時注重設備的可用性和聯動性。

4.4 完善運維培訓體系

制定系統的專業知識培訓體系,并隨著新技術、新業務的引進不斷完善;制定崗位規范培訓計劃,強化設備運行狀態分析和故障判斷處置能力;制定安全生產培訓計劃,不斷提升運維人員的職業素質和技能水平,提高獨立分析和解決問題的能力。

5 結束語

數據中心基礎設施的運維管理是一項長期而復雜的工作,“以業務為中心,以制度為根本,以關鍵設施為重點”,嚴格執行維護規程,不斷提高維護效率,才能有效促進數據中心基礎設施運維管理水平的

提升。

參考文獻

[1] 程小丹,李崇輝,曹潔.數據中心設施運維指南[M].北京:電子工業出版社.

[2] 鄭立.DCIM賦能數據中心智能化運維[J].電信技術,2019,9(10):171-172.

[3] 喬曉攀.大數據時代下機房管理與運維工作的研究[J].現代工業經濟和信息化,2018,16(50):15.

[4] 付雷.提高數據中心基礎設施可用性運維管理體系研究-以G數據中心為例[D].南昌大學,2019.

猜你喜歡
運維管理數據中心基礎設施
關于間接蒸發冷機組在數據中心中應用的節能分析
公募基礎設施REITs與股票的比較
基礎設施投資項目
前7個月國內充電基礎設施增加12.2萬臺
2018年數據中心支出創新高
新政府會計準則規范公共基礎設施處理
2017第十屆中國數據中心大會榜單
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合