?

基于大型機平臺的兩地三中心建設與運維探索

2020-04-12 08:54陳炎
締客世界 2020年8期
關鍵詞:同城災備備份

陳炎

(江蘇省農村信用社聯合社 江蘇 南京 210019)

引言

隨著金融服務范圍和渠道的不斷擴大,銀行IT系統架構不斷復雜,金融監管要求越來越嚴格。建立高效、實用的“兩地三中心“整體容災體系是每家銀行面臨的實際問題,本文以南方省級農商銀行為例,介紹了該行在IBM大型機平臺建設“兩地三中心”的過程和運維探索。

1 基礎平臺及同城災備中心建設

核心銀行系統向客戶提供存款、貸款、支付等最基礎的銀行服務,為所有重要業務提供帳務處理,是銀行系統的基礎和核心,也是銀行最重要的系統。該農商銀行采用大型機作為核心銀行系統的硬件基礎平臺,于2011年隨新一代綜合業務系統投產上線。

上線初期,改行采用六臺IBM Z10-BC主機構建一套SYSPLEX集群,其中四臺主機均衡的承擔業務的運行,一臺外置CF負責并行耦合環境的交互,當集群內仍一節點發生故障,業務會自動分發至其他三節點運行,實現同一站點集群內的高可用和負載均衡。

同時在建設中充分考慮了災備建設的需求,實現了核心系統同城數據級災備,即在30KM里外的災備中心放置一臺備份存儲和一臺備份磁帶庫,雙中心通過DWDM設備級聯。主生產機房的主機可通過兩臺SAN交換機訪問本地DS8700存儲和TS3500帶庫,也可以通過DWDM級聯的方式訪問災備機房DS8700存儲和TS3500帶庫。且對生產環境的存儲實施PPRC同步復制技術,將數據實時的拷貝到災備站點的存儲上,同時利用IBM GDPS/PPRC方案實時監控并及時捕捉通知災難發生的觸發器信號,當存儲發生災難時自動觸發切換。

隨著業務的發展和監管的要求,改行于2012年啟動系統級同城災備建設,在災備中心采購一臺大容量災備主機,日常模式下該主機處于待機狀態,當發生故障導致生產中心整體無法對外提供服務時,可臨時激活災備中心主機容量,并在災備主機上啟動生產系統以繼續對外提供服務。

關鍵技術:

PPRC技術

保證數據一致性。PPRC是以存儲為基礎的、實時的數據遠程鏡像功能。PPRC災難備份方案將確保如果備份卷不能被更新,那么即使源卷更新成功,整個寫操作也會返回失敗--徹底保證源卷和目的卷的數據徹底一致。

操作性強。PPRC實現相對簡單,其操作可在存儲上或操作系統上完成,且可配合GDPS等自動化工具方便操作。

應用透明性。PPRC是一種同步協議,它允許數據從一個邏輯單元(Logical Unit)到另一個邏輯單元進行實時的鏡像。PPRC是與應用無關的。由于該復制功能是在磁盤系統級發生的,應用根本不知道PPRC的存在。

GDPS技術

改行災備恢復方案采用了GDPS技術,它是基于主機SA和NETVIEW開發的,實現了災難備份與恢復的自動化。其主要特點有:

與PPRC有機結合。GDPS可以完成對所有PPRC備份和恢復的集中控制,通過GDPS SYSPLEX的K系統,有效地實現災備系統的集中管理。

備份與恢復流程自動化。使用GDPS,可以很方便地實現磁盤數據復制的自動化、數據恢復自動化、災難備份系統管理自動化等功能,保證系統的可恢復性。

保證災難恢復時間。由于實現了備份和恢復的自動化、流程化,經過充分演練后的災難恢復流程可以準確保證災難恢復時間。

易于開發實施??梢岳肎DPS提高的各種SCRIPTS,方便地實現各種自動化工作,可開發性強,操作簡便。

2 建設異地數據級災備中心

按照銀監會《商業銀行數據中心監管指引》,總資產規模一千億元人民幣以上且跨省設立分支機構的法人商業銀行,及省級農村信用聯合社應設立異地模式災備中心,重要信息系統災難恢復能力應達到《 信息安全技術信息系統災難恢復規范》 中定義的災難恢復等級第5級(含)以上,改行于2015年啟動核心系統異地數據級災備建設項目。

本次異地數據級災備項目建設中核心系統的數據將被傳輸到異地災備中心,在發生重大自然災害造成生產中心和同城災備中心機器都癱瘓的情況下,將在一定程度上保證核心系統的數據不丟失。但由于傳輸距離遠,且選擇異步傳輸的方式,數據的傳輸會有一定程度的滯后。

根據現有同城災備架構及實現異地數據級復制的目標,在考慮到今后將異地災備完善成系統級災備乃至實現雙活的因素下,項目采用Global Mirror技術實現異地數據復制,生產中心產生的數據在實時地同步到同城災備中心的同時,再由同城災備中心異步地同步到異地災備中心。在帶寬充裕的前提下,采用Global Mirror實現異地數據復制的RPO約為3-10秒。

如上圖所示:Global Mirror是基于PPRC-XD(異步數據傳輸)和Flash Copy(數據快照)的異步數據復制技術,同時可以確保異地磁盤的數據一致性。數據采用PPRC-XD技術由主盤(A盤)傳輸到異地盤,同時定期在主盤(A盤)創建“一致性組”( Consistency Group),該一致性組是由一系列“位圖”(Bitmaps)來記錄數據同步情況。當一致性組中的所有磁盤都完成了未同步數據的傳輸,在異地磁盤執行Flash Copy(B盤到C盤),這樣就保留了一套一致的數據。

3 架構優化升級、構建聯動兩地三中心

由于原有冷備模式,災備恢復的過程人工干預較多,恢復時間受人員到位情況和熟練度影響較高。目前同城災備的RTO(災難恢復時間)為4小時,在發生機房級故障時災難恢復時間無法滿足監管機構相關要求。

為進一步提高核心系統服務能力,滿足業務連續性和相關監管機構要求,該行于2018啟動核心系統主機同城溫備建設。在生產六臺主機各新增兩塊IFB板卡用于和災備主機進行遠程IFB 1X互聯,在災備主機上新增一套災備管理系統和第五節點系統P105,并于原有系統構建一個跨雙中心的Parallel Sysplex高可用系統,同時采用GDPS/PPRC HyperSwap, 確保災難發生后生產系統和數據能快速切換到災備主機和備份磁盤,實現生產系統災難接管。當發生計劃內切,換時,RTO(災難恢復時間)大概為5分鐘。

為進一步檢驗大型機核心業務系統在真實災難場景下所能承載的處理能力,該行于2019年11月某日凌晨將核心業務系統切換至同城災備中心運行,核心業務系統在同城災備平穩運行兩個日間業務時段和兩個夜間批量業務時段后順利回切至生產中心。

4 總結與展望

經過不斷的建設與完善,該行基于大型機的兩地三中心災備架構滿足了監管機構對于災備建設的相關監管要求,也提升了自身業務連續性管理能力,同時提高了災備中心資源利用率。但在移動互聯網、線上支付、電子商務飛速發展的時代,推動信息系統從傳統集中式架構為主的架構體系,向集中式和分布式架構有機融合的架構體系進行轉型也是未來有待探索和實現的道路。

猜你喜歡
同城災備備份
利用云備份微信聊天記錄
如何只備份有用數據而不備份垃圾數據
論唐代河西地區“同城”的邊防地位
Windows10應用信息備份與恢復
鄭新“同城”協調發展研究
舊瓶裝新酒天宮二號從備份變實驗室
深藍云?!霸茷膫洹闭缴暇€
浙江全推醫保定點醫藥機構同城互認
共享災備走向智能化
災備建設的新思路
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合