?

“宕機”背后云安全的問題有多少?

2019-03-19 03:51梅雅鑫
通信世界 2019年7期
關鍵詞:災備誤操作可靠性

本刊記者|梅雅鑫

近日,阿里云突發的宕機事件又將云安全推到風口浪尖,據了解,此次事件是阿里云華北2地域可用區C部分的ECS服務器(云服務器)等實例出現IO HANG(IO不響應)導致的。阿里云經緊急排查處理后,業務已全部恢復。同時,阿里云方面表示,將根據SLA協議(服務合同)盡快處理因此次故障受影響企業的賠償事宜。

但是比起賠償,業內人士更加關注此次宕機事件帶來的影響和事件背后折射出的問題。經過十余年的發展,中國的云計算市場已經初具規模,各種新技術、新應用、新場景、新架構成為公有云/私有云平臺市場保持快速、持續增長的助推器。目前越來越多的企業將其業務系統、數據部署在云上,云服務器一旦宕機,企業業務必然會受波及。因而安全被各企業視為頭等要務。

理論上不存在“永不宕機”的云

事實上,不止是阿里云,其他云服務提供商也都出現過宕機事件。僅2018年一年,全球主流云計算廠商曾發生數十起宕機事故。

2018年1月18日,谷歌云自動化失效導致宕機;

2018年3月2日,AWS宕機致部分Alexa失聲;

2018年5月31日,AWS北弗吉尼亞地區數據中心出現硬件問題;

2018年6月17日,因愛爾蘭數據中心的恒溫系統出現問題,微軟Azure愛爾蘭數據中心宕機;

2018年7月20日,騰訊云云硬盤故障;

2018年9月4日,微軟云Azure數據中心遭雷劈宕機;

2018年11月9日,谷歌公有云下的Kubernetes服務(GKE)宕機;

不難發現,雖然宕機的原因不盡相同,但宕機卻時有發生。

據悉,云服務產生故障的原因一般分為兩類:一是因為誤操作導致的問題(用不用云服務都有這個問題),二是云平臺故障導致的問題。中國信息通信研究院云計算與大數據研究所所長何寶宏也表示,目前發生的宕機事故約80%是因為技術人員操作不規范或“誤操作”導致的,相比于“誤操作”,云平臺故障的技術問題僅占20%。

云服務提供商的云平臺可提供服務器快照、數據庫備份和日志備份等諸多功能,這些功能為企業帶來了便利,遠比企業自己構建類似的服務簡單好用,但是涉及到權限問題就值得思考了。企業使用云平臺上的賬戶權限管理時,嚴格地避免無意或者惡意的“誤操作”很重要,因為如果云服務管理權限每個人都有,那么很容易出現“誤操作”的問題,所以要嚴格控制賬戶管理的權限。

無論是傳統的環境,還是云環境,都不能做到絕對“持續可用”。何寶宏對此表示,理論上任何技術或者服務出現中斷都是不可避免的,僅是概率大小的問題。

雖然所有的云服務都不是絕對安全的,沒有辦法100%保證系統的正常。但是大部分情況下,云環境的可用性和可靠性都比傳統環境高,這主要是因為云平臺的運維更加專業??梢?,盡管云會發生故障,但云仍然是值得信任的。

服務可靠性、業務連續性需不斷加強

未來云服務或將像水電煤一樣成為基礎設施。停電1分鐘,對于一般家庭而言,也許只意味著少看一會兒電視、少吹一會兒空調,但對于企業而言,或許意味著一條生產線的癱瘓、整個生產流程的推倒重來。同理,云服務器宕機1分鐘,對于云服務提供商來說是一次運維故障,但對企業而言,或許意味著客戶的流失甚至企業破產,特別是不可逆的故障不是云服務提供商賠償就能挽回的。

有業內專家透露,宕機的后果可以分為兩種,一種是可恢復的,一種是不可恢復的。例如,此前騰訊云因硬盤故障導致一家初創公司近千萬元的平臺數據丟失,且不能恢復,讓騰訊云元氣大傷,與之相比,阿里云的損失就沒有那么慘重了。

而且此次事件折射出來的問題并不完全屬于云安全范疇,隨著云計算在各垂直領域的不斷滲透,云服務的可靠性、業務連續性將成為下一步云計算發展的重中之重。

可靠性和業務連續性一直是電信業非常重視的指標,但云廠商對于服務可靠性的要求還不夠。何寶宏指出,該問題并不只出現于云廠商提供的服務中,而是新興行業發展初期常常會遇到的問題。例如,2016年國家電網公司經營區域內城市配電網和農村配電網的供電可靠率分別達到99.946%、99.782%,但隨著近年來工業互聯網的需求越來越大,對電網的依賴性越來越高,99.9999%的供電可靠率也逐漸出現。由此可見,一項服務的可靠性可以隨著人們對該服務的依賴程度提升而越來越高。

未來,云服務的可靠性和業務連續性也將會隨著企業上云以及垂直行業對云服務的依賴程度的加深而不斷提升。當然這樣的提升需要更多經驗的積累和時間的考驗,眼下還是應該盡量避免宕機事件的發生。

“多云”部署或成企業新保障

諸多宕機事件告訴我們,面對天災人禍,不論是公有云還是私有云都不能獨善其身。為減少業務中斷帶來的損失,云服務廠商需要構建云容災方案。

何寶宏指出,預防宕機發生可以從多個方面著手。

一是云廠商技術的完善,即不斷地增強云服務的可靠性和業務連續性,但毋庸置疑的是無論可靠性達到幾個9都無法保證云服務“永不宕機”。

二是企業需根據自身特點選擇云災備和云保險服務,盡量在經濟和人員條件可行的情況下使用這些服務分散風險,如果故障只出現在一個服務器集群,采用異地災備的方案,就可以以最快時間切換到另一個集群,保持系統可用;云保險則是企業的最后一道屏障。

三是增強用云規范意識,為避免由于人員的“誤操作”或者相關人員操作不規范造成的宕機事故,相關企業和政府機構應加強技術人員的培訓和建立災備意識,企業的IT人員日常應做到異機備份、數據容災、業務雙活、定期對災備和雙活進行演練等,盡可能避免云故障帶來的損失。

宕機事件的發生使不少企業對云服務的部署方式產生了質疑,于是,“多云戰略”成為很多企業正在考慮的方案。業內分析師也坦言,真正安全的方式需要將重要業務分別放在不同的“籃子”里,也就是選擇多個供應商,進行“多云”部署?!岸嘣啤辈渴鸨旧硪彩且环N災備預案,如果自身服務非常重要,可以考慮租用多個云服務器互為主備,或者自建機房,只是這樣成本和技術復雜度會成倍增加。

對于初創企業或中小企業而言,自建機房的運維難度很大,運維水平也遠低于大的云服務廠商,因而故障概率更大、損失更加不可控。所以采用多云或混合云可能是未來最為靠譜的方案,純公有云、純私有云都是不太安全的解決方案。

而有實力的企業應該盡可能自建服務器,將核心數據、核心業務邏輯放在自己的內網服務器上,前端模塊等可以考慮放在公有云服務器上,這樣的話可以最大限度地實現風險分擔,保障企業的用云安全。

猜你喜歡
災備誤操作可靠性
基于鐵路主數據中心建設的災備管理系統框架研究
合理使用及正確測試以提升DC/DC變換器可靠性
GO-FLOW法在飛機EHA可靠性分析中的應用
對一起誤操作事故的幾點看法
變電運行電氣誤操作事故原因分析及防范措施
5G通信中數據傳輸的可靠性分析
論如何提高電子自動化控制設備的可靠性
發電廠供電設備電氣誤操作原因分析和對策探討
深藍云?!霸茷膫洹闭缴暇€
共享災備走向智能化
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合