云計算到底怎么用?

責任編輯:zsheng

2018-08-09 20:02:23

摘自:腦極體

8月5日,一家創(chuàng)業(yè)公司“前沿數(shù)控”發(fā)文,稱其在騰訊云上數(shù)據(jù)全部丟失。之后騰訊云對此回應(yīng)稱,該事故是因所在物理硬盤固件版本bug導致的靜默錯誤且運維人員存在不規(guī)范操作所導致,并表示了道歉與賠償。

云計算最近的熱鬧不少。

8月5日,一家創(chuàng)業(yè)公司“前沿數(shù)控”發(fā)文,稱其在騰訊云上數(shù)據(jù)全部丟失。之后騰訊云對此回應(yīng)稱,該事故是因所在物理硬盤固件版本bug導致的靜默錯誤且運維人員存在不規(guī)范操作所導致,并表示了道歉與賠償。

至此,在一年多的時間里,微軟、AWS、阿里云、騰訊云等主要云計算服務(wù)商相繼出現(xiàn)問題,這也讓外界產(chǎn)生疑惑:云計算怎么了?

近些年,企業(yè)上云已成趨勢,而云一旦出問題,很可能影響頗大;然而就像天底下沒有不生病的人一樣,云計算也自然也不可能百分之百完全不出問題。這次的騰訊云事件,剛好可以用來聊聊這個話題,讓我們透視云計算平臺與企業(yè)如何應(yīng)對可能存在的問題。

沒有絕對不出問題的云計算

但我們或許可以借此討論這樣一個問題:云計算平臺不出錯的理想情況,到底是否可能?

答案當然是否定的,任何云計算平臺都有發(fā)生事故的可能。云計算本身是一種本地存儲與運算的替代方案,所以本地計算可能出現(xiàn)的軟硬件問題,也將映射到云計算體系中。

當然,隨著云計算技術(shù)的不斷進步以及產(chǎn)業(yè)服務(wù)能力增強,今天我們看到云計算應(yīng)對風險的技術(shù)解決能力、容災(zāi)能力、應(yīng)急冗余能力都在提高。

但同時也應(yīng)該看到,云計算的另一面,是體系復雜化、碎片化的業(yè)務(wù)需求,更加復雜的云計算應(yīng)用體系以及云計算+AI、云計算+IoT等新業(yè)務(wù)種類,導致出現(xiàn)風險的場景更多。比如去年英國一個移動應(yīng)用企業(yè)發(fā)生了數(shù)據(jù)崩潰,原因在于企業(yè)員工違規(guī)收取了郵件,最終導致云存儲數(shù)據(jù)被大規(guī)模劫持。

不過從另外一個角度來看,云廠商提供給用戶的真正有價值的服務(wù)并不是一個一定不會出問題的服務(wù),而是讓企業(yè)可以低成本快速的搭建一個服務(wù)冗余、一定容災(zāi)的架構(gòu)的能力。從騰訊云的案例中我們可以看到,云計算的問題可能很復雜,而平臺的處理能力是解決問題的第一方案。

出現(xiàn)了問題,云計算平臺如何應(yīng)對?

讓我們回顧一下騰訊云這次事件中,數(shù)據(jù)丟失到底因何發(fā)生:

根據(jù)騰訊云方面的技術(shù)復盤,該故障緣起于因磁盤靜默錯誤導致的單副本數(shù)據(jù)錯誤,再加上數(shù)據(jù)遷移過程中的兩次不規(guī)范的操作,導致云盤的三副本安全機制失效,并最終導致客戶數(shù)據(jù)完整性受損。具體原因是,是因為運維人員在收到倉庫空間使用率過高警告后,準備發(fā)起搬遷擴容。在搬遷國產(chǎn)中,為了加快速度,手動關(guān)閉了遷移過程中的數(shù)據(jù)校驗。而在搬遷完成后,運維人員將出事故云盤訪問切至新倉庫,同時為了釋放空間,對原倉庫中的源數(shù)據(jù)發(fā)起了回收操作,之后發(fā)現(xiàn)部分云盤出現(xiàn)IO異常。

本次事故起源自因磁盤靜默錯誤導致的單副本數(shù)據(jù)錯誤,再由于數(shù)據(jù)遷移過程中的不規(guī)范操作,導致異常數(shù)據(jù)擴散至三副本,進而導致客戶數(shù)據(jù)完整性受損。

騰訊云已經(jīng)正式道歉,并從技術(shù)角度坦誠了相關(guān)問題的存在。

由于云計算事故的問題,往往來自復合型問題、細節(jié)問題。而往往平臺諱莫如深,甚至想要撇清責任,是導致事件復雜化的直接原因。而騰訊云此次的坦誠方案,在業(yè)界還是收獲了一定的肯定

而通過騰訊云的事件,我們可以看到真正能夠有效降低云計算故障的方法,是在出事前進行干預。比如說:

1、搭建應(yīng)急預案,不斷更新容災(zāi)技術(shù)與容災(zāi)機制,可以在出現(xiàn)問題時快速、低成本搭建應(yīng)急架構(gòu)。這是云計算平臺應(yīng)對可能事故的核心,而容災(zāi)機制與技術(shù)的雙重保障,也是云服務(wù)品牌的核心競爭力。

2、規(guī)范化管理流程,尤其涉及數(shù)據(jù)問題時的人工操作流量。騰訊云事件中可以看出,人為不規(guī)范操作是造成很多重大損失的起因。而嚴格的流程化和去人工可能是較好的解決方案。

保障數(shù)據(jù),企業(yè)用戶也需配合

云計算平臺自然也不是萬能的。對于用戶來說,選擇合理的服務(wù)體系、積極做好兀余和備份工作,是進一步降低風險的舉措。

另一方面,云計算服務(wù)中還有一項功能,叫做云盤快照。也就是企業(yè)可以定期來復制備份自己的數(shù)據(jù),作為應(yīng)對可能性事故的備案。而恰好騰訊云還是少數(shù)定期提供免費快照功能的云平臺,為避免企業(yè)數(shù)據(jù)丟失,還是應(yīng)該積極使用類似備份功能,保證自身數(shù)據(jù)的安全存放。

同時,對于核心數(shù)據(jù)來說,本地存放與云存儲兼顧,是公認的更良性策略。

目前,出于市場業(yè)務(wù)細分化的需要,所有云計算平臺都在提供更細節(jié)化、碎片化的服務(wù)選項。但很多時候企業(yè)并不能為了節(jié)約成本而購買單一服務(wù),而是需要設(shè)置符合自身發(fā)展需求的云計算策略,并做好重要數(shù)據(jù)本地備份。

畢竟,狡兔三窟總歸不是錯誤。

合理用云,前提是正確認識云

綜上所述,我們可以發(fā)現(xiàn),為了解決類似問題,需要云計算平臺、企業(yè)客戶,包括行業(yè)監(jiān)管、法規(guī)定制等方向的共同努力。我們可以從以下幾個方面,看到未來化解類似矛盾的可能:

1、技術(shù)層面,更加簡便優(yōu)質(zhì)的容災(zāi)備份服務(wù)顯然是主流。而在今天快速迭代的云計算體系中,通過技術(shù)保障進一步加強企業(yè)數(shù)據(jù)保障并不是奢望。而更加扎實的平臺管理能力,和快速調(diào)查事故原因的能力與執(zhí)行規(guī)則,也是平臺企業(yè)未來需要提供的用戶價值。

2、權(quán)責分明的服務(wù)關(guān)系。類似案件中,平臺故障當然是主因。但企業(yè)事故也可能最終導致數(shù)據(jù)危險。

因此,平臺方向企業(yè)方提供明確的風險提示,并建議做好關(guān)鍵數(shù)據(jù)備份;企業(yè)方購買符合自身發(fā)展需求,較為合理的云計算業(yè)務(wù)體系,都是避免最終矛盾的解決方案。另外很多云計算業(yè)務(wù),其實都來自企業(yè)應(yīng)用層面的問題,那么責權(quán)如何進一步劃分,也是應(yīng)該解決的問題。

平臺與用戶雙方,能夠達成策略性預見,給予對方足夠的尊重,并一切有規(guī)可循,才是類似問題的最終解決辦法。

一棍子打死云計算,或者把云計算捧殺到萬能的地步,事實上都是毫無益處的。

鏈接已復制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號