支付寶災(zāi)備能力為何引發(fā)爭議

責(zé)任編輯:editor006

作者:謝麗容 由曦 宋瑋

2015-05-28 21:57:04

摘自:《財經(jīng)》

此次事件反應(yīng)出支付寶在故障倒換能力和應(yīng)急反應(yīng)速度上還有待提高,反應(yīng)出互聯(lián)網(wǎng)公司在應(yīng)急處理能力上的普遍短板,互聯(lián)金融系統(tǒng)的運行穩(wěn)定性并不如此前所宣稱那樣完善。

此次事件反應(yīng)出支付寶在故障倒換能力和應(yīng)急反應(yīng)速度上還有待提高,反應(yīng)出互聯(lián)網(wǎng)公司在應(yīng)急處理能力上的普遍短板,互聯(lián)金融系統(tǒng)的運行穩(wěn)定性并不如此前所宣稱那樣完善。

5月27日下午5點,擁有將近3億活躍用戶的支付寶出現(xiàn)了大面積訪問故障,全國多省市支付寶用戶出現(xiàn)手機和電腦支付寶無法登陸、余額錯誤等問題。對于導(dǎo)致此次事件的原因,螞蟻金服方面的解釋并未獲得金融和互聯(lián)網(wǎng)界的廣泛認(rèn)同。

在螞蟻金服發(fā)給《財經(jīng)》的官方回應(yīng)中稱,出現(xiàn)這一問題的原因在于市政施工導(dǎo)致杭州市某地光纜被挖斷,影響了支付寶一個主要機房的正常運轉(zhuǎn)。當(dāng)天晚上19時左右,即在事故發(fā)生大約兩個多小時以后,支付寶服務(wù)才恢復(fù)正常。

螞蟻金服稱,無法精確統(tǒng)計在故障時間段內(nèi)使用支付寶的具體用戶數(shù)量。

擁有超過4萬億年交易總額的支付寶是中國第一大第三方交易平臺,約占中國整體社會消費金額的六分之一。故障發(fā)生后,用戶普遍擔(dān)心賬戶資金安全問題,亦有用戶反應(yīng)出現(xiàn)賬戶余額不同步的現(xiàn)象。

螞蟻金服對此回應(yīng),支付寶有完善的技術(shù)和措施保護用戶的資金安全,支付寶中的任何一個交易,同時都會有多份記錄,數(shù)據(jù)可靠性極高。如果有用戶出現(xiàn)交易不同步的情況,后續(xù)都會得到妥善解決。

這份螞蟻金服發(fā)給《財經(jīng)》的官方回應(yīng)還指出,支付寶異地多活的系統(tǒng)架構(gòu)在此次意外中發(fā)揮了巨大作用:一方面,沒有因光纜被挖斷而影響全部用戶;另一方面,緊急將故障機房的流量切換至了其他機房。在當(dāng)晚7點支付寶服務(wù)恢復(fù)時,被挖斷的光纜還沒有修復(fù)。

螞蟻金服一位高管向《財經(jīng)》記者表示,大流量網(wǎng)站實時切換涉及資金時有難度,需要安全地將用戶的數(shù)據(jù),尤其是資金數(shù)據(jù)也切換到其它機房,所以切換操作需要花費較多的時間。“技術(shù)上可以做到更快恢復(fù),之所以較慢是為了確保不丟數(shù)據(jù)。”

螞蟻金服對于這次事故的內(nèi)部總結(jié)是,數(shù)據(jù)校驗較多,怕丟數(shù)據(jù),所以花了較多時間。內(nèi)部認(rèn)為這是一次安全但不夠漂亮的災(zāi)備實戰(zhàn),就好比跳水,起跳不錯,空中動作也還行,但入水壓水花不夠好。

《財經(jīng)》記者了解,支付寶采用異地雙活的系統(tǒng)架構(gòu),的確有多個機房。正因為如此,本次支付寶杭州機房網(wǎng)絡(luò)中斷,只影響了一個機房,其它機房的業(yè)務(wù)不受影響。

但這依然受到外界質(zhì)疑。質(zhì)疑焦點有二:一是恢復(fù)時間竟然長達(dá)兩個小時;二是究竟是出于資金安全考慮而主動放緩速度還是支付寶應(yīng)急預(yù)案出現(xiàn)漏洞?

一位國有大型銀行內(nèi)部人士向《財經(jīng)》記者表示,如果在銀行的支付系統(tǒng)發(fā)生大面積癱瘓超過2個小時,已經(jīng)屬于重大安全事故,很有可能要向國務(wù)院匯報備案。

他向《財經(jīng)》記者強調(diào),傳統(tǒng)金融機構(gòu)發(fā)生這樣波及全國范圍的安全問題幾率微乎其微,原因在于銀行涉及用戶資金的重要系統(tǒng)災(zāi)備方案十分完備,一般是“兩地三中心”云備份方案,保證“同城災(zāi)備結(jié)合異地災(zāi)備”,目的在于防止重大災(zāi)難或戰(zhàn)爭等極端情況。

上述國有大型銀行內(nèi)部人士認(rèn)為,正因為此,如果銀行系統(tǒng)出現(xiàn)支付寶因光纜被挖斷而導(dǎo)致一個數(shù)據(jù)中心停擺的情況,用戶流量和系統(tǒng)會向同城或異地其他數(shù)據(jù)中心切換。“就算不會是即時切換,也不會花費太長時間,同城可能會更快,就是用戶根本感受不到延遲。”

這一說法得到多位接受《財經(jīng)》記者采訪的電信技術(shù)人士的支持。中國電信的一位技術(shù)高層人士分析,服務(wù)故障切換機制應(yīng)該是自動的,根據(jù)一定的事先設(shè)置的策略,無需人為干預(yù),人工可以在服務(wù)切換后,再重新定義流量疏導(dǎo)方式。

該人士稱,支付寶多中心制的網(wǎng)絡(luò)架構(gòu)設(shè)計,不同于普通用戶接入光纜寬帶服務(wù),不可能只是用一個區(qū)域性的小機房,一根光纜被挖斷了就斷服務(wù)了。支付寶機房服務(wù)的路由應(yīng)該非常多,不可能只接一家運營商,即便只是一家,肯定也是多路由接入。“數(shù)據(jù)路由就像供電,來自不同的變壓器和能原地。”

一位曾在湯森路透工作的阿里巴巴程序員亦向《財經(jīng)》記者表示,湯森路透號稱世界最大金融網(wǎng)絡(luò),處理全球?qū)崟r金融數(shù)據(jù),要求不能宕機,哪怕自然災(zāi)害或戰(zhàn)爭。他們機房這樣建的:兩條不同電信公司的光纜和不同電力公司的電纜分別從機房的兩個方向進入,同一個機房的所有系統(tǒng)實時雙備份,并建設(shè)兩個不同城市(巴黎、日內(nèi)瓦)機房同時實時處理相同的數(shù)據(jù)。

某大型國企網(wǎng)絡(luò)運維人員稱,從技術(shù)角度看,支付寶此次事故可能是內(nèi)部應(yīng)用模塊出了問題,未經(jīng)嚴(yán)格驗證的應(yīng)用被統(tǒng)一升級后,被意外觸發(fā)到未知狀態(tài),會導(dǎo)致此類問題。

上述運維人員還表示,經(jīng)他觀察,支付寶DBA(數(shù)據(jù)管理人員)緊急恢復(fù)了RPO=10days的完整數(shù)據(jù)(RPO,Recovery Point Objective,復(fù)原點目標(biāo),是指當(dāng)服務(wù)恢復(fù)后,恢復(fù)得來的數(shù)據(jù)所對應(yīng)時間點,理想的狀態(tài)是RPO=0,故障出現(xiàn)立即恢復(fù),但需要極大投入),并不停地進行分段增量數(shù)據(jù)恢復(fù),歷時約2小時余,這就是應(yīng)用模塊的問題。

上述中國電信技術(shù)人士則分析認(rèn)為,出現(xiàn)這種問題的可能性是,支付寶多個數(shù)據(jù)中心之間的自動流量切換機制出現(xiàn)問題,只能人工介入。還可能是其他三種原因:一是很有可能是支付寶遭到了攻擊;二是支付寶的路由配置癱瘓了;三是支付寶的云服務(wù)器癱瘓了,亞馬遜也出現(xiàn)過這個問題。號稱最先進最安全的阿里云系統(tǒng)對自家業(yè)務(wù)并沒支撐好。

就以上相關(guān)問題,《財經(jīng)》記者詢問了螞蟻金服方面,螞蟻金服回應(yīng)稱,具體的技術(shù)分析正在加緊進行,但得出結(jié)論判斷還需要一段時間。

微妙的是,在螞蟻金服更早的一份媒體回應(yīng)中稱,之所以花費較長時間,是在流量向支付寶位于深圳的數(shù)據(jù)中心遷移的時候,切換系統(tǒng)也受到了光纖斷裂的影響,所以切換上花費了一些時間。這與“技術(shù)上他們可以做到更快恢復(fù),之所以較慢是為了確保不丟數(shù)據(jù)”這一說法并不一致。

另有行業(yè)人士評價,此次事件反應(yīng)出支付寶在故障倒換能力和應(yīng)急反應(yīng)速度上還有待提高,反應(yīng)出互聯(lián)網(wǎng)公司在應(yīng)急處理能力上的普遍短板,互聯(lián)金融系統(tǒng)的運行穩(wěn)定性并不如此前所宣稱那樣完善。在支付寶發(fā)生大面積癱瘓事故之后,互聯(lián)網(wǎng)企業(yè)的運維人員建立微信群對此展開了討論。

隨著云計算和大數(shù)據(jù)的逐步普及,以及人們在互聯(lián)網(wǎng)應(yīng)用越來越重的資產(chǎn)托付,IT技術(shù)領(lǐng)域普遍呼吁互聯(lián)網(wǎng)公司改變“盡力而為”的服務(wù)承諾和網(wǎng)絡(luò)架構(gòu),向傳統(tǒng)電信、IT領(lǐng)域高達(dá)99.999%的“5個9”安全級別靠攏。

螞蟻金服表示,支付寶將不斷提升災(zāi)備切換速度,希望未來這樣的切換能讓用戶無感知或者最小化感知。

對于此次事故帶來的具體損失額度,螞蟻金服表示,暫時無法統(tǒng)計。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號