如今的分布式數(shù)據(jù)庫中,為這些PT級數(shù)據(jù)弄個可靠的快照可不是件容易的事
IT界都知道:動了軟件棧的一部分,有很大的可能性另外一部分也不得不動。不用舍近求遠,看看大數(shù)據(jù),秒懂。
首先,大數(shù)據(jù)沖擊了數(shù)據(jù)庫領(lǐng)域,開拓了“向外擴展”技術(shù)新門類。那是被諸如Hadoop、MongoDB和Cassandra的產(chǎn)品例證的模型,數(shù)據(jù)不再被打包進一個單獨的巨大的服務(wù)器,而是分散存放在多個商品服務(wù)器上。
其中的美學(xué),當(dāng)然在于靈活性:要容納更多PT數(shù)據(jù),只需要增加一兩臺廉價的機器,而不需要數(shù)出大量的鈔票來將原來大象級的服務(wù)器升級成猛犸級。
一切看起來如此美好,但現(xiàn)在,問題來了:備份和恢復(fù)咋辦?
Gartner副總裁戴夫·拉塞爾說:“傳統(tǒng)備份產(chǎn)品無法應(yīng)對超大數(shù)據(jù)量備份問題。該架構(gòu)向外擴展的特性也讓傳統(tǒng)備份應(yīng)用難以處理。”
今天的橫向擴展數(shù)據(jù)庫確實包含了一些可用性和恢復(fù)的功能,但通常都不像IT用戶已經(jīng)習(xí)慣了的那么健壯。
這是一個能讓大企業(yè)在遭遇停電時陷入大麻煩的問題。但也是新一類數(shù)據(jù)保護產(chǎn)品開始嶄露頭角的機會。
數(shù)據(jù)恢復(fù)初創(chuàng)公司 Datos IO 的RecoverX就是其中之一。
“如果你用的是像Oracle或MySQL這樣的傳統(tǒng)數(shù)據(jù)庫,只能是擴充升級,而且需要持續(xù)的日志。” Datos IO 共同創(chuàng)始人兼CEO塔倫·塔庫爾說。
這種情況下,那份日志的副本,就是當(dāng)問題發(fā)生時的備份了。
而在今天這種數(shù)據(jù)分布式存儲在多個小機器上的下一代數(shù)據(jù)庫時代,事情遠沒那么簡單。
“由于沒有主控,每一個節(jié)點都獨立負責(zé)自己的事務(wù),持續(xù)性日志這種概念是不存在的。”塔庫爾解釋道,“不同的節(jié)點有不同的權(quán)限,每個節(jié)點都對操作有不同的視圖。”
出現(xiàn)這種情況,有部分原因是出于對適應(yīng)大數(shù)據(jù)“3V”要求(容量volume、速度velocity、多樣性variety)的權(quán)衡。尤其是,為在適應(yīng)瘋狂高速涌來的多樣化數(shù)據(jù)的同時提供可擴展性,今天的分布式數(shù)據(jù)庫已經(jīng)脫離了傳統(tǒng)關(guān)系數(shù)據(jù)庫遵循的“ACID”標(biāo)準(zhǔn)(原子性Atomicity、一致性Consistency、隔離性Isolation、持久性Durability),轉(zhuǎn)而采用大規(guī)模分布式系統(tǒng)的“BASE”理論(基本可用Basically Available、軟狀態(tài)Soft State、最終一致性Eventual Consistency)。
這是決定性的不同。最相關(guān)的就是傳統(tǒng)數(shù)據(jù)庫全程提供強一致性的地方——也就是ACID中的C,分布式數(shù)據(jù)庫則是努力謀求所謂的“最終一致性”?;蚩旎蚵?,更新最終會覆蓋到所有節(jié)點,但,中間肯定會有時間差。
“如果你需要可擴展性,就得放棄一致性,二者擇其一。”
這讓獲得可靠的整體快照以進行實時恢復(fù)變得很難。不僅是更難以在任意時間點追蹤哪些數(shù)據(jù)移動到了分布式數(shù)據(jù)庫的哪里,而且根植到更新的分布式數(shù)據(jù)庫中的彈性特性(比如復(fù)刻),在數(shù)據(jù)被損壞的情況下也無法保護你。
“你不過是復(fù)刻了那些被損壞的數(shù)據(jù)而已。”
本月早些時候,Datos IO 發(fā)布了RecoverX,打算用被其稱之為可擴展版本控制和語義式重復(fù)數(shù)據(jù)刪除功能來解決這些問題。結(jié)果就是,既節(jié)省空間,又本地格式可用的集群一致備份。
美國第一資本汽車金融公司原CTO兼工程管理副總裁索維克·達斯率先感受到了備份的危機。
現(xiàn)在已是醫(yī)療保健初創(chuàng)公司 Grand Rounds 工程高級副總裁的達斯稱,采用傳統(tǒng)數(shù)據(jù)庫數(shù)年之后,第一資本在幾年前進行了“大轉(zhuǎn)型”,鋪開了類似Cassandra這樣的新分布式技術(shù)。
這意味著,要找尋新的備份和恢復(fù)策略。
“大多數(shù)備份廠商和軟件通常都會調(diào)整適應(yīng)他們正在備份的那類系統(tǒng)。”
在新分布式數(shù)據(jù)庫上用老式備份產(chǎn)品會引發(fā)問題。
“要么軟件完全不知道怎么備份新的數(shù)據(jù)存儲,要么只能以非最佳方式運行。”達斯說,“我們知道,得找另一種備份解決方案了。”
Datos IO 和Talena——另一家該領(lǐng)域的主要廠商,都在第一資本的考慮范圍內(nèi)。
傳統(tǒng)的備份產(chǎn)品廠商也在逐漸調(diào)整自己的產(chǎn)品以適應(yīng)大數(shù)據(jù),不過現(xiàn)下的備份廠商要支持更新的技術(shù)還需要花點時間。
退回10年,一開始是非常難以為VMware虛擬機做備份的。這讓Veeam這樣的公司在現(xiàn)有廠商的鼻子底下擠進了市場,偷走了VM備份市場份額。