數(shù)據(jù)庫(kù)作為業(yè)務(wù)的核心,在整個(gè)基礎(chǔ)軟件棧中是非常重要的一環(huán)。近幾年社區(qū)也是新的方案和思想層出不窮,接下來我將總結(jié)一下近幾年一些主流的開源數(shù)據(jù)庫(kù)方案,其背后的設(shè)計(jì)思想以及適用場(chǎng)景。本人才疏學(xué)淺如有遺漏或者錯(cuò)誤請(qǐng)見諒。本次分享聚焦于數(shù)據(jù)庫(kù)既結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ) OLTP 及 NoSQL 領(lǐng)域,不會(huì)涉及 OLAP、對(duì)象存儲(chǔ)、分布式文件系統(tǒng)。
1.開源RDBMS與互聯(lián)網(wǎng)的崛起
很長(zhǎng)時(shí)間以來,關(guān)系型數(shù)據(jù)庫(kù)一直是大公司的專利,市場(chǎng)被 Oracle / DB2 等企業(yè)數(shù)據(jù)庫(kù)牢牢把持。但是隨著互聯(lián)網(wǎng)的崛起、開源社區(qū)的發(fā)展,上世紀(jì)九十年代 MySQL 1.0 的發(fā)布,標(biāo)志著關(guān)系型數(shù)據(jù)庫(kù)的領(lǐng)域社區(qū)終于有可選擇的方案。
MySQL
第一個(gè)介紹的單機(jī)RDBMS就是 。相信大多數(shù)朋友都已經(jīng)對(duì) MySQL 非常熟悉,基本上 MySQL 的成長(zhǎng)史就是互聯(lián)網(wǎng)的成長(zhǎng)史。我接觸的第一個(gè) MySQL 版本是 MySQL 4.0,到后來的 MySQL 5.5 更是經(jīng)典——基本所有的互聯(lián)網(wǎng)公司都在使用。
MySQL 也普及了「可插拔」引擎這一概念,針對(duì)不同的業(yè)務(wù)場(chǎng)景選用不同的存儲(chǔ)引擎是 MySQL tuning 的一個(gè)重要的方式。比如對(duì)于有事務(wù)需求的場(chǎng)景使用 InnoDB;對(duì)于并發(fā)讀取的場(chǎng)景 MyISAM 可能比較合適;但是現(xiàn)在我推薦絕大多數(shù)情況還是使用 InnoDB,畢竟 5.6 后已經(jīng)成為了官方的默認(rèn)引擎。大多數(shù)朋友都基本知道什么場(chǎng)景適用 MySQL(幾乎所有需要持久化結(jié)構(gòu)化數(shù)據(jù)的場(chǎng)景),我就不贅述了。
另外值得一提的是 MySQL 5.6中引入了多線程復(fù)制和 GTID,使得故障恢復(fù)和主從的運(yùn)維變得比較方便。另外,5.7(目前處于 GA 版本) 是 MySQL 的一個(gè)重大更新,主要是讀寫性能和復(fù)制性能上有了長(zhǎng)足的進(jìn)步(在5.6版本中實(shí)現(xiàn)了SCHEMA級(jí)別的并行復(fù)制,不過意義不大,倒是MariaDB的多線程并行復(fù)制大放異彩,有不少人因?yàn)檫@個(gè)特性選擇MariaDB。MySQL 5.7 MTS支持兩種模式,一種是和5.6一樣,另一種則是基于binlog group commit實(shí)現(xiàn)的多線程復(fù)制,也就是MASTER上同時(shí)提交的binlog在SLAVE端也可以同時(shí)被apply,實(shí)現(xiàn)并行復(fù)制)。
如果有 單機(jī)數(shù)據(jù)庫(kù)技術(shù)選型 的朋友,基本上只需要考慮 5.7 或者 MariaDB 就好了,而且 5.6、5.7 由 Oracle 接手后,性能和穩(wěn)定性上都有了明顯的提升。
PostgreSQL
的歷史也非常悠久,其前身是 的 ,主持這個(gè)項(xiàng)目的 Michael Stronebraker 于 2015 年獲得圖靈獎(jiǎng)。后來項(xiàng)目更名為 Post-Ingres,項(xiàng)目基于 BSD license 下開源。 1995 年幾個(gè) UCB 的學(xué)生為 Post-Ingres 開發(fā)了 SQL 的接口,正式發(fā)布了 PostgreSQL95,隨后一步步在開源社區(qū)中成長(zhǎng)起來。
和 MySQL 一樣,PostgreSQL 也是一個(gè)單機(jī)的關(guān)系型數(shù)據(jù)庫(kù),但是與 MySQL 方便用戶過度擴(kuò)展的 SQL 文法不一樣的是,PostgreSQL 的 SQL 支持非常強(qiáng)大,不管是內(nèi)置類型、JSON 支持、GIS 類型以及對(duì)于復(fù)雜查詢的支持,PL/SQL 等都比 MySQL 強(qiáng)大得多。而且從代碼質(zhì)量上來看,PostgreSQL 的代碼質(zhì)量是優(yōu)于 MySQL 的,另外 PostgreSQL 的 SQL 優(yōu)化器比 MySQL 強(qiáng)大很多,幾乎所有稍微復(fù)雜的查詢(當(dāng)然,我沒有對(duì)比 MySQL 5.7,也可能這個(gè)信息 outdated 了)PostgreSQL 的表現(xiàn)都優(yōu)于 MySQL。
從近幾年的趨勢(shì)上來看, PostgreSQL 的勢(shì)頭也很強(qiáng)勁 ,我認(rèn)為 PostgreSQL 的不足之處在于沒有 MySQL 這樣強(qiáng)大的社區(qū)和群眾基礎(chǔ)。MySQL 經(jīng)過那么多年的發(fā)展,積累了很多的運(yùn)維工具和最佳實(shí)踐,但是 PostgreSQL 作為后起之秀,擁有更優(yōu)秀的設(shè)計(jì)和更豐富的功能。PostgreSQL 9 以后的版本也足夠穩(wěn)定,在做新項(xiàng)目技術(shù)選型的時(shí)候,是一個(gè)很好的選擇。另外也有很多新的數(shù)據(jù)庫(kù)項(xiàng)目是基于 PostgreSQL 源碼的基礎(chǔ)上進(jìn)行二次開發(fā),比如 等。
我認(rèn)為, 單機(jī)數(shù)據(jù)庫(kù)的時(shí)代很快就會(huì)過去 。榨取摩爾定律帶來的硬件紅利總是有上限的,現(xiàn)代業(yè)務(wù)的數(shù)據(jù)規(guī)模、流量以及現(xiàn)代的數(shù)據(jù)科學(xué)對(duì)于數(shù)據(jù)庫(kù)的要求單機(jī)已經(jīng)很難滿足。網(wǎng)卡磁盤 IO 和 CPU 總有瓶頸,線上敏感的業(yè)務(wù)系統(tǒng)可能還得承擔(dān) SPOF(單點(diǎn)故障) 的風(fēng)險(xiǎn),主從復(fù)制模型在主掛掉時(shí)到底切還是不切?切了以后數(shù)據(jù)如何恢復(fù)?如果只是出現(xiàn)主從機(jī)器網(wǎng)絡(luò)分區(qū)問題呢?甚至是監(jiān)控環(huán)境出現(xiàn)網(wǎng)絡(luò)分區(qū)問題呢? 這些都是問題 。
所以我的觀點(diǎn)是,無論單機(jī)性能多棒(很多令人乍舌的評(píng)測(cè)數(shù)據(jù)都是針對(duì)特定場(chǎng)景的優(yōu)化,另外甚至有些都是本機(jī)不走網(wǎng)絡(luò),而大多數(shù)情況數(shù)據(jù)庫(kù)出現(xiàn)的第一個(gè)瓶頸其實(shí)是網(wǎng)卡和并發(fā)連接……),隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,移動(dòng)互聯(lián)網(wǎng)的出現(xiàn)使得數(shù)據(jù)庫(kù)系統(tǒng)迎來了第一次分布式的洗禮。
2. 分布式時(shí)代:NoSQL的復(fù)興和模型簡(jiǎn)化的力量
在介紹 NoSQL 之前,我想提兩個(gè)公司,一個(gè)是Google,另一個(gè)是Amazon。
Google 應(yīng)該是第一個(gè)將分布式存儲(chǔ)技術(shù)應(yīng)用到大規(guī)模生產(chǎn)環(huán)境的公司,同時(shí)也是在分布式系統(tǒng)上積累最深的公司,可以說目前工業(yè)界的分布式系統(tǒng)的工程實(shí)踐及思想大都來源于 Google。比如 2003 年的 GFS 開創(chuàng)了分布式文件系統(tǒng),2006 年的 Bigtable 論文開創(chuàng)了分布式鍵值系統(tǒng),直接催生的就是 Hadoop 的生態(tài);至于 2012 年發(fā)表論文的 和 更是一個(gè)指明未來關(guān)系型數(shù)據(jù)庫(kù)發(fā)展方向的里程碑式的項(xiàng)目,這個(gè)我們后續(xù)會(huì)說。
Amazon
另一個(gè)公司是 Amazon。2007 年發(fā)表的 嘗試引入了最終一致性的概念, WRN 的模型及向量時(shí)鐘的應(yīng)用,同時(shí)將一致性 HASH、merkle tree 等當(dāng)時(shí)一些很新潮的技術(shù)整合起來,正式標(biāo)志著 NoSQL 的誕生——對(duì)后來業(yè)界的影響也是很大,包括后來的 Cassandra、RiakDB、Voldemort 等數(shù)據(jù)庫(kù)都是基于 Dynamo 的設(shè)計(jì)發(fā)展起來的。
新思潮
另外這個(gè)時(shí)期(2006 年前后持續(xù)至今)一個(gè)比較重要的思潮就是 數(shù)據(jù)庫(kù)(持久化)和緩存開始有明確的分離 ——我覺得這個(gè)趨勢(shì)是從 memcached 開始的。隨著業(yè)務(wù)的并發(fā)越來越高,對(duì)于低延遲的要求也越來越高;另外一個(gè)原因是隨著內(nèi)存越來越便宜,基于內(nèi)存的存儲(chǔ)方案漸漸開始普及。當(dāng)然內(nèi)存緩存方案也經(jīng)歷了一個(gè)從單機(jī)到分布式的過程,但是這個(gè)過程相比關(guān)系型數(shù)據(jù)庫(kù)的進(jìn)化要快得多。
這是因?yàn)?NoSQL 的另外一個(gè)重要的標(biāo)志—— 數(shù)據(jù)模型的變化 ——大多 NoSQL 都拋棄了關(guān)系模型,選擇更簡(jiǎn)單的鍵值或者文檔類型進(jìn)行存儲(chǔ)。數(shù)據(jù)結(jié)構(gòu)和查詢接口都相對(duì)簡(jiǎn)單,沒有了SQL 的包袱,實(shí)現(xiàn)的難度會(huì)降低很多。
另外 NoSQL 的設(shè)計(jì)幾乎都選擇犧牲掉復(fù)雜 SQL 的支持及 ACID 事務(wù)換取彈性擴(kuò)展能力,也是從當(dāng)時(shí)互聯(lián)網(wǎng)的實(shí)際情況出發(fā):業(yè)務(wù)模型簡(jiǎn)單、爆發(fā)性增長(zhǎng)帶來的海量并發(fā)及數(shù)據(jù)總量爆炸、歷史包袱小、工程師強(qiáng)悍,等。其中最重要的還是業(yè)務(wù)模型相對(duì)簡(jiǎn)單。
嵌入式存儲(chǔ)引擎
在開始介紹具體的開源的完整方案前,我想介紹一下嵌入式存儲(chǔ)引擎?zhèn)儭?/p>
隨著 NoSQL 的發(fā)展,不僅僅緩存和持久化存儲(chǔ)開始細(xì)分,再往后的存儲(chǔ)引擎也開始分化并走上前臺(tái)。之前很難想象一個(gè)存儲(chǔ)引擎獨(dú)立于數(shù)據(jù)庫(kù)直接對(duì)外提供服務(wù),就像你不會(huì)直接拿著 InnoDB 或者 MyISAM甚至一個(gè) B-tree 出來用一樣(當(dāng)然,bdb 這樣鼎鼎大名的除外)。人們基于這些開源的存儲(chǔ)引擎進(jìn)行進(jìn)一步的封裝,比如加上網(wǎng)絡(luò)協(xié)議層、加上復(fù)制機(jī)制等等,一步步構(gòu)建出完整的風(fēng)格各異的 NoSQL 產(chǎn)品。
這里我挑選幾個(gè)比較 著名存儲(chǔ)引擎 介紹一下。
TC
我最早接觸的是 。TC 相信很多人也都聽說過,TC 是由日本最大的社交網(wǎng)站 Mixi 開發(fā)并開源的一個(gè)混合 Key-Value 存儲(chǔ)引擎,其中包括 HASH Table 和 B+ Tree 的實(shí)現(xiàn)。但是這個(gè)引擎的一個(gè)缺陷是隨著數(shù)據(jù)量的膨脹,性能的下降會(huì)非常明顯,而且現(xiàn)在也基本不怎么維護(hù)了,所以入坑請(qǐng)慎重。于 TC 配合使用的 是一個(gè)網(wǎng)絡(luò)庫(kù),為 TC 提供網(wǎng)絡(luò)的接口使其變成一個(gè)數(shù)據(jù)庫(kù)服務(wù),TT + TC 應(yīng)該是比較早的 NoSQL 的一個(gè)嘗試。
LevelDB
在 2011 年,Google 開源了 Bigtable 的底層存儲(chǔ)擎: 。LevelDB 是一個(gè)使用 C++ 開發(fā)的嵌入式的 Key-Value 存儲(chǔ)引擎,數(shù)據(jù)結(jié)構(gòu)采用了 LSM-Tree,具體 LSM-Tree 的算法分析可以很容易在網(wǎng)上搜索到,我就不贅述了。其特點(diǎn)是,對(duì)于寫入極其友好,LSM 的設(shè)計(jì)避免了大量的隨機(jī)寫入;對(duì)于特定的讀也能達(dá)到不錯(cuò)的性能(熱數(shù)據(jù)在內(nèi)存中);另外 LSM-Tree 和 B-tree 一樣是支持有序 Scan 的;而且 LevelDB 是出自 Jeff Dean 之手,他的事跡做分布式系統(tǒng)的朋友一定都知道,不知道的可以去 Google 搜一下。
LevelDB 擁有極好的寫性能,線程安全,BaTCh Write 和 Snapshot 等特性,使其很容易的在上層構(gòu)建 MVCC 系統(tǒng)或者事務(wù)模型,對(duì)于數(shù)據(jù)庫(kù)來說非常重要。
另外值得一說的是,F(xiàn)acebook 維護(hù)了一個(gè)活躍的 LevelDB 的分支,名為 RocksDB。RocksDB 在 LevelDB 上做了很多的改進(jìn),比如多線程 Compactor、分層自定義壓縮、多 MemTable 等。另外 RocksDB 對(duì)外暴露了很多 Configration ,可以根據(jù)不同業(yè)務(wù)的形態(tài)進(jìn)行調(diào)優(yōu);同時(shí) Facebook 在內(nèi)部正在用 RocksDB 來實(shí)現(xiàn)一個(gè)全新的 MySQL 存儲(chǔ)引擎:MyRocks,值得關(guān)注。RocksDB 的社區(qū)響應(yīng)速度很快也很友好,實(shí)際上 PingCAP 也是 RocksDB 的社區(qū)貢獻(xiàn)者。我建議新的項(xiàng)目如果在 LevelDB 和 RocksDB 之間糾結(jié)的話,請(qǐng)果斷選擇 RocksDB。
B-tree 家族
當(dāng)然,除了 LSM-Tree 外, 的家族也還是有很多不錯(cuò)的引擎。首先大多數(shù)傳統(tǒng)的單機(jī)數(shù)據(jù)庫(kù)的存儲(chǔ)引擎都選擇了 ,B+Tree 對(duì)磁盤的讀比較友好,第三方存儲(chǔ)引擎比較著名的純 B+Tree 實(shí)現(xiàn)是 。首先 LMDB 選擇在內(nèi)存映像文件 (mmap) 實(shí)現(xiàn) B+Tree,同時(shí)使用了 Copy-On-Write 實(shí)現(xiàn)了 MVCC 實(shí)現(xiàn)并發(fā)事務(wù)無鎖讀的能力,對(duì)于高并發(fā)讀的場(chǎng)景比較友好;同時(shí)因?yàn)槭褂玫氖?mmap 所以擁有跨進(jìn)程讀取的能力。因?yàn)槲也]有在生產(chǎn)環(huán)境中使用過 LMDB ,所以并不能給出 LMDB 的一些缺陷,見諒。
混合引擎
還有一部分的存儲(chǔ)引擎選擇了多種引擎混合,比如最著名的應(yīng)該是 ,大概是去年被 MongoDB 收購(gòu),現(xiàn)在成為了 MongoDB 的默認(rèn)存儲(chǔ)引擎。WiredTiger 內(nèi)部有 LSM-Tree 和 B-tree 兩種實(shí)現(xiàn)提供一套接口,根據(jù)業(yè)務(wù)的情況可自由選擇。另外一些特殊數(shù)據(jù)結(jié)構(gòu)的存儲(chǔ)引擎在某些特殊場(chǎng)合下非常搶眼,比如極高壓縮比 ,采用了名為分形樹的數(shù)據(jù)結(jié)構(gòu),在維持一個(gè)可接受的讀寫壓力的情況下,能擁有 10 倍以上的壓縮率。
NoSQL
說完了幾個(gè)比較著名的存儲(chǔ)引擎,我們來講講比較著名的 NoSQL。在我的定義中,NoSQL 是Not Only SQL 的縮寫,所以可能包含的范圍有內(nèi)存數(shù)據(jù)庫(kù),持久化數(shù)據(jù)庫(kù)等??傊褪呛蛦螜C(jī)的關(guān)系型數(shù)據(jù)庫(kù)不一樣的結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)系統(tǒng)。
我們先從緩存開始。
memcached
前面提到了 memcached 應(yīng)該是第一個(gè)大規(guī)模在業(yè)界使用的緩存數(shù)據(jù)庫(kù),memcached 的實(shí)現(xiàn)極其簡(jiǎn)單,相當(dāng)于將內(nèi)存用作大的 HASH Table,只能在上面 get/set/ 計(jì)數(shù)器等操作,在此之上用 libevent 封裝了一層網(wǎng)絡(luò)層和文本協(xié)議(也有簡(jiǎn)單的二進(jìn)制協(xié)議),雖然支持一些 CAS 的操作,但是總體上來看,還是非常簡(jiǎn)單的。
但是 memcached 的 內(nèi)存利用率并不太高 ,這個(gè)因?yàn)?memcached 為了避免頻繁申請(qǐng)內(nèi)存導(dǎo)致的內(nèi)存碎片的問題,采用了自己實(shí)現(xiàn)的slab allocator 的方式。即內(nèi)存的分配都是一塊一塊的,最終存儲(chǔ)在固定長(zhǎng)度的chunk 上,內(nèi)存最小的分配單元是chunk,另外 libevent 的性能也并沒有優(yōu)化到極致,但是不妨礙 memcached 成為當(dāng)時(shí)的開源緩存事實(shí)標(biāo)準(zhǔn)(另外,八卦一下,memcached 的作者 現(xiàn)在在 Google,大家如果用 Golang 的話,Go 的官方 HTTP 包就是這哥們寫的,是個(gè)很高產(chǎn)的工程師)。
Redis
如果我沒記錯(cuò)的話,在 2009 年前后,一位意大利的工程師 ,開源了 。從此徹底顛覆了緩存的市場(chǎng), 到現(xiàn)在大多數(shù)緩存的業(yè)務(wù)都已用上Redis,memcached 基本退出了歷史舞臺(tái) 。Redis 最大的特點(diǎn)是擁有豐富的數(shù)據(jù)結(jié)構(gòu)支持,不僅僅是簡(jiǎn)單的 Key-Value,包括隊(duì)列、集合、Sorted Set 等等,提供了非常豐富的表達(dá)力,而且 Redis 還提供 sub/pub 等超出數(shù)據(jù)庫(kù)范疇的便捷功能,使得幾乎一夜之間大家紛紛投入 Redis 的懷抱。
Twemproxy
但是隨著 Redis 漸漸的普及,而且越用越狠,另外內(nèi)存也越來越便宜,人們開始尋求 擴(kuò)展單機(jī)Redis的方案 ,最早的嘗試是twitter 開源的 ,twemproxy 是一個(gè) Redis 中間件,基本只有最簡(jiǎn)單的數(shù)據(jù)路由功能,并沒有動(dòng)態(tài)的伸縮能力,但是還是受到了很多公司的追捧,因?yàn)榇_實(shí)沒方案。 隨后的 Redis Cluster 也是難產(chǎn)了好久,時(shí)隔好幾年,中間出了 7 個(gè)RC 版本,最后才發(fā)布;
2014 年底,我們開源了 ,解決了 Redis 中間件的數(shù)據(jù)彈性伸縮問題,目前廣泛應(yīng)用于國(guó)內(nèi)各大互聯(lián)網(wǎng)公司中,這個(gè)在網(wǎng)上也有很多文章介紹,我也就不展開了。 所以在緩存上面,開源社區(qū)現(xiàn)在倒是非常統(tǒng)一,就是 Redis 極其周邊的擴(kuò)展方案 。
MongoDB
在 NoSQL 的大家庭中, 其實(shí)是一個(gè)異類,大多 NoSQL 舍棄掉 SQL 是為了追求更極致的性能和可擴(kuò)展能力,而 MongoDB 主動(dòng)選擇了文檔作為對(duì)外的接口,非常像 JSON 的格式。Schema-less 的特性對(duì)于很多輕量級(jí)業(yè)務(wù)和快速變更了互聯(lián)網(wǎng)業(yè)務(wù)意義很大,而且 MongoDB 的易用性很好,基本做到了開箱即用,開發(fā)者不需要費(fèi)心研究數(shù)據(jù)的表結(jié)構(gòu),只需要往里存就好了,這確實(shí)籠絡(luò)了一大批開發(fā)者。
盡管 MongoDB 早期的版本各種不穩(wěn)定,性能也不太好(早期的 Mongo 并沒有存儲(chǔ)引擎,直接使用了 mmap 文件),集群模式還全是問題(比如至今還未解決的 Cluster 同步帶寬占用過多的問題),但是因?yàn)榇_實(shí)太方便了,在早期的項(xiàng)目快速迭代中,Mongo 是一個(gè)不錯(cuò)的選擇。
但是這也正是它的問題,我不止一次聽到當(dāng)項(xiàng)目變得龐大或者「嚴(yán)肅」的時(shí)候, 團(tuán)隊(duì)最后還是回歸了關(guān)系型數(shù)據(jù)庫(kù) 。Anyway,在 2014 年底 MongoDB 收購(gòu)了 WiredTiger 后,在 2.8 版本中正式亮相,同時(shí) 3.0 版本后更是作為默認(rèn)存儲(chǔ)引擎提供,性能和穩(wěn)定性有了非常大的提升。
但是,從另一方面講,Schema-less 到底對(duì)軟件工程是好事還是壞事這個(gè)問題還是有待商榷。我個(gè)人是站在 Schema 這邊的,不過在一些小項(xiàng)目或者需要快速開發(fā)的項(xiàng)目中使用 Mongo 確實(shí)能提升很多的開發(fā)效率,這是毋庸置疑的。
HBase
說到 NoSQL 不得不提的是 ,HBase 作為Hadoop 旗下的重要產(chǎn)品, 的正統(tǒng)開源實(shí)現(xiàn),是不是有一種欽定的感覺:)。提到 HBase 就不得不提一下 ,Bigtable是Google內(nèi)部廣泛使用的分布式數(shù)據(jù)庫(kù),接口也不是簡(jiǎn)單的Key-Value,按照論文的說法叫:multi-dimensional sorted map,也就是 Value 是按照列劃分的。Bigtable 構(gòu)建在 GFS 之上,彌補(bǔ)了分布式文件系統(tǒng)對(duì)于海量、小的、結(jié)構(gòu)化數(shù)據(jù)的插入、更新、隨機(jī)讀請(qǐng)求的缺陷。
HBase 就是這么一個(gè)系統(tǒng)的實(shí)現(xiàn), 底層依賴 HDFS 。HBase 本身并不實(shí)際存儲(chǔ)數(shù)據(jù),持久化的日志和 SST file (HBase 也是 LSM-Tree 的結(jié)構(gòu)) 直接存儲(chǔ)在 HDFS 上,Region Server (RS) 維護(hù)了 MemTable 以提供快速的查詢,寫入都是寫日志,后臺(tái)進(jìn)行 Compact,避免了直接隨機(jī)讀寫 HDFS。
數(shù)據(jù)通過 Region 在邏輯上進(jìn)行分割,負(fù)載均衡通過調(diào)節(jié)各個(gè) Region Server 負(fù)責(zé)的 Region 區(qū)間實(shí)現(xiàn)。當(dāng)某 Region 太大時(shí),這個(gè) Region 會(huì)分裂,后續(xù)可能由不同的 RS 負(fù)責(zé),但是前面提到了,HBase 本身并不存儲(chǔ)數(shù)據(jù),這里的 Region 僅是邏輯上的,數(shù)據(jù)還是以文件的形式存儲(chǔ)在 HDFS 上,所以 HBase 并不關(guān)心 Replication 、水平擴(kuò)展和數(shù)據(jù)的分布,統(tǒng)統(tǒng)交給 HDFS 解決。
和 Bigtable 一樣,HBase 提供行級(jí)的一致性,嚴(yán)格來說在 中它是一個(gè) CP 的系統(tǒng),但遺憾的是并沒有更進(jìn)一步提供 ACID 的跨行事務(wù)。HBase 的好處就不用說了,顯而易見,通過擴(kuò)展 RS 可以幾乎線性提升系統(tǒng)的吞吐,及 HDFS 本身就具有的水平擴(kuò)展能力。
但是缺點(diǎn)仍然是有的 。
首先,Hadoop 的軟件棧是 Java,JVM 的 GC Tuning 是一個(gè)非常煩人的事情,即使已經(jīng)調(diào)得很好了,平均延遲也得幾十毫秒;
另外在架構(gòu)設(shè)計(jì)上,HBase 本身并不存儲(chǔ)數(shù)據(jù),所以可能造成客戶端請(qǐng)求的 RS 并不知道數(shù)據(jù)到底存在哪臺(tái) HDFS DataNode 上,憑空多了一次 RPC;
第三,HBase 和 Bigtable 一樣,并不支持跨行事務(wù),在 Google 內(nèi)部不停的有團(tuán)隊(duì)基于 Bigtable 來做分布式事務(wù)的支持,比如 MegaStore、Percolator。后來 有次接受也提到非常后悔沒有在 Bigtable 中加入跨行事務(wù),不過還好這個(gè)遺憾在 Spanner 中得到了彌補(bǔ),這個(gè)一會(huì)兒說。
總體來說,HBase 還是一個(gè)非常健壯且久經(jīng)考驗(yàn)的系統(tǒng),但是需要你有對(duì)于 Java 和 Hadoop 比較深入的了解后,才能玩轉(zhuǎn),這也是 Hadoop 生態(tài)的一個(gè)問題,易用性真是不是太好,而且社區(qū)演進(jìn)速度相對(duì)緩慢,也是因?yàn)闅v史包袱過重的緣故吧。
Cassandra
提到 ( C* ),雖然也是 Dynamo 的開源實(shí)現(xiàn),但就沒有這種欽定的感覺了。 C* 確實(shí)命途多舛,最早 2008 由 Facebook 開發(fā)并開源,早期的 C* 幾乎全是 bug,F(xiàn)acebook 后來索性也不再維護(hù)轉(zhuǎn)過頭搞 HBase 去了,一個(gè)爛攤子直接丟給社區(qū)。還好 把這個(gè)項(xiàng)目撿起來商業(yè)化,搞了兩年,終于漸漸開始流行起來。
C* 不能簡(jiǎn)單的歸納為讀快寫慢,或者讀慢寫快,因?yàn)椴捎昧?qourm 的模型,調(diào)整復(fù)制的副本數(shù)以及讀的數(shù)量,可以達(dá)到不同的效果,對(duì)于一致性不是特別高的場(chǎng)景,可以選擇只從一個(gè)節(jié)點(diǎn)讀取數(shù)據(jù),達(dá)到最高的讀性能。另外 C* 并不依賴分布式文件系統(tǒng),數(shù)據(jù)直接存儲(chǔ)在磁盤上,各個(gè)存儲(chǔ)節(jié)點(diǎn)之間自己維護(hù)復(fù)制關(guān)系,減少了一層 RPC 調(diào)用,延遲上對(duì)比 HBase 還是有一定優(yōu)勢(shì)的。
不過即使使用 qourm 的模型也并不代表 C* 是一個(gè)強(qiáng)一致的系統(tǒng)。 C* 并不幫你解決沖突,即使你 W(寫的副本數(shù)) + R(讀請(qǐng)求的副本數(shù)) > N(節(jié)點(diǎn)總數(shù)), C* 也沒辦法幫你決定哪些副本擁有更新的版本,因?yàn)槊總€(gè)數(shù)據(jù)的版本是一個(gè) NTP 的時(shí)間戳或者客戶端自行提供,每臺(tái)機(jī)器可能都有誤差,所以有可能并不準(zhǔn)確,這也就是為什么 C* 是一個(gè) AP 的系統(tǒng)。不過 C* 一個(gè)比較友好的地方是提供了 CQL,一個(gè)簡(jiǎn)單的 SQL 方言,比起 HBase 在易用性上有明顯優(yōu)勢(shì)。
即使作為一個(gè) AP 系統(tǒng), C* 已經(jīng)挺快了,但是人們追求更高性能的腳步還是不會(huì)停止。應(yīng)該是今年年初, 的發(fā)布就是典型的證明,ScyllaDB 是一個(gè)兼容 C* 的 NoSQL 數(shù)據(jù)庫(kù),不一樣的是,ScyllaDB 完全用 C++ 開發(fā),同時(shí)使用了類似 DPDK 這樣的黑科技,具體我就不展開了,有興趣可以到 Scylla 的官網(wǎng)去看看。BTW,國(guó)內(nèi)的蘑菇街第一時(shí)間使用了 ScyllaDB,同時(shí)在 Scylla 的官網(wǎng)上 share 了他們的方案,性能還是很不錯(cuò)的。
3. 中間件與分庫(kù)分表
NoSQL 就先介紹到這里,接下來我想說的是一些在基于單機(jī)關(guān)系型數(shù)據(jù)庫(kù)之上的中間件和分庫(kù)分表方案。
在這方面確實(shí)歷史悠久,而且也是沒有辦法的選擇,關(guān)系型數(shù)據(jù)庫(kù)不比Redis ,并不是簡(jiǎn)單的寫一個(gè)類似Twemproxy 的中間件就搞定了。數(shù)據(jù)庫(kù)的中間件需要考慮很多,比如解析 SQL,解析出 sharding key,然后根據(jù) sharding key 分發(fā)請(qǐng)求,再合并;另外數(shù)據(jù)庫(kù)有事務(wù),在中間件這層還需要維護(hù) Session 及事務(wù)狀態(tài),而且大多數(shù)方案并沒有辦法支持跨 shard 的事務(wù)。
這就不可避免的導(dǎo)致了業(yè)務(wù)使用起來會(huì)比較麻煩,需要重寫代碼,而且會(huì)增加邏輯的復(fù)雜度,更別提動(dòng)態(tài)的擴(kuò)容縮容和自動(dòng)的故障恢復(fù)了。在集群規(guī)模越來越大的情況下,運(yùn)維和 DDL 的復(fù)雜度是指數(shù)級(jí)上升的。
中間件項(xiàng)目盤點(diǎn)
數(shù)據(jù)庫(kù)中間件最早的項(xiàng)目大概是 , 用于實(shí)現(xiàn)讀寫分離 。后來國(guó)人在這個(gè)領(lǐng)域有過很多的 著名的開源項(xiàng)目,比如阿里的Cobar和DDL(并未完全開源;后來社區(qū)基于 Cobar 改進(jìn)的MyCAT、360 開源的Atlas 等 ,都屬于這一類中間件產(chǎn)品;
在中間件這個(gè)方案上基本走到頭的開源項(xiàng)目應(yīng)該是 。Vitess 基本上是一個(gè)集大成的中間件產(chǎn)品,內(nèi)置了熱數(shù)據(jù)緩存、水平動(dòng)態(tài)分片、讀寫分離等等,但是代價(jià)也是整個(gè)項(xiàng)目非常復(fù)雜,另外文檔也不太好。大概1年多以前,我們嘗試搭建起完整的 Vitess 集群,但是并未成功,可見其復(fù)雜度。
另外一個(gè) 值得一提 的是 這個(gè)項(xiàng)目,Postgres-XC 的野心還是很大的,整體的架構(gòu)有點(diǎn)像早期版本的 OceanBase,由一個(gè)中央節(jié)點(diǎn)來處理協(xié)調(diào)分布式事務(wù) / 解決沖突,數(shù)據(jù)分散在各個(gè)存儲(chǔ)節(jié)點(diǎn)上,應(yīng)該是目前 PostgreSQL 社區(qū)最好的分布式擴(kuò)展方案。其他的就不提了。
4. 未來在哪里?NewSQL?
一句話,NewSQL 是未來。
2012 年 Google 在 OSDI 上發(fā)表了 Spanner 的論文,2013 年在 SIGMOD 發(fā)表了 F1 的論文。這兩篇論文讓業(yè)界第一次看到了關(guān)系模型和 NoSQL 的擴(kuò)展性在超龐大集群規(guī)模上融合的可能性。在此之前,大家普遍認(rèn)為這個(gè)是不可能的,即使是 Google 也經(jīng)歷了 這樣系統(tǒng)的失敗。
Spanner綜述
但是 Spanner 的創(chuàng)新之處在于通過硬件(GPS時(shí)鐘+原子鐘)來解決時(shí)鐘同步的問題。在分布式系統(tǒng)里,時(shí)鐘是最讓人頭痛的問題,剛才提到了 C* 為什么不是一個(gè)強(qiáng) C 的系統(tǒng),正是因?yàn)闀r(shí)鐘的問題。而 Spanner 的厲害之處在于即使兩個(gè)數(shù)據(jù)中心隔得非常遠(yuǎn),不需要有通信(因?yàn)橥ㄐ诺拇鷥r(jià)太大,最快也就是光速)就能保證 TrueTime API的時(shí)鐘誤差在一個(gè)很小的范圍內(nèi)(10ms)。另外 Spanner 沿用了很多 Bigtable 的設(shè)計(jì),比如 Tablet / Directory 等,同時(shí)在 Replica 這層使用 Paxos 復(fù)制,并未完全依賴底層的分布式文件系統(tǒng)。但是 Spanner 的設(shè)計(jì)底層仍然沿用了 Colossus,不過論文里也說是可以未來改進(jìn)的點(diǎn)。
Google 的內(nèi)部的數(shù)據(jù)庫(kù)存儲(chǔ)業(yè)務(wù),大多是 3~5 副本,重要一點(diǎn)的 7 副本,遍布全球各大洲的數(shù)據(jù)中心,由于普遍使用了 Paxos,延遲是可以縮短到一個(gè)可以接受的范圍(Google 的風(fēng)格一向是追求吞吐的水平擴(kuò)展而不是低延遲,從悲觀鎖的選擇也能看得出來,因?yàn)榭鐢?shù)據(jù)中心復(fù)制是必選的,延遲不可能低,對(duì)于低延遲的場(chǎng)景,業(yè)務(wù)層自己解決或者依賴緩存)。
另外由 Paxos 帶來的 Auto-Failover 能力,更是能讓整個(gè)集群即使數(shù)據(jù)中心癱瘓,業(yè)務(wù)層都是透明無感知的。另外 F1 構(gòu)建在 Spanner 之上,對(duì)外提供了更豐富的 SQL 語法支持,F(xiàn)1 更像一個(gè)分布式 MPP SQL——F1 本身并不存儲(chǔ)數(shù)據(jù),而是將客戶端的 SQL 翻譯成類似 MapReduce 的任務(wù),調(diào)用 Spanner 來完成請(qǐng)求。
其實(shí)除了 TrueTime 整個(gè)系統(tǒng)并沒有用什么全新的算法,而是近些年分布式系統(tǒng)的技術(shù) Spanner 和 F1 的出現(xiàn)標(biāo)志著第一個(gè) NewSQL 在生產(chǎn)環(huán)境中提供服務(wù)。
有以下幾個(gè)重點(diǎn):
1. 完整的 SQL 支持,ACID 事務(wù);
2. 彈性伸縮能力;
3. 自動(dòng)的故障轉(zhuǎn)移和故障恢復(fù),多機(jī)房異地災(zāi)備。
NewSQL 特性確實(shí)非常誘人,在 Google 內(nèi)部,大量的業(yè)務(wù)已經(jīng)從原來的 Bigtable 切換到 Spanner 之上。我相信未來幾年,整個(gè)業(yè)界的趨勢(shì)也是如此,就像當(dāng)年的 Hadoop 一樣,Google 的基礎(chǔ)軟件的技術(shù)趨勢(shì)是走在社區(qū)前面的。
社區(qū)反應(yīng)
Spanner 的論文發(fā)表之后,當(dāng)然也有社區(qū)的追隨者開始實(shí)現(xiàn)(比如我們 :D ),第一個(gè)團(tuán)隊(duì)是在紐約的 。CockroachDB 的團(tuán)隊(duì)的組成還是非常豪華的,早期團(tuán)隊(duì)由是 Google 的分布式文件系統(tǒng) 團(tuán)隊(duì)的成員組成;技術(shù)上來說,Cockroach 的設(shè)計(jì)和 Spanner 很像,不一樣的地方是沒有選擇 TrueTime而是 HLC (Hybrid logical clock),也就是 NTP +邏輯時(shí)鐘來代替 TrueTime 時(shí)間戳;另外 Cockroach 選用了 Raft 代替 Paxos 實(shí)現(xiàn)復(fù)制和自動(dòng)容災(zāi),底層存儲(chǔ)依賴 RocksDB 實(shí)現(xiàn),整個(gè)項(xiàng)目使用 Go 語言開發(fā),對(duì)外接口選用 PostgreSQL 的 SQL 子集。
CockroachDB
CockroachDB 的技術(shù)選型比較激進(jìn),比如依賴了 HLC 來做事務(wù)的時(shí)間戳。但是在 Spanner 的事務(wù)模型的 Commit Wait 階段等待時(shí)間的選擇,CockroachDB 并沒有辦法做到 10ms 內(nèi)的延遲;CockroachDB 的 Commit Wait 需要用戶自己指定,但是誰能拍胸脯說 NTP 的時(shí)鐘誤差在多少毫秒內(nèi)?我個(gè)人認(rèn)為在處理跨洲際機(jī)房時(shí)鐘同步的問題上,基本只有硬件時(shí)鐘一種辦法。HLC 是沒辦法解決的。
另外Cockroach 采用了 gossip 來同步節(jié)點(diǎn)信息,當(dāng)集群變得比較大的時(shí)候,gossip 心跳會(huì)是一個(gè)非常大的開銷。當(dāng)然 CockroachDB 的這些技術(shù)選擇帶來的優(yōu)勢(shì)就是非常好的易用性,所有邏輯都在一個(gè) binary 中,開箱即用,這個(gè)是非常大的優(yōu)點(diǎn)。
TiDB
目前從全球范圍來看,另一個(gè)在朝著 Spanner / F1 的開源實(shí)現(xiàn)這個(gè)目標(biāo)上走的產(chǎn)品是 TiDB(終于談到我們的產(chǎn)品了)。TiDB 本質(zhì)上是一個(gè)更加正統(tǒng)的 Spanner 和 F1 實(shí)現(xiàn),并不像 CockroachDB 那樣選擇將 SQL 和 Key-Value 融合,而是像 Spanner 和 F1 一樣選擇分離,這樣分層的思想也是貫穿整個(gè) TiDB 項(xiàng)目始終的。對(duì)于測(cè)試、滾動(dòng)升級(jí)以及各層的復(fù)雜度控制會(huì)比較有優(yōu)勢(shì);另外 TiDB 選擇了 MySQL 協(xié)議和語法的兼容,MySQL 社區(qū)的 ORM 框架,運(yùn)維工具,直接可以應(yīng)用在 TiDB 上。
和 Spanner一樣,TiDB 是一個(gè)無狀態(tài)的 MPP SQL Layer,整個(gè)系統(tǒng)的底層是依賴 TiKey-Value 來提供分布式存儲(chǔ)和分布式事務(wù)的支持。TiKey-Value 的分布式事務(wù)模型采用的是 Google Percolator 的模型,但是在此之上做了很多優(yōu)化。Percolator 的優(yōu)點(diǎn)是去中心化程度非常高,整個(gè)集群不需要一個(gè)獨(dú)立的事務(wù)管理模塊,事務(wù)提交狀態(tài)這些信息其實(shí)是均勻分散在系統(tǒng)的各個(gè) Key 的 meta 中,整個(gè)模型唯一依賴的是一個(gè)授時(shí)服務(wù)器。
在我們的系統(tǒng)上,極限情況這個(gè)授時(shí)服務(wù)器每秒能分配 400w 以上個(gè)單調(diào)遞增的時(shí)間戳,大多數(shù)情況基本夠用了(畢竟有 Google 量級(jí)的場(chǎng)景并不多見);同時(shí)在 TiKey-Value 中,這個(gè)授時(shí)服務(wù)本身是高可用的,也不存在單點(diǎn)故障的問題。
TiKey-Value 和 CockroachDB 一樣也是選擇了 Raft 作為整個(gè)數(shù)據(jù)庫(kù)的基礎(chǔ);不一樣的是,TiKey-Value 整體采用 Rust 語言開發(fā),作為一個(gè)沒有 GC 和 Runtime 的語言,在性能上可以挖掘的潛力會(huì)更大。
關(guān)于未來
我覺得 未來的數(shù)據(jù)庫(kù)會(huì)有幾個(gè)趨勢(shì) ,也是 TiDB 項(xiàng)目追求的目標(biāo):
數(shù)據(jù)庫(kù)會(huì)隨著業(yè)務(wù)云化,未來一切的業(yè)務(wù)都會(huì)跑在云端,不管是私有云或者公有云,運(yùn)維團(tuán)隊(duì)接觸的可能再也不是真實(shí)的物理機(jī),而是一個(gè)個(gè)隔離的容器或者「計(jì)算資源」。這對(duì)數(shù)據(jù)庫(kù)也是一個(gè)挑戰(zhàn),因?yàn)閿?shù)據(jù)庫(kù)天生就是有狀態(tài)的,數(shù)據(jù)總是要存儲(chǔ)在物理的磁盤上,而數(shù)據(jù)的移動(dòng)的代價(jià)比移動(dòng)容器的代價(jià)可能大很多。
多租戶技術(shù)會(huì)成為標(biāo)配,一個(gè)大數(shù)據(jù)庫(kù)承載一切的業(yè)務(wù),數(shù)據(jù)在底層打通,上層通過權(quán)限,容器等技術(shù)進(jìn)行隔離;但是數(shù)據(jù)的打通和擴(kuò)展會(huì)變得異常簡(jiǎn)單,結(jié)合第一點(diǎn)提到的云化,業(yè)務(wù)層可以再也不用關(guān)心物理機(jī)的容量和拓?fù)?,只需要認(rèn)為底層是一個(gè)無窮大的數(shù)據(jù)庫(kù)平臺(tái)即可,不用再擔(dān)心單機(jī)容量和負(fù)載均衡等問題。
OLAP 和 OLTP 會(huì)進(jìn)一步細(xì)分,底層存儲(chǔ)也許會(huì)共享一套,但是SQL優(yōu)化器這層的實(shí)現(xiàn)一定是千差萬別的。對(duì)于用戶而言,如果能使用同一套標(biāo)準(zhǔn)的語法和規(guī)則來進(jìn)行數(shù)據(jù)的讀寫和分析,會(huì)有更好的體驗(yàn)。
在未來分布式數(shù)據(jù)庫(kù)系統(tǒng)上,主從日志同步這樣落后的備份方式會(huì)被 Multi-Paxos / Raft 這樣更強(qiáng)的分布式一致性算法替代,人工的數(shù)據(jù)庫(kù)運(yùn)維在管理大規(guī)模數(shù)據(jù)庫(kù)集群時(shí)是不可能的,所有的故障恢復(fù)和高可用都會(huì)是高度自動(dòng)化的。