2013年4月18-20日,第四屆中國數(shù)據(jù)庫技術(shù)大會(DTCC 2013)在北京福朋喜來登酒店拉開序幕。在為期三天的會議中,大會將圍繞大數(shù)據(jù)應(yīng)用、數(shù)據(jù)架構(gòu)、數(shù)據(jù)管理(數(shù)據(jù)治理)、傳統(tǒng)數(shù)據(jù)庫軟件等技術(shù)領(lǐng)域展開深入探討,并將邀請一批國內(nèi)頂尖的技術(shù)專家來進(jìn)行分享。
本屆大會將在保留數(shù)據(jù)庫軟件應(yīng)用實踐這一傳統(tǒng)主題的基礎(chǔ)上,向大數(shù)據(jù)、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)治理與分析、商業(yè)智能等領(lǐng)域進(jìn)行拓展,以滿足于廣大從業(yè)人士和行業(yè)用戶的迫切需要。
自2010年以來,國內(nèi)領(lǐng)先的IT專業(yè)網(wǎng)站IT168聯(lián)合旗下ITPUB、ChinaUnix技術(shù)社區(qū)已經(jīng)連續(xù)舉辦了三屆數(shù)據(jù)庫技術(shù)大會,每屆大會超過千人規(guī)模,云集了國內(nèi)技術(shù)水平最高的數(shù)據(jù)架構(gòu)師、DBA、數(shù)據(jù)庫開發(fā)工程師、研發(fā)總監(jiān)、IT經(jīng)理等,是目前國內(nèi)最受歡迎的數(shù)據(jù)庫技術(shù)盛會。下面進(jìn)行演講的嘉賓是百度基礎(chǔ)架構(gòu)部高級工程師王猛先生,他演講的主題是“百度的下一代離線存儲計算系統(tǒng)”。
百度Hadoop分布式系統(tǒng)揭秘:4000節(jié)點集群
百度的高性能計算系統(tǒng)(主要是后端數(shù)據(jù)訓(xùn)練和計算)目前有4000節(jié)點,超過10個的集群,最大的集群規(guī)模在1000個節(jié)點以上。每個節(jié)點由8核CPU以及16G內(nèi)存以及12TB硬盤組成,每天的數(shù)據(jù)生成量在3PB以上。規(guī)劃當(dāng)中的架構(gòu)將有超過1萬個節(jié)點,每天的數(shù)據(jù)生成量在10PB以上。
底層的計算資源管理層采用了Agent調(diào)度不同類型的計算分別給MPI結(jié)構(gòu)的算法和Map-Reduce和DAG算法應(yīng)用等。而通過調(diào)度的分配,可以讓HPC高性能計算集群和大規(guī)模分布式集群各得其所的計算相應(yīng)數(shù)據(jù)。
2008年始于 社區(qū) 0.18~0.19 之間的trunk版本300臺機(jī)器,2個集群
2013年總機(jī)器 4.8w+ 單集群最大規(guī)模 1w+ CPU利用率70%+ 日均作業(yè)數(shù)日均輸入數(shù)據(jù)量總inode數(shù)使用磁盤空間。
百度存儲hdfs2全面上線
需求
10000 * 12 * 2T * 3壓縮比 / 256M / 3副本 = 9.8億
問題
內(nèi)存 : 9.8億文件 (file:block = 1:1) 占用內(nèi)存 380G
負(fù)載 : 吞吐有限,latency 增加
穩(wěn)定性 :GC影響
可用性 : 2 億 inode重啟一次花費 1小時左右
存儲 – hdfs3 – 社區(qū)方案未來
計算 – mr2全面上線 – 收益
可擴(kuò)展性:計算模型和資源管理分開;單集群1w+,并發(fā)運行task 16w
熱升級:MR計算模型升級,更新系統(tǒng)hdfs上abaci包;資源管理升級,可以正常查看提交作業(yè)
資源利用率提升:( cpu, mem, disk, net) 多維資源描述;Over-commit調(diào)度
計算 – mr執(zhí)行優(yōu)化 – 方案
Shuffle獨立:盡量減少map/reduce之間的barrier;同時充分利用資源,減少資源浪費;IO密集作業(yè)加速20%作業(yè),資源利用提升6%.
Map sort優(yōu)化:優(yōu)化map sort/spill過程,結(jié)合MAPREDUCE-64;并行sort,加速sort,減少block time;簡單統(tǒng)計類應(yīng)用map加速 30%。