進入2015年,大數(shù)據產品和服務采購進入爆發(fā)期,新的大數(shù)據技術解決了企業(yè)海量數(shù)據(歷史數(shù)據、非結構化數(shù)據)的存儲、分析和查詢等問題,逐步開始替代傳統(tǒng)的數(shù)據倉庫等產品。然而大數(shù)據領域新的技術和產品層出不窮,剛剛熟悉了Hadoop、Spark技術,又誕生了Flink框架,理解了NoSQL數(shù)據庫,出現(xiàn)了NewSQL數(shù)據庫。面對快速發(fā)展變化的大數(shù)據技術和產品,企業(yè)CIO面臨如何評估、如何選型、如何使用等問題,企業(yè)IT部門也苦惱于如何搭建企業(yè)級的大數(shù)據平臺以支撐企業(yè)未來業(yè)務的發(fā)展。
2014年6月,數(shù)據中心聯(lián)盟聯(lián)合20多家企業(yè)啟動了大數(shù)據平臺基準測試標準的制定,想幫助企業(yè)解決大數(shù)據技術和產品評估、選型、使用等難題,為企業(yè)IT部門找到適合企業(yè)業(yè)務場景的大數(shù)據產品和服務。經過半年的工作與討論,聯(lián)盟于今年年初發(fā)布了《大數(shù)據平臺基準測試》的技術要求和測試方法,技術要求定義了大數(shù)據平臺基準測試對象、測試的基本要素和指標,測試方法給出了從性能、可用性、運維安全三個維度評估大數(shù)據產品的具體測試流程。
今年5月聯(lián)盟組織國內一線廠商開展了大數(shù)據商業(yè)產品的第一輪評測,4家廠商的商用Hadoop軟件產品和1家商用Hadoop云服務參加本次評測。Hadoop軟件產品統(tǒng)一在中國信息通信研究院提供的16臺服務器進行測評,Hadoop云服務在企業(yè)自己提供的公有云環(huán)境中進行評測。本次測試主要測試企業(yè)提供的商用hadooop平臺,包括hdfs、yarn、mapreduce、hive、hbase和zookeeper等組件,測試主要分為性能測試、可用性測試和安全性測試,每家企業(yè)有7天的時間來完成測試。性能測試包括Hive Join、Hive Aggregation、NoSQL Write、NoSQL Read、NoSQL Scan、TeraSort、WordCount、PageRank、Kmeans、Na ve Bayes等十個負載,覆蓋了Hive、HBase、MapReduce和HDFS等組件??捎眯詼y試包括NameNode主備節(jié)點、DataNode節(jié)點、HMaster節(jié)點、RegionServer節(jié)點失效及恢復等測試項。安全和運維測試包括存儲加密、身份認證、統(tǒng)一用戶管理和權限管理四項。測試嚴格按照《大數(shù)據平臺基準測試 第二部分 測試方法》來執(zhí)行,審核流程包括測試前檢查、輸入檢查、測試過程檢查、測試結果檢查和留存文件等。
在本次可信云服務大會上,聯(lián)盟將首次發(fā)布國內第一批大數(shù)據產品評測結果,匯報測試過程和未來大數(shù)據基準測試的發(fā)展方向,參測廠商也將集中亮相大數(shù)據產品最佳實踐。從用戶角度出發(fā)制定的這一規(guī)范是否能解決CIO煩惱,測試結果是否能對企業(yè)的選型、部署和使用有一定參考,規(guī)范未來的演化是否能精確反應用戶的需求,需要我們拭目以待。