Cloudera等大數(shù)據(jù)供應(yīng)商談?wù)摿薍adoop和其他數(shù)據(jù)如何為用戶(hù)“民主化數(shù)據(jù)”。Cloudera公司的Justin Kestelyn表示,他們實(shí)現(xiàn)這一目標(biāo)的的做法之一是為數(shù)據(jù)分析師提供多種方法來(lái)訪(fǎng)問(wèn)數(shù)據(jù):“分析師現(xiàn)在可以使用BI工具、SAS、SQL命令行,或者甚至是自由文本搜索來(lái)訪(fǎng)問(wèn)Hadoop,為各類(lèi)用戶(hù)提供了各種選擇。”
但Kestelyn展示的其實(shí)是為某一類(lèi)用戶(hù)提供多種選擇。
除了數(shù)據(jù)科學(xué)專(zhuān)家,對(duì)于大多數(shù)用戶(hù)而言,大數(shù)據(jù)也意味著大痛苦,這里的原因也很顯而易見(jiàn)。正如Mitchell Sanders所指出的,最好的數(shù)據(jù)科學(xué)家應(yīng)該具備域知識(shí)、編程技能以及數(shù)學(xué)/統(tǒng)計(jì)分析技能。我們可能想要民主化對(duì)數(shù)據(jù)的訪(fǎng)問(wèn),但做起來(lái)很困難。
MongoDB公司的Joe Drumgoogle無(wú)奈地指出:“有些東西并不適合大眾市場(chǎng),例如駕駛飛機(jī)或者做數(shù)據(jù)分析。”
即使對(duì)于數(shù)據(jù)科學(xué)家而言,Hadoop也很復(fù)雜。盡管如此,DataStax的Alex Popescu表示,這種復(fù)雜性是可以理解的,因?yàn)镠adoop讓我們可以實(shí)驗(yàn)和嘗試新的想法,同時(shí)繼續(xù)積累和存儲(chǔ)你的數(shù)據(jù)。“它是開(kāi)源且免費(fèi)的,讓試錯(cuò)過(guò)程很廉價(jià)。”
但如果大數(shù)據(jù)仍然只是數(shù)據(jù)精英的工具,大數(shù)據(jù)并不會(huì)走太遠(yuǎn)。
民主化大數(shù)據(jù)
Kestelyn表示:“BI和Hadoop具有相同的挑戰(zhàn),這并不是技術(shù)挑戰(zhàn),而是如何讓企業(yè)變成數(shù)據(jù)驅(qū)動(dòng)的企業(yè)。”
如果是這樣,那么,只有少數(shù)人具有查詢(xún)數(shù)據(jù)的能力,豈不是更強(qiáng)大?但事實(shí)是,如果你不能訪(fǎng)問(wèn)數(shù)據(jù),很難做到“數(shù)據(jù)驅(qū)動(dòng)”,并且通常情況下,最深入了解公司業(yè)務(wù)的人并不是懂得Spark或Hive的人。
現(xiàn)代BI和大數(shù)據(jù)離主流用戶(hù)很遠(yuǎn),正如Serendipity公司的Mare Lucas所說(shuō):
多年來(lái),關(guān)于BI和數(shù)據(jù)分析的談話(huà)主要圍繞如何聚合海量數(shù)據(jù),然后讓數(shù)據(jù)科學(xué)家從中發(fā)現(xiàn)價(jià)值?,F(xiàn)在,盡管信息泛濫,企業(yè)決策者往往無(wú)法以有效的方法來(lái)訪(fǎng)問(wèn)數(shù)據(jù)。這些工具通常是針對(duì)懂得算法和統(tǒng)計(jì)分析的人,一般用戶(hù)很難使用這些工具。最終的結(jié)果?大數(shù)據(jù)的發(fā)展速度會(huì)很慢,大數(shù)據(jù)的魔力掌握在少數(shù)人手中。
行業(yè)專(zhuān)家Peter Goldmacher解釋說(shuō):“大數(shù)據(jù)領(lǐng)域最大的贏家并不是大數(shù)據(jù)技術(shù)供應(yīng)商,而是利用大數(shù)據(jù)來(lái)創(chuàng)造全新業(yè)務(wù)或擾亂傳統(tǒng)業(yè)務(wù)的公司。”
但由于只有數(shù)據(jù)科學(xué)家擁有分析數(shù)據(jù)的能力,這并不會(huì)很快發(fā)生。
大數(shù)據(jù)和你
Tableau、Clearstory和Domo等新一代數(shù)據(jù)可視化工具旨在讓更廣泛的受眾來(lái)使用企業(yè)數(shù)據(jù)。這些公司提供交互式儀表板來(lái)顯示各種數(shù)據(jù)來(lái)源(Hadoop或Spark集群;Teradata EDW;MongoDB、MySQL、Cassandra或Oracle數(shù)據(jù)庫(kù)等),讓所有企業(yè)用戶(hù)都可以使用,并不需要特殊技能。
讓大數(shù)據(jù)更簡(jiǎn)單的市場(chǎng)要比構(gòu)建大數(shù)據(jù)基礎(chǔ)設(shè)施的市場(chǎng)大得多。因此,鑒于銷(xiāo)售開(kāi)源基礎(chǔ)設(shè)施支持合同的困難度,我們可以看看,現(xiàn)在的Hadoop供應(yīng)商是否會(huì)購(gòu)買(mǎi)Clearstorys和SlamData來(lái)真正實(shí)現(xiàn)數(shù)據(jù)民主化。
但就目前而言,大多數(shù)企業(yè)應(yīng)該密切關(guān)注數(shù)據(jù)可視化供應(yīng)商。在大多數(shù)情況下,這些不會(huì)是過(guò)去的BI供應(yīng)商(他們都在努力應(yīng)對(duì)非結(jié)構(gòu)化數(shù)據(jù)),而是現(xiàn)代BI初創(chuàng)公司,他們了解現(xiàn)在的數(shù)據(jù)很混亂,但可以通過(guò)正確的可視化工具來(lái)挖掘其價(jià)值。