“大數(shù)據(jù)”這個(gè)術(shù)語(yǔ)在20世紀(jì)90年代后期首次成為科技詞匯。當(dāng)時(shí)SGI公司的John Mashey等人開(kāi)始使用這個(gè)術(shù)語(yǔ)描述企業(yè)擁有和產(chǎn)生的龐大且不斷增長(zhǎng)的數(shù)據(jù),這些數(shù)據(jù)當(dāng)時(shí)難以使用可用的技術(shù)進(jìn)行存儲(chǔ)和分析。
2001年,分析師Doug Laney建議對(duì)大數(shù)據(jù)進(jìn)行定義,其中包括三個(gè)V:數(shù)量(volume)、速度(velocity)和種類(variety)。在接下來(lái)的幾年中,Laney的定義成為了行業(yè)標(biāo)準(zhǔn),并且有些人在這個(gè)定義中增加了第四個(gè)V- 變異性(variability)。
2005年,當(dāng)雅虎公司推出Hadoop開(kāi)源分布式數(shù)據(jù)存儲(chǔ)時(shí),大數(shù)據(jù)技術(shù)向前邁進(jìn)了一大步。該項(xiàng)目成為整個(gè)商業(yè)和開(kāi)源數(shù)據(jù)存儲(chǔ)和分析解決方案生態(tài)系統(tǒng)的關(guān)鍵。
2014年,IDC公司和EMC公司發(fā)布了他們最新的數(shù)字宇宙的研究報(bào)告,報(bào)告顯示全球數(shù)字系統(tǒng)存儲(chǔ)的數(shù)據(jù)量每年增長(zhǎng)40%。這些研究機(jī)構(gòu)預(yù)測(cè),到2020年,數(shù)字世界將擁有44澤字節(jié)的信息,而這幾乎與宇宙中的恒星數(shù)量一樣多。
如今,大數(shù)據(jù)當(dāng)然沒(méi)有變得更小,但是增長(zhǎng)數(shù)據(jù)存儲(chǔ)的規(guī)模不再像以前那樣受到關(guān)注。相反,大多數(shù)組織都專注于分析、數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)。他們已經(jīng)接受管理大數(shù)據(jù)只是公司業(yè)務(wù)的一部分的事實(shí),如果他們想要競(jìng)爭(zhēng)并取得成功,他們需要找到方法將這些大數(shù)據(jù)變成寶貴的見(jiàn)解。
大數(shù)據(jù)市場(chǎng)概述
大數(shù)據(jù)技術(shù)的企業(yè)支出在過(guò)去十年持續(xù)攀升。根據(jù)IDC公司的數(shù)據(jù),全球大數(shù)據(jù)和業(yè)務(wù)分析收入可能從2017年的1508億美元增長(zhǎng)到2020年的2100億美元,年復(fù)合增長(zhǎng)率為11.9%。
IDC公司副總裁Dan Vesset表示:“經(jīng)過(guò)多年的采用后,大數(shù)據(jù)和業(yè)務(wù)分析解決方案終于成為主流。大數(shù)據(jù)分析作為決策支持和決策自動(dòng)化的推動(dòng)者現(xiàn)在已經(jīng)得到企業(yè)高層管理人員的高度關(guān)注,這種類型的解決方案也是在全球各個(gè)行業(yè)和業(yè)務(wù)流程中實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型工作的關(guān)鍵支柱之一。”
研究報(bào)告表明,企業(yè)的大數(shù)據(jù)舉措正在對(duì)他們的利潤(rùn)產(chǎn)生積極影響。在NewVantage Partners進(jìn)行的大數(shù)據(jù)高管調(diào)查中,80.7%的受訪者表示他們的大數(shù)據(jù)投資是成功的,48.4%的受訪者表示他們已經(jīng)通過(guò)大數(shù)據(jù)舉措實(shí)現(xiàn)了可衡量的收益。
這些結(jié)果可能會(huì)鼓勵(lì)企業(yè)繼續(xù)投資大數(shù)據(jù),但他們采用的大數(shù)據(jù)解決方案類型正在發(fā)生變化。根據(jù)Forrester Research公司的調(diào)查報(bào)告,“大數(shù)據(jù)轉(zhuǎn)向云計(jì)算是事實(shí),通過(guò)云訂閱的全球大數(shù)據(jù)解決方案支出的增長(zhǎng)速度將比內(nèi)部訂閱快7.5倍。”
該公司補(bǔ)充說(shuō),“此外,根據(jù)2016年和2017年對(duì)數(shù)據(jù)分析專業(yè)人士的調(diào)查,公共云是大數(shù)據(jù)的首要技術(shù)優(yōu)先事項(xiàng)。”
采用云計(jì)算對(duì)于依賴機(jī)器學(xué)習(xí)技術(shù)的大數(shù)據(jù)分析來(lái)說(shuō)特別流行。采用機(jī)器學(xué)習(xí)需要先進(jìn)且昂貴的計(jì)算硬件,但在云中運(yùn)行機(jī)器學(xué)習(xí)使組織能夠以自己的數(shù)據(jù)中心所花費(fèi)成本的一小部分來(lái)采用該技術(shù)。雖然企業(yè)面臨著與云計(jì)算分析相關(guān)的一些挑戰(zhàn),但專家表示,這種云計(jì)算分析趨勢(shì)在未來(lái)幾年可能會(huì)加速實(shí)現(xiàn)。
大數(shù)據(jù)技術(shù)的市場(chǎng)細(xì)分
隨著大數(shù)據(jù)市場(chǎng)的成熟,供應(yīng)商開(kāi)發(fā)了各種各樣的大數(shù)據(jù)技術(shù)來(lái)滿足企業(yè)需求。這是一個(gè)非常廣闊的市場(chǎng),但大多數(shù)大數(shù)據(jù)解決方案都屬于以下幾類之一:
•商業(yè)智能(BI):商業(yè)智能解決方案為通常存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中的業(yè)務(wù)數(shù)據(jù)提供分析和報(bào)告功能。根據(jù)Gartner公司的預(yù)測(cè),商業(yè)智能和分析市場(chǎng)預(yù)計(jì)將從2017年的183億美元增加到2020年的228億美元。然而,這一增長(zhǎng)速度比過(guò)去有所放緩。
•數(shù)據(jù)挖掘:數(shù)據(jù)挖掘是一個(gè)廣泛的類別,涵蓋了用于查找大數(shù)據(jù)模式的各種技術(shù)。雖然許多大數(shù)據(jù)解決方案仍然提供數(shù)據(jù)挖掘功能,但這個(gè)術(shù)語(yǔ)已經(jīng)不太受歡迎,因?yàn)楣?yīng)商使用“預(yù)測(cè)分析”和“機(jī)器學(xué)習(xí)”等術(shù)語(yǔ)來(lái)描述他們的解決方案。
•數(shù)據(jù)集成:大數(shù)據(jù)分析的一大挑戰(zhàn)是收集來(lái)自不同來(lái)源的所有相關(guān)數(shù)據(jù),并將其轉(zhuǎn)換為可易于分析的格式。這導(dǎo)致了大量的數(shù)據(jù)集成解決方案,這些解決方案有時(shí)也被稱為ETL(簡(jiǎn)稱“提取、轉(zhuǎn)換、加載”)解決方案。根據(jù)調(diào)查數(shù)據(jù),到2022年,數(shù)據(jù)集成的市場(chǎng)收入可能會(huì)達(dá)到124億美元。
•數(shù)據(jù)管理:這類解決方案包括幫助組織整合、清潔、存儲(chǔ)、保護(hù)和確保其數(shù)字?jǐn)?shù)據(jù)質(zhì)量的工具。調(diào)查報(bào)告中預(yù)測(cè),到2022年,這類大數(shù)據(jù)工具的市場(chǎng)收入將達(dá)到1052億美元。
•開(kāi)源技術(shù):許多最廣泛使用的大數(shù)據(jù)技術(shù)可以在開(kāi)源許可證下獲得。特別是由Apache基金會(huì)管理的Hadoop和Spark等技術(shù)已經(jīng)非常流行。許多供應(yīng)商提供這些開(kāi)源大數(shù)據(jù)技術(shù)的商業(yè)支持版本。
•數(shù)據(jù)湖:數(shù)據(jù)湖是一個(gè)存儲(chǔ)庫(kù),可以從各種來(lái)源獲取數(shù)據(jù)并以原生格式存儲(chǔ)數(shù)據(jù)。這與數(shù)據(jù)倉(cāng)庫(kù)有所不同,后者存儲(chǔ)已經(jīng)過(guò)清理和格式化以用于分析的數(shù)據(jù)。數(shù)據(jù)湖泊很受希望對(duì)結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)執(zhí)行分析的組織的歡迎。
•NoSQL數(shù)據(jù)庫(kù):與關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMSes)不同,NoSQL數(shù)據(jù)庫(kù)不會(huì)將信息存儲(chǔ)在具有行和列的傳統(tǒng)表中。相反,他們使用其他模型,如列、文檔或圖形來(lái)跟蹤數(shù)據(jù)。許多企業(yè)使用NoSQL數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析。
•預(yù)測(cè)分析:目前最流行的大數(shù)據(jù)分析形式之一,預(yù)測(cè)分析著眼于歷史趨勢(shì),以便對(duì)未來(lái)可能發(fā)生的事情提供一個(gè)良好的估計(jì)。許多現(xiàn)代預(yù)測(cè)分析解決方案都集成了機(jī)器學(xué)習(xí)功能,使他們的預(yù)測(cè)隨著時(shí)間的推移變得更加準(zhǔn)確。在Zion Market Research公司的調(diào)查報(bào)告中,預(yù)測(cè)分析支出可能從2016年的34.9億美元上升到2022年的109.5億美元。
•規(guī)定性分析:規(guī)定性分析比預(yù)測(cè)分析更進(jìn)一步。除了告訴組織未來(lái)可能發(fā)生的事情外,這些解決方案還提供了建議的行動(dòng)方案,以實(shí)現(xiàn)預(yù)期的結(jié)果。專家表示,目前市場(chǎng)上很少有(如果有的話)大數(shù)據(jù)分析解決方案具有真正的規(guī)范功能,但這是供應(yīng)商進(jìn)行深入研究的一個(gè)領(lǐng)域。
•內(nèi)存數(shù)據(jù)庫(kù):內(nèi)存技術(shù)使得大數(shù)據(jù)分析顯著加快。在任何計(jì)算機(jī)系統(tǒng)中,訪問(wèn)內(nèi)存中的數(shù)據(jù)(有時(shí)也稱為RAM)比訪問(wèn)存儲(chǔ)在機(jī)械硬盤驅(qū)動(dòng)器或固態(tài)硬盤驅(qū)動(dòng)器上的數(shù)據(jù)要快得多。內(nèi)存數(shù)據(jù)庫(kù)允許用戶將大量數(shù)據(jù)存儲(chǔ)在內(nèi)存中,從而大大提高速度。
•人工智能和機(jī)器學(xué)習(xí):許多下一代大數(shù)據(jù)分析工具都集成了機(jī)器學(xué)習(xí),這是人工智能(AI)的一個(gè)子類。機(jī)器學(xué)習(xí)使用算法來(lái)幫助系統(tǒng)隨著時(shí)間的推移逐漸完善,而不需要明確的編程。這是大數(shù)據(jù)市場(chǎng)增長(zhǎng)最快的領(lǐng)域之一。
•數(shù)據(jù)科學(xué)平臺(tái):許多供應(yīng)商已開(kāi)始將其大數(shù)據(jù)分析解決方案標(biāo)記為“數(shù)據(jù)科學(xué)平臺(tái)”。這一類產(chǎn)品通常在統(tǒng)一平臺(tái)中包含許多不同的功能。幾乎所有這類產(chǎn)品都具有一些分析和機(jī)器學(xué)習(xí)功能,而且還有許多產(chǎn)品也具有數(shù)據(jù)集成或數(shù)據(jù)管理功能。
全球主要的大數(shù)據(jù)公司
考慮到市場(chǎng)上包含如此多不同類型的大數(shù)據(jù)解決方案,所以有很多的公司提供大數(shù)據(jù)產(chǎn)品就不足為奇。下面的列表包括一些全球最知名的大數(shù)據(jù)公司,但還有很多其他的公司。
•亞馬遜網(wǎng)絡(luò)服務(wù)公司(AWS)-提供云存儲(chǔ)、數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、分析和機(jī)器學(xué)習(xí)服務(wù)
•Alpine Data Labs -現(xiàn)在由Tibco公司所有,提供數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)平臺(tái)
•Alteryx-提供自助式大數(shù)據(jù)分析平臺(tái)
•Big Panda-提供監(jiān)測(cè)和管理IT事件數(shù)據(jù)的分析
•Cloudera - 提供Hadoop發(fā)行版,以及數(shù)據(jù)科學(xué)和大數(shù)據(jù)分析工具
•Databricks - 由Apache Spark團(tuán)隊(duì)創(chuàng)建,提供由Spark支持的統(tǒng)一分析平臺(tái)
•Dataiku - 提供協(xié)作式數(shù)據(jù)科學(xué)平臺(tái)
•Datameer - 提供靈活的數(shù)據(jù)管道管理平臺(tái)
•DataStax - 由Apache Cassandra數(shù)據(jù)庫(kù)背后的團(tuán)隊(duì)創(chuàng)建,提供基于Cassandra的分布式云數(shù)據(jù)庫(kù)
•Domino - 提供了一個(gè)數(shù)據(jù)科學(xué)平臺(tái)
•FICO - 提供數(shù)據(jù)分析工具,包括人工智能和機(jī)器學(xué)習(xí)軟件以及打擊欺詐和網(wǎng)絡(luò)犯罪的解決方案
•谷歌云-提供基于云計(jì)算的存儲(chǔ)、數(shù)據(jù)倉(cāng)庫(kù)、分析、機(jī)器學(xué)習(xí)等技術(shù)
•GridGrain - 提供基于Apache Ignite的內(nèi)存計(jì)算平臺(tái)
•H2O.ai - 提供基于開(kāi)源技術(shù)的數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)平臺(tái)
•Hitachi Vantara -由日立數(shù)據(jù)系統(tǒng)、日立Insight集團(tuán)和PunaHo合并而成,提供數(shù)據(jù)集成、大數(shù)據(jù)分析、存儲(chǔ)和相關(guān)產(chǎn)品
•Hortonworks - 提供流行的Hadoop發(fā)行版以及其他大數(shù)據(jù)工具和服務(wù)
•HPCC - 提供分布式大數(shù)據(jù)平臺(tái),可替代Hadoop
•HPE - 提供大數(shù)據(jù)硬件和服務(wù)
•IBM - 提供大數(shù)據(jù)云服務(wù),以及數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、分析和機(jī)器學(xué)習(xí)軟件
•Informatica - 提供基于云計(jì)算的數(shù)據(jù)管理平臺(tái),提供各種大數(shù)據(jù)解決方案
•KNIME - 提供數(shù)據(jù)挖掘和分析軟件
•MapR--提供融合數(shù)據(jù)平臺(tái),以及大數(shù)據(jù)存儲(chǔ)、分析、機(jī)器學(xué)習(xí)和NoSQL數(shù)據(jù)庫(kù)
•MarkLogic - 提供NoSQL數(shù)據(jù)庫(kù)和數(shù)據(jù)集成工具
•Microsoft Azure--提供基于云計(jì)算的存儲(chǔ)、大數(shù)據(jù)分析、機(jī)器學(xué)習(xí)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖等等
•MongoDB - 基于相同的技術(shù)提供NoSQL數(shù)據(jù)庫(kù)和云計(jì)算服務(wù)
•Mu Sigma - 提供大數(shù)據(jù)分析和決策科學(xué)解決方案
•Oracle - 提供基于云計(jì)算和內(nèi)部部署的數(shù)據(jù)庫(kù)、數(shù)據(jù)集成、數(shù)據(jù)管理、分析等
•Palantir - 提供數(shù)據(jù)集成和數(shù)據(jù)管理解決方案
•Pivotal--提供內(nèi)存技術(shù)和多云分析平臺(tái)
•Qlik - 提供商業(yè)智能和分析軟件
•RapidMiner - 提供數(shù)據(jù)挖掘、數(shù)據(jù)科學(xué)、預(yù)測(cè)分析、機(jī)器學(xué)習(xí)解決方案
•SAP - 提供內(nèi)存數(shù)據(jù)管理、分析、人工智能和機(jī)器學(xué)習(xí)工具
•SAS - 提供分析、商業(yè)智能和數(shù)據(jù)管理解決方案
•SiSense - 提供商業(yè)智能和分析
•Splice Machine - 提供組合數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)和機(jī)器學(xué)習(xí)平臺(tái)
•Splunk - 提供日志和安全數(shù)據(jù)的分析
•Striim - 提供流式分析
•SumoLogic - 提供日志和安全數(shù)據(jù)的分析
•Tableau - 提供商業(yè)智能和大數(shù)據(jù)分析
•Talend - 提供大數(shù)據(jù)集成工具
•Tibco Jaspersoft - 提供商業(yè)智能和分析
•Teradata - 提供數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖和業(yè)務(wù)分析
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。