在一次互聯(lián)網(wǎng)思維的學(xué)習(xí)討論會(huì)上,大家當(dāng)然討論了大數(shù)據(jù)時(shí)代和大數(shù)據(jù)的思維,當(dāng)然,大數(shù)據(jù)思維是互聯(lián)網(wǎng)思維的特點(diǎn)之一。
“您每天敲擊一次鍵盤,都會(huì)成為這個(gè)時(shí)代的大數(shù)據(jù)的一部分”。
這是“中國之聲”的廣告詞。
“大數(shù)據(jù)”因互聯(lián)網(wǎng)而成為這個(gè)時(shí)代的一個(gè)顯著特征,并成功的贏取了時(shí)代金礦的美譽(yù)。數(shù)據(jù)的價(jià)值得到空前的重視,“誰掌握了數(shù)據(jù),誰就掌握了未來”。“數(shù)據(jù)是重要的資產(chǎn)”。“數(shù)據(jù)只有開放互聯(lián)才能成為大數(shù)據(jù),才能發(fā)掘出價(jià)值”。當(dāng)人們津津樂道大數(shù)據(jù)是如何成為時(shí)代的新寵時(shí),似乎各行各業(yè)都離不開大數(shù)據(jù)了。
而事實(shí)上,大數(shù)據(jù)給我們到底帶來了什么呢?我們究竟在大數(shù)據(jù)上獲得了哪些利益呢?未來又能獲得什么利益呢?盡管全球的IT精英都在絞盡腦汁的發(fā)掘和鼓吹大數(shù)據(jù)的價(jià)值,乃至國家政策也受此影響。但如果對(duì)上述問題沒有得到清晰的答案,這樣的影響多少存在邏輯上的盲目。
理智地思考:大數(shù)據(jù)為何產(chǎn)生?
因?yàn)橛辛擞?jì)算機(jī),才有數(shù)據(jù)。數(shù)據(jù)是計(jì)算機(jī)的食物和產(chǎn)物。
因?yàn)橛?jì)算機(jī)爆發(fā)式的增長,導(dǎo)致作為其食物和產(chǎn)物的數(shù)據(jù)爆發(fā)式增長。
計(jì)算機(jī)的聯(lián)網(wǎng),自然帶來其食物和產(chǎn)物的相互糾連。
計(jì)算機(jī)為什么要吃進(jìn)數(shù)據(jù)和吐出數(shù)據(jù)?因?yàn)閿?shù)據(jù)里面有我們?nèi)祟愋枰男畔ⅰ?/p>
數(shù)據(jù)的糾連,背后是信息的關(guān)聯(lián)。
即使在沒有計(jì)算機(jī)的年代,信息的關(guān)聯(lián)原本就存在,構(gòu)成我們?nèi)祟惖男畔⑹澜纭?/p>
那時(shí)的信息世界雖然運(yùn)行緩慢,相互阻隔比較嚴(yán)重,但至少是清澈見底,讓我們氣定神閑的。
計(jì)算機(jī)在信息世界的出現(xiàn),相當(dāng)于蒸汽機(jī)在工業(yè)世界中的出現(xiàn)。
工業(yè)革命帶來的是什么?產(chǎn)品生產(chǎn)效率的大幅提高和自然資源的快速消耗及生態(tài)環(huán)境的劇烈破壞,當(dāng)然,還有科技的進(jìn)步。
那么,信息革命帶來的是?信息處理效率和范圍不斷提升和數(shù)據(jù)的快速膨脹,有誰想到過,和工業(yè)革命之對(duì)生態(tài)環(huán)境的劇烈破壞,信息革命對(duì)應(yīng)的影響是什么?如果是破壞,破壞了什么?如果我們想都沒想到過這個(gè)破壞確實(shí)可能存在,如果實(shí)際是存在的,會(huì)意味著什么?意味著人類在未覺醒的狀態(tài)下,在拼命發(fā)展著一種對(duì)自己的某個(gè)世界可能帶來巨大影響的技術(shù)。不像工業(yè)革命帶來對(duì)自然環(huán)境的污染和破壞可以讓人類直接得到相應(yīng)的懲罰而覺醒。信息革命如果能帶來破壞,則一定是對(duì)人類信息世界的生態(tài)環(huán)境的劇烈破壞。
信息革命可能如何來破壞人類信息世界的生態(tài)環(huán)境的呢?
在原來人類的信息世界的生態(tài)環(huán)境中,雖數(shù)據(jù)量不大,但數(shù)據(jù)的信息密度大。雖數(shù)據(jù)復(fù)制傳輸慢,但垃圾數(shù)據(jù)少。自從有了計(jì)算機(jī),特別是有了互聯(lián)網(wǎng),數(shù)據(jù)對(duì)信息的吞噬是極其野蠻和不受約束的。數(shù)據(jù)量是很大,數(shù)據(jù)的類也很多,關(guān)聯(lián)的范圍也很廣,但信息的密度卻急劇下降。由于數(shù)據(jù)的傳輸和復(fù)制的速度急速提高,垃圾數(shù)據(jù)更是野蠻生長不受控制。這便是對(duì)大數(shù)據(jù)的來由的另一種看法。
確實(shí),大數(shù)據(jù)的產(chǎn)生,給我們帶來了在前所未有的宏觀層次得到數(shù)據(jù)證實(shí)的信息,但是,這些信息,實(shí)際和人類憑直覺得到的信息也無太多的差別。相反,龐大的數(shù)據(jù)支撐下的“數(shù)據(jù)說話”的思維,讓人類越來越喪失了宏觀的直覺和思考的能力。
所以,大數(shù)據(jù)時(shí)代,實(shí)際是個(gè)什么時(shí)代?對(duì)這點(diǎn)的清醒認(rèn)知,對(duì)把控人類技術(shù)發(fā)展的下一個(gè)時(shí)代確實(shí)非常重要。倘若迷糊,下一個(gè)時(shí)代是“大失控”時(shí)代,就不僅僅是科技作品中的預(yù)言了。
倘若我們清醒過來,認(rèn)識(shí)到大數(shù)據(jù)的危害,我們則可能利用大數(shù)據(jù)帶來的技術(shù)升級(jí),反過來治理大數(shù)據(jù)的危害,正象我們?cè)诤蠊I(yè)革命時(shí)期所做的那樣,環(huán)保和生態(tài)事業(yè)在新的技術(shù)支撐下,得以發(fā)展。
倘若我們做到了后者,那么,大數(shù)據(jù)時(shí)代的下一個(gè)時(shí)代,必然是個(gè)“大整合”的時(shí)代。
[page]2015貴陽國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)暨全球大數(shù)據(jù)時(shí)代貴陽峰會(huì)5月26-29日在貴陽舉行,數(shù)據(jù)觀對(duì)該活動(dòng)進(jìn)行全程圖文直播。5月27日,在“城市全域免費(fèi)無線網(wǎng)絡(luò)與塊數(shù)據(jù)下的產(chǎn)業(yè)創(chuàng)新”分論壇上,中國科學(xué)院研究員程學(xué)旗發(fā)表了題為《大數(shù)據(jù)智能的研究與應(yīng)用進(jìn)展》的主題演講。
程學(xué)旗在“城市全域免費(fèi)無線網(wǎng)絡(luò)與塊數(shù)據(jù)下的產(chǎn)業(yè)創(chuàng)新”分論壇上發(fā)表主題演講,以下為演講PPT全文:
[page]如今,我們已經(jīng)進(jìn)入移動(dòng)互聯(lián)網(wǎng)時(shí)代,大數(shù)據(jù)撲面而來。對(duì)于京東來說,大數(shù)據(jù)到底都能夠起到哪些作用?5月26日,老冀在貴陽大數(shù)據(jù)博覽會(huì)上見到了京東大數(shù)據(jù)部副總經(jīng)理邢志峰,也就是京東研發(fā)部門內(nèi)部俗稱的“邢捕頭”,向他請(qǐng)教了一下京東大數(shù)據(jù)的一些問題。
邢捕頭算是京東大數(shù)據(jù)的資深員工了,他在2009年就加入了京東,一直在京東數(shù)據(jù)部門。當(dāng)時(shí)《武林外傳》挺火的,同事們看他做事認(rèn)真,于是給他起了個(gè)電視劇里面角色的外號(hào)。
(圖:京東大數(shù)據(jù)部副總經(jīng)理邢志峰)
分分合合的大數(shù)據(jù)路線
京東大數(shù)據(jù)說來話長,實(shí)際上,它經(jīng)歷了一個(gè)分分合合的過程。
2009年7月的時(shí)候,邢捕頭的心情可沒有現(xiàn)在輕松。那個(gè)時(shí)候,快速增長的業(yè)務(wù)帶來了海量的數(shù)據(jù)需求,業(yè)務(wù)部門扔過來大量的數(shù)據(jù),幾乎天天到他那里來“討賬”。于是京東數(shù)據(jù)部在2009年底正式成立。
到了2010年下半年,數(shù)據(jù)部依照服務(wù)職能對(duì)象的不同拆分為兩個(gè)團(tuán)隊(duì),其中一個(gè)主要面向采銷、市場等部門,另一個(gè)數(shù)據(jù)團(tuán)隊(duì)則為倉儲(chǔ)、物流等部門提供服務(wù)。
巧合的是,這兩支團(tuán)隊(duì)也選擇了不同的技術(shù)路線。一個(gè)選擇了基于開源的MySQL自建數(shù)據(jù)倉庫,自主開發(fā)配套的數(shù)據(jù)調(diào)度生產(chǎn)、數(shù)據(jù)分析提取、數(shù)據(jù)知識(shí)管理、數(shù)據(jù)報(bào)表呈現(xiàn)及數(shù)據(jù)質(zhì)量監(jiān)控的產(chǎn)品體系,并建設(shè)相應(yīng)的數(shù)據(jù)集市與業(yè)務(wù)部門聯(lián)合推廣使用。
另一個(gè)數(shù)據(jù)團(tuán)隊(duì)選擇了購買ORACLE RAC小型機(jī)/ORACLE BIEE商業(yè)智能平臺(tái),數(shù)據(jù)處理效率也得到了明顯提高。
但是隨著京東業(yè)務(wù)的不斷擴(kuò)張和高速增長,商業(yè)軟件的局限性就日益顯露出來了,主要表現(xiàn)在兩個(gè)方面:
一個(gè)是維護(hù)成本高,商業(yè)軟件此后的每一次升級(jí)都要請(qǐng)?jiān)瓘S的專家上門,這個(gè)服務(wù)費(fèi)可是相當(dāng)?shù)母摺?/p>
另一個(gè)更重要的則是快速響應(yīng)能力。電商行業(yè)變化非??欤瑤缀趺刻鞓I(yè)務(wù)部門都要做一些策略調(diào)整,比如增加某些品類,砍掉另一些品類,而商業(yè)軟件都是模塊化的,并沒有那么強(qiáng)的靈活性,響應(yīng)速度根本跟不上業(yè)務(wù)的發(fā)展。實(shí)際上,我們看到一些使用了商業(yè)軟件的電商在這個(gè)方面吃虧不小。
到了2012年年初,為了更好地應(yīng)對(duì)業(yè)務(wù)的快速增長,京東數(shù)據(jù)部又合在了一起,并且確定了基于Hadoop的分布式開源技術(shù)架構(gòu),原來的SQL Server和ORACLE數(shù)據(jù)倉庫均退出了歷史舞臺(tái)。在Hadoop的基礎(chǔ)上,京東開發(fā)出了JDW企業(yè)級(jí)數(shù)據(jù)倉庫,目前集群的總存儲(chǔ)量已經(jīng)達(dá)到了 50PB以上,是名副其實(shí)的大數(shù)據(jù)。
更加真實(shí)有效的大數(shù)據(jù)
在貴陽大數(shù)據(jù)博覽會(huì)上,出任京東集團(tuán)高級(jí)副總裁及京東研發(fā)體系負(fù)責(zé)人的張晨表示:“京東全品類、全價(jià)值鏈的電商數(shù)據(jù)在行業(yè)內(nèi)具有稀缺性,它使得京東大數(shù)據(jù)在數(shù)據(jù)、模型、技術(shù)、工具等多個(gè)層面高度的整合和統(tǒng)一,大大提升了大數(shù)據(jù)在整個(gè)集團(tuán)內(nèi)融合和利用的效率,促進(jìn)大數(shù)據(jù)的深度價(jià)值挖掘。”
簡單來講,京東大數(shù)據(jù)的優(yōu)勢(shì)得益于京東電商業(yè)務(wù)的全價(jià)值鏈數(shù)據(jù)。由于京東的主要業(yè)務(wù)是自營式電商,而且要求端到端的流程控制,使得京東的大數(shù)據(jù)覆蓋了電商的全部流程,從采購、庫房、銷售、配送到售后、客服,整個(gè)鏈條是完整的。
“數(shù)據(jù)不僅僅大才有價(jià)值,如果不完整或者只是局限于某個(gè)點(diǎn)的話,價(jià)值就小了。京東的數(shù)據(jù)很完整,量又很大,這個(gè)數(shù)據(jù)就很值錢。”邢捕頭認(rèn)為。
而且由于京東對(duì)商品交易過程實(shí)行嚴(yán)格的管控,在京東平臺(tái)上進(jìn)行代購和刷單的行為都是不允許的,這也使得京東的用戶數(shù)據(jù)更加接近真實(shí)用戶的真實(shí)需求。
有了真實(shí)有效的大數(shù)據(jù),京東就可以做很多的事情,比如精準(zhǔn)營銷、用戶畫像、C2B定制,等等。
以老冀為例,比如老冀想在京東上買本《從零到一》,結(jié)果正好這本書脫銷,老冀于是點(diǎn)擊了一下“到貨提醒”。過了幾天,老冀收到一封郵件,告訴老冀這本書已經(jīng)到貨了,并且還推薦了《奇點(diǎn)臨近》、《創(chuàng)業(yè)者的思考》,老冀發(fā)現(xiàn)這兩本也是自己想要的書,于是照單全收。
不過,老冀感覺京東每次登陸的主頁面還是非常龐雜,似乎不如美國亞馬遜那么簡潔、個(gè)性化和有針對(duì)性。邢捕頭坦誠,目前京東在A/B 測試方面還不如亞馬遜成熟。所謂A/B 測試,就是先建立一個(gè)測試頁面,這個(gè)頁面在呈現(xiàn)邏輯和內(nèi)容上與原有頁面有所不同,然后將這兩個(gè)頁面以隨機(jī)的方式同時(shí)推送給所有瀏覽用戶,接下來分別統(tǒng)計(jì)兩個(gè)頁面的用戶轉(zhuǎn)化率,即可了解到兩種策略的優(yōu)劣。還有一個(gè)也是跟中國網(wǎng)民的購物習(xí)慣相關(guān):大部分美國網(wǎng)民購物非常直接,而中國網(wǎng)民則喜歡那種“逛”的感覺。
大數(shù)據(jù)還有個(gè)很大的作用,就是用戶畫像。前面老冀談到京東有個(gè)很獨(dú)特的優(yōu)勢(shì),就是數(shù)據(jù)更加真實(shí)可靠。而且經(jīng)過了十多年的發(fā)展,京東的商品品類也已經(jīng)非常豐富,目前已經(jīng)有接近1億SKU。很多商品本身就會(huì)有用戶特征,比如女士的胸罩和內(nèi)衣,男士的刮胡刀,等等。京東根據(jù)這些購買行為給用戶打上標(biāo)簽,直至勾畫出一幅清晰的用戶畫像。
有了用戶畫像,京東就可以做很多事情了。舉個(gè)例子,根據(jù)用戶在下單前的瀏覽情況,京東就可以了解用戶的購物性格是沖動(dòng)型、理性型還是猶豫型。對(duì)于沖動(dòng)型用戶,京東直接推薦給Ta最暢銷的同類商品,而理性型用戶則推薦給Ta口碑最好的商品。
京東還將用戶畫像數(shù)據(jù)提供給網(wǎng)站智能機(jī)器人JIMI,使得JIMI能夠快速理解用戶意圖、從而對(duì)用戶進(jìn)行個(gè)性化關(guān)懷,從而大幅度提升用戶的滿意度。
而隨著2014年京東收購了騰訊的實(shí)物電商部門,并將其數(shù)據(jù)整合進(jìn)來,京東大數(shù)據(jù)的準(zhǔn)確性又得到了提升。此外,京東的大數(shù)據(jù)還能夠與騰訊的QQ/微信大數(shù)據(jù)結(jié)合起來,從而開展更有針對(duì)性的營銷活動(dòng)。從過去一段時(shí)間雙方的聯(lián)合推廣來看,大數(shù)據(jù)功不可沒。
幫助業(yè)務(wù)部門決策
其實(shí),大數(shù)據(jù)還能夠做更多的事情。對(duì)于邢捕頭所在的部門來說,最重要的還是幫助業(yè)務(wù)部門更好地決策。
比如目前市面上有那么多款手機(jī),京東手機(jī)采銷部門到底應(yīng)該采購哪一款手機(jī)?就可以根據(jù)京東大數(shù)據(jù)參考決策。如今,京東更深入了一步,在2013年推出了JDPhone計(jì)劃,與手機(jī)廠商一起打造用戶喜歡的手機(jī)。
舉個(gè)例子:京東大數(shù)據(jù)顯示,近半年來在京東購買過兩次以上手機(jī)的用戶,其中34%都選擇了更大屏幕,但是5.5寸是他們接受的極限,因此建議手機(jī)廠商選擇4.8-5.5寸屏幕作為最優(yōu)尺寸。最近這幾年,正是基于大數(shù)據(jù)的威力,JDPhone計(jì)劃先后與中興、華為等手機(jī)制造企業(yè)合作,推出了目前市場上很多暢銷的機(jī)型
“我們的數(shù)據(jù)能夠幫助業(yè)務(wù)人員做決策和判斷,能夠利用很多統(tǒng)計(jì)方式展現(xiàn)報(bào)表,以更加形象、實(shí)時(shí)和統(tǒng)一的方式提供給他們,通過業(yè)務(wù)應(yīng)用服務(wù)于我們的消費(fèi)者。”邢捕頭對(duì)于自己的工作感到非常自豪。
2011年11月,京東準(zhǔn)備對(duì)快遞包裹收費(fèi)。那么,當(dāng)用戶的訂單金額到了多少才能夠不收費(fèi)呢?為此,京東大數(shù)據(jù)部門模擬了一個(gè)場景,分別按照用戶訂單免運(yùn)費(fèi)下限為19元、29元到89元之后,對(duì)京東的整體毛利情況做了一個(gè)詳細(xì)的測算,然后找到了比較合理的價(jià)格區(qū)間,將報(bào)告提交給了公司高層,對(duì)于配送費(fèi)的合理制定起到了很好的輔助決策作用。
如今,對(duì)于京東高達(dá)上億的SKU,單是補(bǔ)貨就是個(gè)大問題,如果只是依靠人工補(bǔ)貨根本就忙不過來。京東供應(yīng)鏈研發(fā)團(tuán)隊(duì)自主開發(fā)了一套補(bǔ)貨系統(tǒng),項(xiàng)目上線之后,給圖書部門的采購補(bǔ)貨工作帶來了極大的便利。面對(duì)超過百萬而且不斷增長的SKU,圖書業(yè)務(wù)部門的采購人員并沒有顯著增加
此外,京東還將自己的大數(shù)據(jù)拿出來,與復(fù)旦大學(xué)聯(lián)合推出了復(fù)旦-京東信息消費(fèi)指數(shù),包括消費(fèi)者行為與信心指數(shù)、電子商務(wù)行業(yè)景氣度指數(shù)、電子商務(wù)便利度指數(shù)三大子指數(shù),共同構(gòu)成了一個(gè)完善的指標(biāo)體系,綜合反映了當(dāng)前信息經(jīng)濟(jì)消費(fèi)情況,能夠?yàn)檎?、行業(yè)發(fā)展、消費(fèi)者行為模式等提供重要的參考價(jià)值。這也是目前我國首個(gè)用于評(píng)估電子商務(wù)、“互聯(lián)網(wǎng)+”等信息要素集聚程度以及績效表現(xiàn)的綜合性指數(shù)。
[page]這里面創(chuàng)業(yè)公司太多了,包含BI工具,數(shù)據(jù)存儲(chǔ)和挖掘,應(yīng)用等,我就簡單說一些我感興趣的,它們大多在硅谷,其他的可以參考。更新是到2015年6月。
Palantir:融資:9.5億美元。150億美金估值,已經(jīng)是超級(jí)獨(dú)角獸單獨(dú)列出來。Peter Thiel創(chuàng)辦大數(shù)據(jù)公司。數(shù)據(jù)集成、 信息管理和定量的分析。連接到商業(yè)、 專有和公共數(shù)據(jù)集,并發(fā)現(xiàn)趨勢(shì)、 關(guān)系和異常,包括預(yù)測分析。
##############
Database
MemSQL: 號(hào)稱最快的內(nèi)存數(shù)據(jù)庫。
GraphSQL:高效、大容量的圖形數(shù)據(jù)庫和分析平臺(tái),創(chuàng)始人是國人。
MongoDB: 融資:3.11億美元。細(xì)分行業(yè):面向文檔數(shù)據(jù)庫采集。它靈活的存儲(chǔ)方式非常受青睞。
DataStax:融資:1.9億美元。細(xì)分行業(yè):基于Apache Cassandra的數(shù)據(jù)庫支持平臺(tái)。客戶包括eBay、Adobe、Netflix等
RethinkDB: open-source, scalable database that makes building realtime apps dramatically easier.
Hadoop
Hadoop 三劍客其中 Hortonworks 已經(jīng)上市
Cloudrea,融資量:10.4億美元。細(xì)分行業(yè):大數(shù)據(jù)分析軟件、服務(wù)與培訓(xùn)。今年,這家大數(shù)據(jù)巨頭企業(yè)即將進(jìn)入中國市場。
MapR:融資量:1.74億美元。細(xì)分行業(yè):大數(shù)據(jù)分析軟件、服務(wù)與培訓(xùn)。它的創(chuàng)始團(tuán)隊(duì)來自Facebook、Google和Yahoo等公司
Altiscale: 提供的Hadoop作為一種服務(wù)(HAAS)
Qubole:Hadoop服務(wù)提供商,一些創(chuàng)業(yè)公司如Pinterest也是它的客戶
Splice Machine: 基于Hadoop的實(shí)時(shí)大數(shù)據(jù)技術(shù)公司,支持SQL 事務(wù)處理,并針對(duì)OLAP 和OLAP 應(yīng)用進(jìn)行實(shí)時(shí)優(yōu)化處理
Continuuity: a Hadoop-based big data application hosting platform.
Platfora: Provide a big data analytics solution that transforms raw data in Hadoop into interactive, in-memory business intelligence.
Xplenty: Provide HaaS.
Nuevora: Provide Big Data analytics applications.
機(jī)器學(xué)習(xí)
Everstring:通過不斷地主動(dòng)挖掘和分析全網(wǎng)在線企業(yè)信息,結(jié)合每家企業(yè)內(nèi)部的客戶關(guān)系管理系統(tǒng),利用機(jī)器學(xué)習(xí)自動(dòng)建立量化客戶模型預(yù)測誰是下一個(gè)客戶。
Luminoso:自然語言處理和機(jī)器學(xué)習(xí)技術(shù),幫助企業(yè)分析消費(fèi)者在各種通訊渠道中討論的話題
Dato:GraphLab提供了一個(gè)完整的平臺(tái),從別的應(yīng)用程序或者服務(wù)中抓取數(shù)據(jù),讓機(jī)器學(xué)習(xí)這個(gè)模型,并將學(xué)到的知識(shí)作為基礎(chǔ),自動(dòng)地進(jìn)行準(zhǔn)確的預(yù)測和決策制定。
Paxata:應(yīng)用機(jī)器學(xué)習(xí)技術(shù)處理大數(shù)據(jù)難題
0xdata:H2O 的算法是面向業(yè)務(wù)流程——欺詐或趨勢(shì)預(yù)測
Numenta:developed a cohesive theory, core software technology, and numerous applications all based on principles of the neocortex
PredictionIO:開源的機(jī)器學(xué)習(xí)服務(wù)器
Alpine Data Labs: 大數(shù)據(jù)預(yù)測分析
Zementis: 預(yù)測分析決策管理平臺(tái)
Trifacta:人機(jī)交互數(shù)據(jù)分析平臺(tái)
Metamind: 提供相當(dāng)完美的人工智能解決方案,這種解決方案主要由“深度學(xué)習(xí)(DL)”支持
RapidMiner:數(shù)據(jù)挖掘工具
BI工具和其他
Looker:一個(gè)基于Web的BI平臺(tái),目前已以與Amazon Redshift、 Teradata Aster、HP Vertica、Greenplum、Impala、 BigQuery以及Spark等數(shù)據(jù)源進(jìn)行集成;定制和復(fù)用數(shù)據(jù)可視化體驗(yàn)。
Confluent:Kafka初創(chuàng)公司。
Databricks:主要開發(fā)Spark。
Elasticsearch:分布式搜索引擎,基于Lucene開發(fā)
Tachyon Nexus: 主要開發(fā)Tachyon。
Snowplow Analytics:開放代碼的分析平臺(tái),特別是基于AWS的分析。
Datameer:開源的數(shù)據(jù)處理系統(tǒng),用于構(gòu)建強(qiáng)大的超級(jí)計(jì)算機(jī)廉價(jià)服務(wù)器集群。
DataSift:社交數(shù)據(jù)分析公司
Datadog:數(shù)據(jù)監(jiān)控
Sumo logic:日志管理過濾
Ginger.io: 為研究人員、物理學(xué)家和醫(yī)療保健人員提供相應(yīng)的行為分析能力
Birst :從事商業(yè)智能和數(shù)據(jù)分析,利用云計(jì)算來顛覆傳統(tǒng)的IT服務(wù)模式
Interana:自助分析數(shù)據(jù)平臺(tái)
Lucidworks:Solr企業(yè)版
DataTorrent :可以將數(shù)據(jù)處理速度從實(shí)時(shí)提高至“現(xiàn)在時(shí)”
WibiData:專業(yè)大數(shù)據(jù)軟件包
Dataguise:大數(shù)據(jù)安全公司
Aerospike:開源NoSQL數(shù)據(jù)庫,支持近實(shí)時(shí)數(shù)據(jù)分析
Accumulo: 可靠的、可伸縮的、高性能的排序分布式的Key-Value 存儲(chǔ)解決方案,基于單元訪問控制以及可定制的服務(wù)器端處理
Pentaho:以工作流為核心的、強(qiáng)調(diào)面向解決方案而非工具組件的BI
Metamarkets:可視化分析,幫助在線媒體公司分析高流量的流媒體數(shù)據(jù)
Pivotal:一個(gè)以數(shù)據(jù)為核心的企業(yè)級(jí)PaaS平臺(tái)
Pachyderm:Dockerized MapReduce
Premise:走眾包數(shù)據(jù)采集途徑向金融機(jī)構(gòu)提供數(shù)據(jù)
Domo:融資量:2.5億美元。細(xì)分行業(yè):云商務(wù)智能。它的主要服務(wù)客戶是企業(yè)用戶,其數(shù)據(jù)庫可以幫助企業(yè)維持日常的運(yùn)轉(zhuǎn)。
SumAll:social media analytics and business dashboard
Tintri:“智能混合閃存”,混合了閃存和計(jì)算機(jī)硬盤驅(qū)動(dòng)器
Datarella:Big Data Strategy & Product Development
Snowflake:云數(shù)據(jù)倉庫
GoodData:融資:1.01億美元。細(xì)分行業(yè):云商務(wù)智能。GoodData向SaaS供應(yīng)商提供技術(shù)集成服務(wù),在平臺(tái)內(nèi)獲得分析數(shù)據(jù)。
Amplitude:BI分析軟件
Mu Sigma: 融資量:1.95億美元。細(xì)分行業(yè):大數(shù)據(jù)科學(xué)服務(wù)。這是一家向企業(yè)客戶提供數(shù)據(jù)分析和決策支持服務(wù)的研究公司。
Mixpanel:有web和移動(dòng)分析平臺(tái),其提供的服務(wù)可以分析監(jiān)測用戶活動(dòng)
DataHero:打著“你的數(shù)據(jù)你做主”的口號(hào),試圖彌合大數(shù)據(jù)同普通用戶之間的鴻溝,即幫你分析跟你密切相關(guān)的數(shù)據(jù)
Opera Solutions融資量:1.22億美元。細(xì)分行業(yè):大數(shù)據(jù)科學(xué)服務(wù)。其提供的大數(shù)據(jù)服務(wù)可以一次性采集數(shù)十億條數(shù)據(jù)。
Guavus 融資量:1.07億美元。細(xì)分行業(yè):智能解決方案平臺(tái)。它的主要投資方是英特爾。
DataGravity: software-based company engaged in the IT industry and is focused on providing data management services.
Zipfian Academy:Data Science Bootcamp
Civis Analytics:big data analytics firm that helps companies, non-profits, and campaigns leverage their data to develop smarter strategy.
Quid: Business Analytics Software
inPowered:discover the most engaging content written about them and turn them into native ads that are promoted across the web, mobile apps
Cask.co:helps developers and organizations deliver Hadoop solutions more quickly and effectively with the open source
Tamr:quickly, efficiently and cost-effectively connects and enriches all of your internal or external data sources
ScalingData/Rocana: building software for large scale machine data (logs, metrics, etc.) and event management, specifically in the domain.
Kissmetrics:分析服務(wù)公司