最后我們發(fā)現(xiàn),原來(lái)大數(shù)據(jù)仍然是“有一種大數(shù)據(jù)是廠(chǎng)商的大數(shù)據(jù)解決方案”,仍然是大數(shù)據(jù)服務(wù)商在告訴我們:他們?nèi)绾螏椭覀儊?lái)做大數(shù)據(jù)。作為CIO,我們自身的探索在哪里?
郭煒,現(xiàn)易觀智庫(kù)CTO,原萬(wàn)達(dá)電商部大數(shù)據(jù)總經(jīng)理,這是行業(yè)內(nèi)目前比較罕見(jiàn)的一位90后CIO,當(dāng)然,由于他自嘲的“人長(zhǎng)得比較著急”,無(wú)人將他的成就與他的年齡匹配起來(lái)。但他的探索一直都在。近日,郭煒將其混合云部署與大數(shù)據(jù)分析方面的研究與大家進(jìn)行了分享。
上圖為:易觀智庫(kù)CTO郭煒
大數(shù)據(jù)的三個(gè)階段
郭煒將大數(shù)據(jù)分為三個(gè)階段:
第一個(gè)階段叫數(shù)據(jù)倉(cāng)庫(kù)或者BI階段,這個(gè)階段起始于做ERP、CRM時(shí)建立的數(shù)據(jù)倉(cāng)庫(kù),這是大數(shù)據(jù)的第一個(gè)階段;
第二個(gè)階段是點(diǎn)擊流分析階段,如雅虎的大數(shù)據(jù)是將點(diǎn)擊背后的流量分析出來(lái),通過(guò)Hadoop平臺(tái),或者其它的新的數(shù)據(jù)分析技術(shù)將點(diǎn)擊流分析出來(lái)。
第三個(gè)階段是 IoT和O2O時(shí)代的大數(shù)據(jù),這個(gè)階段的大數(shù)據(jù)不僅僅是原來(lái)在互聯(lián)網(wǎng)上的數(shù)據(jù),還包括線(xiàn)下的一些行為數(shù)據(jù),可以用真實(shí)的設(shè)備,比如智能WIFI,智能藍(lán)牙,用這些智能設(shè)備去采集所有線(xiàn)下用戶(hù)的行為軌跡。比如萬(wàn)達(dá)投入過(guò)一些智能設(shè)備,可以將消費(fèi)者線(xiàn)下在萬(wàn)達(dá)廣場(chǎng)里怎么行走的行為軌跡,通過(guò)智能設(shè)備實(shí)時(shí)上傳到萬(wàn)達(dá)大數(shù)據(jù)平臺(tái),通過(guò)智能WIFI,智能藍(lán)牙,包括一些攝象頭采集消費(fèi)者的行為,同時(shí)結(jié)合大家的刷卡行為,便可以將消費(fèi)者在萬(wàn)達(dá)的消費(fèi)行為明晰記錄下來(lái)。
也就是當(dāng)個(gè)人逛商場(chǎng),或者線(xiàn)上消費(fèi)去京東或者上阿里點(diǎn)擊瀏覽網(wǎng)頁(yè)一樣,消費(fèi)者在每個(gè)商業(yè)區(qū)域里停留了多長(zhǎng)時(shí)間,買(mǎi)了什么東西,吃了什么飯,看了什么電影,所有的數(shù)據(jù)都能采集上。采集這些數(shù)據(jù)是為了更有效進(jìn)行推薦引擎,也就是預(yù)測(cè),比如上淘寶,他便能預(yù)測(cè)你可能喜歡何種商品。
舉個(gè)例子,比如消費(fèi)者逛完商場(chǎng),剛出電影院,便收到星巴克優(yōu)惠券的推送消息,剛剛看完電影,可能覺(jué)得你會(huì)口渴,此時(shí)此刻,這兩張優(yōu)惠券便是你最需要的東西。這個(gè)場(chǎng)景的技術(shù)實(shí)現(xiàn)便使用了SaaS技術(shù)。
云和大數(shù)據(jù)的結(jié)合是未來(lái)的趨勢(shì)
易觀智庫(kù)是初創(chuàng)型企業(yè),擁有非常大的數(shù)據(jù)量,怎么樣用一個(gè)最高性?xún)r(jià)比的方式構(gòu)建大數(shù)據(jù)平臺(tái),并最終實(shí)現(xiàn)企業(yè)目標(biāo)?目前易觀的大數(shù)據(jù)資源主要是手機(jī)APP,現(xiàn)在已經(jīng)覆蓋5.4億手機(jī)的設(shè)備量,監(jiān)控58萬(wàn)APP。
在這樣一個(gè)大數(shù)據(jù)情況下,應(yīng)該建立一個(gè)怎樣的數(shù)據(jù)平臺(tái)?既能滿(mǎn)足業(yè)務(wù)需要又不需要過(guò)大的投入。郭煒說(shuō):“云和大數(shù)據(jù)的結(jié)合是未來(lái)的趨勢(shì)。”因?yàn)橄嗦?lián)接的所有的智能硬件設(shè)備都需要通過(guò)互聯(lián)網(wǎng),此外,目前所有的大數(shù)據(jù)都是基于開(kāi)源軟件來(lái)實(shí)現(xiàn),包括Hadoop等,這些開(kāi)源平臺(tái)能節(jié)約成本,但其使用也存在很多問(wèn)題,因此,需要有非常好的云端平臺(tái)能夠直接進(jìn)行大數(shù)據(jù)服務(wù)。因此,易觀智庫(kù)的大數(shù)據(jù)平臺(tái)設(shè)計(jì)基于上述原則進(jìn)行。
易觀智庫(kù)的混合云大數(shù)據(jù)探索
易觀將云和大數(shù)據(jù)的結(jié)合分為四層。底層基于AAS和MAS服務(wù),包括公有云服務(wù),一開(kāi)始就全部實(shí)現(xiàn)了基于公有云做的大數(shù)據(jù)平臺(tái)。第二層,PaaS、DAAS及相關(guān)的大數(shù)據(jù)服務(wù)。第三層是數(shù)據(jù)分析,讓所有數(shù)據(jù)變得容易理解。第四層是相關(guān)的業(yè)務(wù)營(yíng)銷(xiāo)。
易觀將云和大數(shù)據(jù)結(jié)合后,期望將相關(guān)的分析、計(jì)算變成一個(gè)可理解的結(jié)果。因此需要把小數(shù)據(jù)分析做到極致。先讓人理解大數(shù)據(jù)的一個(gè)結(jié)果,然后再去模擬人的決策,再用新的算法模擬人自己的這些步驟,一次一次反饋改進(jìn),形成循環(huán)。這其間的路徑難點(diǎn)就是先把數(shù)據(jù)量理解,數(shù)據(jù)量理解完成后便形成數(shù)據(jù)規(guī)劃。
舉例如下:比如想看95后喜歡網(wǎng)購(gòu)的手游的狂人,在工作日晚上十點(diǎn)到十二點(diǎn)最喜歡打開(kāi)的新聞?lì)惖腁PP是什么?這個(gè)場(chǎng)景可用于投放廣告的需求,在這個(gè)時(shí)間有多少客戶(hù)究竟喜歡看哪些新聞?lì)怉PP。如果做這個(gè)人群的查詢(xún),需要有 4000多個(gè)標(biāo)簽,5.4億用戶(hù),58萬(wàn)APP,再加上這些人每天的行為,數(shù)據(jù)量便無(wú)法結(jié)算。易觀現(xiàn)在的做法是,構(gòu)建云的大數(shù)據(jù)平臺(tái),通過(guò)一個(gè)MySQL數(shù)據(jù)庫(kù)把數(shù)據(jù)放到MySQL里面,在網(wǎng)上其實(shí)就是Redis,Tomcat等,再通過(guò)易觀自有的秘密機(jī)制在公有云上便可以實(shí)現(xiàn)相關(guān)的查詢(xún),以便能滿(mǎn)足業(yè)務(wù)需求。
上述解決方案的優(yōu)點(diǎn)是快速部署,快速實(shí)現(xiàn),集中化管理,可提供初級(jí)攻擊防護(hù),硬件免維護(hù)。但缺點(diǎn)是執(zhí)行效率過(guò)低,單次30分鐘,單價(jià)成本較高,年度投入單臺(tái)超過(guò)3萬(wàn)。且目前三個(gè)知名的公有云服務(wù)商,盡管用了這樣或那樣的技術(shù),但是I/O系統(tǒng)也是不足,包括網(wǎng)絡(luò)帶寬和CPU性能,目前所有的公有云都是大家共享CPU,因此,總會(huì)存在上述問(wèn)題。
易觀曾從不同公有云上面做了三次遷移,最終確定必須先將性能提高。由于易觀的業(yè)務(wù)非常靈活,既想它能夠滿(mǎn)足業(yè)務(wù),同時(shí)又能夠有大數(shù)據(jù)計(jì)算,混合云架構(gòu)是最好選擇。
其思路是將所有的和大數(shù)據(jù)相關(guān)的技術(shù),包括Hadoop做成一套組件,在此基礎(chǔ)上搭建私有云,將自身的Facebook開(kāi)源大數(shù)據(jù)平臺(tái)和MySQL數(shù)據(jù)庫(kù)都放在線(xiàn)下,而把所有產(chǎn)品前端的放在公有云上。這樣調(diào)整的難點(diǎn)是私有云和虛擬機(jī)如何分開(kāi)及怎么跟公有云打通的問(wèn)題,最后的解決方法是直接通過(guò)光纖,便保證了業(yè)務(wù)的擴(kuò)展性。
混合云的異地備份的優(yōu)點(diǎn)就是性能非常強(qiáng),云端應(yīng)用配置靈活,機(jī)器非常方便。缺點(diǎn)就是公有云和私有云打通后拓?fù)浣Y(jié)構(gòu)比較復(fù)雜。但能夠既享受原來(lái)物理集群的優(yōu)化,還能享受靈活。
易觀通過(guò)上述混合云與大數(shù)據(jù)的探索,已能成功解決上述95后喜歡網(wǎng)購(gòu)的手游的狂人,在工作日晚上十點(diǎn)到十二點(diǎn)最喜歡打開(kāi)的新聞?lì)惖腁PP是什么的難題。