混合云大數(shù)據(jù)分析探索

責(zé)任編輯:jcao

作者:曹建菊

2016-04-06 17:06:56

來(lái)源:企業(yè)網(wǎng)D1Net

原創(chuàng)

郭煒,現(xiàn)易觀智庫(kù)CTO,原萬(wàn)達(dá)電商部大數(shù)據(jù)總經(jīng)理,這是行業(yè)內(nèi)目前比較罕見(jiàn)的一位90后CIO,當(dāng)然,由于他自嘲的“人長(zhǎng)得比較著急”,無(wú)人將他的成就與他的年齡匹配起來(lái)。但他的探索一直都在。近日,郭煒將其混合云部署與大數(shù)據(jù)分析方面的研究與大家進(jìn)行了分享。

大數(shù)據(jù)的概念,大數(shù)據(jù)的價(jià)值,大數(shù)據(jù)的解決方案,我們聽(tīng)了很多,似乎也學(xué)了很多,我們?yōu)榇诵老病.吘?,用IT來(lái)為“企業(yè)創(chuàng)造價(jià)值”是多少CIO們的努力方向。

最后我們發(fā)現(xiàn),原來(lái)大數(shù)據(jù)仍然是“有一種大數(shù)據(jù)是廠(chǎng)商的大數(shù)據(jù)解決方案”,仍然是大數(shù)據(jù)服務(wù)商在告訴我們:他們?nèi)绾螏椭覀儊?lái)做大數(shù)據(jù)。作為CIO,我們自身的探索在哪里?

郭煒,現(xiàn)易觀智庫(kù)CTO,原萬(wàn)達(dá)電商部大數(shù)據(jù)總經(jīng)理,這是行業(yè)內(nèi)目前比較罕見(jiàn)的一位90后CIO,當(dāng)然,由于他自嘲的“人長(zhǎng)得比較著急”,無(wú)人將他的成就與他的年齡匹配起來(lái)。但他的探索一直都在。近日,郭煒將其混合云部署與大數(shù)據(jù)分析方面的研究與大家進(jìn)行了分享。

上圖為:易觀智庫(kù)CTO郭煒

大數(shù)據(jù)的三個(gè)階段

郭煒將大數(shù)據(jù)分為三個(gè)階段:

第一個(gè)階段叫數(shù)據(jù)倉(cāng)庫(kù)或者BI階段,這個(gè)階段起始于做ERP、CRM時(shí)建立的數(shù)據(jù)倉(cāng)庫(kù),這是大數(shù)據(jù)的第一個(gè)階段;

第二個(gè)階段是點(diǎn)擊流分析階段,如雅虎的大數(shù)據(jù)是將點(diǎn)擊背后的流量分析出來(lái),通過(guò)Hadoop平臺(tái),或者其它的新的數(shù)據(jù)分析技術(shù)將點(diǎn)擊流分析出來(lái)。

第三個(gè)階段是 IoT和O2O時(shí)代的大數(shù)據(jù),這個(gè)階段的大數(shù)據(jù)不僅僅是原來(lái)在互聯(lián)網(wǎng)上的數(shù)據(jù),還包括線(xiàn)下的一些行為數(shù)據(jù),可以用真實(shí)的設(shè)備,比如智能WIFI,智能藍(lán)牙,用這些智能設(shè)備去采集所有線(xiàn)下用戶(hù)的行為軌跡。比如萬(wàn)達(dá)投入過(guò)一些智能設(shè)備,可以將消費(fèi)者線(xiàn)下在萬(wàn)達(dá)廣場(chǎng)里怎么行走的行為軌跡,通過(guò)智能設(shè)備實(shí)時(shí)上傳到萬(wàn)達(dá)大數(shù)據(jù)平臺(tái),通過(guò)智能WIFI,智能藍(lán)牙,包括一些攝象頭采集消費(fèi)者的行為,同時(shí)結(jié)合大家的刷卡行為,便可以將消費(fèi)者在萬(wàn)達(dá)的消費(fèi)行為明晰記錄下來(lái)。

也就是當(dāng)個(gè)人逛商場(chǎng),或者線(xiàn)上消費(fèi)去京東或者上阿里點(diǎn)擊瀏覽網(wǎng)頁(yè)一樣,消費(fèi)者在每個(gè)商業(yè)區(qū)域里停留了多長(zhǎng)時(shí)間,買(mǎi)了什么東西,吃了什么飯,看了什么電影,所有的數(shù)據(jù)都能采集上。采集這些數(shù)據(jù)是為了更有效進(jìn)行推薦引擎,也就是預(yù)測(cè),比如上淘寶,他便能預(yù)測(cè)你可能喜歡何種商品。

舉個(gè)例子,比如消費(fèi)者逛完商場(chǎng),剛出電影院,便收到星巴克優(yōu)惠券的推送消息,剛剛看完電影,可能覺(jué)得你會(huì)口渴,此時(shí)此刻,這兩張優(yōu)惠券便是你最需要的東西。這個(gè)場(chǎng)景的技術(shù)實(shí)現(xiàn)便使用了SaaS技術(shù)。

云和大數(shù)據(jù)的結(jié)合是未來(lái)的趨勢(shì)

易觀智庫(kù)是初創(chuàng)型企業(yè),擁有非常大的數(shù)據(jù)量,怎么樣用一個(gè)最高性?xún)r(jià)比的方式構(gòu)建大數(shù)據(jù)平臺(tái),并最終實(shí)現(xiàn)企業(yè)目標(biāo)?目前易觀的大數(shù)據(jù)資源主要是手機(jī)APP,現(xiàn)在已經(jīng)覆蓋5.4億手機(jī)的設(shè)備量,監(jiān)控58萬(wàn)APP。

在這樣一個(gè)大數(shù)據(jù)情況下,應(yīng)該建立一個(gè)怎樣的數(shù)據(jù)平臺(tái)?既能滿(mǎn)足業(yè)務(wù)需要又不需要過(guò)大的投入。郭煒說(shuō):“云和大數(shù)據(jù)的結(jié)合是未來(lái)的趨勢(shì)。”因?yàn)橄嗦?lián)接的所有的智能硬件設(shè)備都需要通過(guò)互聯(lián)網(wǎng),此外,目前所有的大數(shù)據(jù)都是基于開(kāi)源軟件來(lái)實(shí)現(xiàn),包括Hadoop等,這些開(kāi)源平臺(tái)能節(jié)約成本,但其使用也存在很多問(wèn)題,因此,需要有非常好的云端平臺(tái)能夠直接進(jìn)行大數(shù)據(jù)服務(wù)。因此,易觀智庫(kù)的大數(shù)據(jù)平臺(tái)設(shè)計(jì)基于上述原則進(jìn)行。

易觀智庫(kù)的混合云大數(shù)據(jù)探索

易觀將云和大數(shù)據(jù)的結(jié)合分為四層。底層基于AAS和MAS服務(wù),包括公有云服務(wù),一開(kāi)始就全部實(shí)現(xiàn)了基于公有云做的大數(shù)據(jù)平臺(tái)。第二層,PaaS、DAAS及相關(guān)的大數(shù)據(jù)服務(wù)。第三層是數(shù)據(jù)分析,讓所有數(shù)據(jù)變得容易理解。第四層是相關(guān)的業(yè)務(wù)營(yíng)銷(xiāo)。

易觀將云和大數(shù)據(jù)結(jié)合后,期望將相關(guān)的分析、計(jì)算變成一個(gè)可理解的結(jié)果。因此需要把小數(shù)據(jù)分析做到極致。先讓人理解大數(shù)據(jù)的一個(gè)結(jié)果,然后再去模擬人的決策,再用新的算法模擬人自己的這些步驟,一次一次反饋改進(jìn),形成循環(huán)。這其間的路徑難點(diǎn)就是先把數(shù)據(jù)量理解,數(shù)據(jù)量理解完成后便形成數(shù)據(jù)規(guī)劃。

舉例如下:比如想看95后喜歡網(wǎng)購(gòu)的手游的狂人,在工作日晚上十點(diǎn)到十二點(diǎn)最喜歡打開(kāi)的新聞?lì)惖腁PP是什么?這個(gè)場(chǎng)景可用于投放廣告的需求,在這個(gè)時(shí)間有多少客戶(hù)究竟喜歡看哪些新聞?lì)怉PP。如果做這個(gè)人群的查詢(xún),需要有 4000多個(gè)標(biāo)簽,5.4億用戶(hù),58萬(wàn)APP,再加上這些人每天的行為,數(shù)據(jù)量便無(wú)法結(jié)算。易觀現(xiàn)在的做法是,構(gòu)建云的大數(shù)據(jù)平臺(tái),通過(guò)一個(gè)MySQL數(shù)據(jù)庫(kù)把數(shù)據(jù)放到MySQL里面,在網(wǎng)上其實(shí)就是Redis,Tomcat等,再通過(guò)易觀自有的秘密機(jī)制在公有云上便可以實(shí)現(xiàn)相關(guān)的查詢(xún),以便能滿(mǎn)足業(yè)務(wù)需求。

上述解決方案的優(yōu)點(diǎn)是快速部署,快速實(shí)現(xiàn),集中化管理,可提供初級(jí)攻擊防護(hù),硬件免維護(hù)。但缺點(diǎn)是執(zhí)行效率過(guò)低,單次30分鐘,單價(jià)成本較高,年度投入單臺(tái)超過(guò)3萬(wàn)。且目前三個(gè)知名的公有云服務(wù)商,盡管用了這樣或那樣的技術(shù),但是I/O系統(tǒng)也是不足,包括網(wǎng)絡(luò)帶寬和CPU性能,目前所有的公有云都是大家共享CPU,因此,總會(huì)存在上述問(wèn)題。

易觀曾從不同公有云上面做了三次遷移,最終確定必須先將性能提高。由于易觀的業(yè)務(wù)非常靈活,既想它能夠滿(mǎn)足業(yè)務(wù),同時(shí)又能夠有大數(shù)據(jù)計(jì)算,混合云架構(gòu)是最好選擇。

其思路是將所有的和大數(shù)據(jù)相關(guān)的技術(shù),包括Hadoop做成一套組件,在此基礎(chǔ)上搭建私有云,將自身的Facebook開(kāi)源大數(shù)據(jù)平臺(tái)和MySQL數(shù)據(jù)庫(kù)都放在線(xiàn)下,而把所有產(chǎn)品前端的放在公有云上。這樣調(diào)整的難點(diǎn)是私有云和虛擬機(jī)如何分開(kāi)及怎么跟公有云打通的問(wèn)題,最后的解決方法是直接通過(guò)光纖,便保證了業(yè)務(wù)的擴(kuò)展性。

混合云的異地備份的優(yōu)點(diǎn)就是性能非常強(qiáng),云端應(yīng)用配置靈活,機(jī)器非常方便。缺點(diǎn)就是公有云和私有云打通后拓?fù)浣Y(jié)構(gòu)比較復(fù)雜。但能夠既享受原來(lái)物理集群的優(yōu)化,還能享受靈活。

易觀通過(guò)上述混合云與大數(shù)據(jù)的探索,已能成功解決上述95后喜歡網(wǎng)購(gòu)的手游的狂人,在工作日晚上十點(diǎn)到十二點(diǎn)最喜歡打開(kāi)的新聞?lì)惖腁PP是什么的難題。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)