為什么在官方的健康組織還沒有發(fā)布健康趨勢之前,Google就能利用它的搜索引擎準(zhǔn)確地預(yù)測流行病的爆發(fā)? 大數(shù)據(jù)給我們所有人上了一課,也讓我們更加堅信,數(shù)據(jù)本身是有價值的,關(guān)鍵看你如何處理、分析和使用它。
2013年,中國金融界熱議最多的或許是互聯(lián)網(wǎng)金融。確實(shí),第三方支付、P2P、網(wǎng)貸、眾籌融資、余額寶、微信支付等發(fā)展迅速?;ヂ?lián)網(wǎng)金融如火如荼所依靠的不僅是簡單的“通道”,背后隱藏的是大數(shù)據(jù)時代的鮮明特征:數(shù)據(jù)的積累和挖掘分析。
如阿里金融,通過數(shù)據(jù)化的平臺開展征信操作,將商戶的信貸風(fēng)險控制在較低的程度,從而能夠?qū)崿F(xiàn)日均100萬左右的利息收入;如淘寶運(yùn)費(fèi)險“秘密”,根據(jù)統(tǒng)計,淘寶用戶運(yùn)費(fèi)險索賠率在50%以上,也就是說,10個淘寶用戶購買運(yùn)費(fèi)險,5個以上將會退換貨,保險公司需要賠付,僅從保險產(chǎn)品設(shè)計的角度,這個產(chǎn)品并不是很成功,該產(chǎn)品僅能帶來5%的利潤,但是保險公司仍然堅持在做,并且不斷有新的保險公司向淘寶“加盟”,其秘密在于,客戶購買運(yùn)費(fèi)險后保險公司就可以獲得該客戶的個人基本信息,包括手機(jī)號和銀行賬戶信息等,并能夠了解該客戶購買的產(chǎn)品信息,從而實(shí)現(xiàn)其他保險產(chǎn)品的精準(zhǔn)推送,保險公司看中的正是5%利潤背后更大的數(shù)據(jù)價值,假設(shè)該客戶購買并退貨的是嬰兒奶粉,那么保險公司就可以估計該客戶家里有小孩,可以向其推薦關(guān)于兒童疾病險、教育險等相關(guān)產(chǎn)品,這比5%的利潤更有吸引力。這一思路可以繼續(xù)延伸到金融產(chǎn)品銷售、VIP客戶挖掘、消費(fèi)貸款等領(lǐng)域。
不光是互聯(lián)網(wǎng)企業(yè)看到了大數(shù)據(jù)背后的價值,傳統(tǒng)銀行也在加速對大數(shù)據(jù)平臺的建設(shè)。例如工商銀行、建設(shè)銀行、招商銀行、民生銀行等都在自建電商平臺或已經(jīng)完成其平臺建設(shè),部份銀行正在跟京東、蘇寧等大型電商平臺聯(lián)手,“躺著賺錢”的傳統(tǒng)銀行為何要進(jìn)入這個微利甚至完全是“燒錢”的領(lǐng)域,其背后都是希望通過掌握大數(shù)據(jù),來提升銀行傳統(tǒng)業(yè)務(wù)的利潤。
在企業(yè)內(nèi)部,大數(shù)據(jù)可以為企業(yè)提供更科學(xué)的決策依據(jù);在企業(yè)外部, 大數(shù)據(jù)還是收集客戶信息,建立360°客戶視圖,讓企業(yè)實(shí)現(xiàn)精準(zhǔn)化營銷的工具。從表面看,大數(shù)據(jù)帶來的是一種技術(shù)上的變革,它有效地提高了企業(yè)和社會的生產(chǎn)力,而在這種技術(shù)變革的背后是業(yè)務(wù)需求使然,是人們對提高效率的不斷追求在推動這種變革的發(fā)生。
縱向打穿“4V”
在大數(shù)據(jù)分析工具出現(xiàn)前,商業(yè)智能、數(shù)據(jù)挖掘已經(jīng)進(jìn)行了多年,為什么數(shù)據(jù)的價值沒有得到企業(yè)充分的重視呢?以前的數(shù)據(jù)挖掘是對抽樣數(shù)據(jù)進(jìn)行分析,而且數(shù)據(jù)分析是離線的,數(shù)據(jù)的價值沒能得到全面、實(shí)時的展現(xiàn)。
那么構(gòu)建一個可用的大數(shù)據(jù)系統(tǒng),應(yīng)該從何處入手呢?
華為拋出了金字塔型“4V”理論,展現(xiàn)了從Volume到Velocity 再到Variety,最終到Value的層次化的遞進(jìn)式的創(chuàng)造大數(shù)據(jù)價值的方法論。
第一步,企業(yè)需要建立一個能夠高效處理海量數(shù)據(jù)的存儲架構(gòu)平臺,它既能處理大量的小文件,也能處理單體較大的文件。
第二步,這個存儲架構(gòu)平臺要具備極高的處理性能,因?yàn)榇髷?shù)據(jù)對實(shí)時處理的要求非常高。
第三步,這個存儲架構(gòu)平臺要能處理多樣化的數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。
只有通過前面三步打下的基礎(chǔ),企業(yè)用戶才能進(jìn)入最后一步,在一個高效的專門為大數(shù)據(jù)構(gòu)建和優(yōu)化的平臺上進(jìn)行數(shù)據(jù)分析和挖掘,并最終獲得所需的價值。
大數(shù)據(jù)價值的實(shí)現(xiàn)過程是一個遞進(jìn)的逐層深入的過程,但是建立高效的存儲架構(gòu)平臺是前提,它是大數(shù)據(jù)落地的基礎(chǔ)。
大數(shù)據(jù)存儲平臺是大數(shù)據(jù)分析的前提
現(xiàn)在人們一談到大數(shù)據(jù),首先會想到Hadoop。其實(shí),Hadoop只是大數(shù)據(jù)基礎(chǔ)架構(gòu)與上層應(yīng)用分析之間的一個橋梁,而不是大數(shù)據(jù)的全部。在廣電等很多領(lǐng)域, 大數(shù)據(jù)處理并不一定要用到Hadoop?,F(xiàn)在,使用Hadoop 更多的是一些互聯(lián)網(wǎng)企業(yè)。然而除了互聯(lián)網(wǎng)大數(shù)據(jù)以外,行業(yè)大數(shù)據(jù)同樣重要,甚至價值密度更高。因此, 將Hadoop與大數(shù)據(jù)劃等號,這是一個認(rèn)識上的誤區(qū)。業(yè)內(nèi)一位大數(shù)據(jù)專家指出,大數(shù)據(jù)不是一個分析工具,而是新的基礎(chǔ)架構(gòu)。
華為認(rèn)為,大數(shù)據(jù)分析的一個重要前提是,必須先建立一個高效的大數(shù)據(jù)存儲平臺。那么,高效又是如何來衡量的呢?
高效的第一個衡量指標(biāo)是就是性能。性能是大數(shù)據(jù)存儲平臺的基石之一。比如,中央電視臺每晚7:30要準(zhǔn)時播出天氣預(yù)報,如果氣象分析要經(jīng)過24小時才能得到最后的結(jié)果,就會錯過天氣預(yù)報播出的時間,即使得到的預(yù)測結(jié)果再準(zhǔn)確也是無用的結(jié)果。不僅是在大數(shù)據(jù)方面, 在整個IT領(lǐng)域,企業(yè)用戶對性能的追求都是無止境的, 只不過大數(shù)據(jù)對實(shí)時處理的要求非常高,所以高性能對于大數(shù)據(jù)來說顯得尤為重要。
其次,大數(shù)據(jù)強(qiáng)調(diào)的是簡化使用,提高效率。如果不具備專業(yè)技能和人員,Hadoop的實(shí)施將非常困難。簡化大數(shù)據(jù)的使用,其核心是在同一個平臺之上針對數(shù)據(jù)的全生命周期進(jìn)行管理,盡量避免異構(gòu)環(huán)境下的數(shù)據(jù)遷移、數(shù)據(jù)丟失帶來的風(fēng)險等問題。
最后,高效的大數(shù)據(jù)存儲平臺應(yīng)該采用融合的技術(shù)架構(gòu),即在同一個系統(tǒng)內(nèi),實(shí)現(xiàn)存儲、備份、歸檔和分析的所有功能,完成對數(shù)據(jù)的管理,并提供開放的分析接口,與BI軟件和應(yīng)用軟件更好的連接,進(jìn)一步提高查詢效率。
此外,在這樣一個一體化的結(jié)構(gòu)之上,用戶還可以根據(jù)業(yè)務(wù)的情況靈活添加相關(guān)的功能模塊。而華為大數(shù)據(jù)存儲平臺就具備了上述功能。
大數(shù)據(jù)帶來的改變從基礎(chǔ)架構(gòu)層面一直延伸至業(yè)務(wù)層面。企業(yè)的管理者應(yīng)該意識到,業(yè)務(wù)的創(chuàng)新需要底層創(chuàng)新的架構(gòu)來支撐。從業(yè)務(wù)的角度看,企業(yè)的核心訴求是簡化應(yīng)用,實(shí)現(xiàn)可持續(xù)發(fā)展,提高業(yè)務(wù)的效率,而這些業(yè)務(wù)目標(biāo)的實(shí)現(xiàn)必須建立在一個合理的、高效的架構(gòu)之上,只有這樣才能更好地發(fā)揮IT的作用,獲得更大的數(shù)據(jù)價值。