隨著云時代的來臨,大數(shù)據(jù)也吸引了越來越多的關(guān)注,大多行業(yè)都因沾染這兩個詞匯為榮。馬云也表示,在接下來的社會經(jīng)濟發(fā)展中,數(shù)據(jù)將如過去的“石油”成為一種核心資源。
其實,上面這些搜集的數(shù)據(jù)多數(shù)是無效的。在我的文章《展會大數(shù)據(jù)精準營銷,你應(yīng)該知道這些事》中,明確提要一個詞匯“大數(shù)據(jù)畫像”,考慮到未來的營銷會是精準化營銷,搜集數(shù)據(jù)時一定要按數(shù)據(jù)的組合進行整理,而大數(shù)據(jù)畫像很直接地告訴我們該搜集怎樣的數(shù)據(jù),由于篇幅有限,此處不過多講解,更多請自行百度一下進行閱讀。
大數(shù)據(jù)浪潮,洶涌來襲,與互聯(lián)網(wǎng)的誕生一樣,這絕不僅僅是信息技術(shù)領(lǐng)域的升級,更是在全球范圍企業(yè)加速創(chuàng)新、社會加速變革的利器?,F(xiàn)代關(guān)系學(xué)之父德魯克說過,預(yù)測未來最好的方法,就是去創(chuàng)造未來。而“大數(shù)據(jù)戰(zhàn)略”,在當下及未來某節(jié)點上能起到“給我一個杠桿,我能翹起整個地球”的效用。
大數(shù)據(jù)的應(yīng)用離不開數(shù)據(jù),從搜集、存儲、分析到預(yù)測。而關(guān)于數(shù)據(jù)的收集,許多人都會覺得無從下手,那么大數(shù)據(jù)的應(yīng)用真的那么難嗎?
今年早些時候,一項出自Gartner的統(tǒng)計結(jié)果引起了我的關(guān)注。該結(jié)果稱,到2018年,由于面對關(guān)于技能和整合的挑戰(zhàn),70%的Hadoop應(yīng)用都將陷入困境。
誠然,技能與整合是會為我們帶來挑戰(zhàn),但現(xiàn)如今,各個服務(wù)提供商都聲稱能使大數(shù)據(jù)應(yīng)用變得更容易、更平滑,那么挑戰(zhàn)與困難會出現(xiàn)在什么環(huán)節(jié)呢?我們從大數(shù)據(jù)項目的上游部分入手,開始分析。
1、數(shù)據(jù)收集
對于數(shù)據(jù)收集,乍一看是一項艱巨的任務(wù)。因為對于數(shù)據(jù),不僅僅要做到全面,還要做到精準。再加上大數(shù)據(jù)收集并納入數(shù)據(jù)湖泊(hub)的一系列工作,使人對大數(shù)據(jù)項目望洋興嘆。但是如果將數(shù)據(jù)收集問題肢解開來的話,你會發(fā)現(xiàn)實際操作難度系數(shù)降低了不少。
來自傳統(tǒng)來源的數(shù)據(jù):我們有各種傳統(tǒng)的體系為我們作分析提供數(shù)據(jù)來源,例如會計系統(tǒng)、HR系統(tǒng)、CRM系統(tǒng)及專業(yè)的數(shù)據(jù)采集技術(shù)等等。通過現(xiàn)有的ETL技術(shù),我們可以匯聚這些系統(tǒng)中的數(shù)據(jù)。大體上我們有兩種選擇:一種是將實體數(shù)據(jù)從數(shù)據(jù)倉庫復(fù)制、替換到數(shù)據(jù)湖泊(hub),另一種是在結(jié)構(gòu)上搭建數(shù)據(jù)湖泊(hub)(虛擬數(shù)據(jù)倉庫的一種變體)。
來自物聯(lián)網(wǎng)的結(jié)構(gòu)化的數(shù)據(jù):物聯(lián)網(wǎng)中的傳感器以及其他設(shè)備產(chǎn)生的數(shù)據(jù)會使應(yīng)用變得復(fù)雜,主要原因是數(shù)據(jù)產(chǎn)生量與攝入量的及時匹配問題。不過這其中涉及的數(shù)據(jù)通常高度標準化,而且對上游數(shù)據(jù)轉(zhuǎn)換的需求量不大。
非結(jié)構(gòu)化的數(shù)據(jù):諸如Hadoop之類的大數(shù)據(jù)平臺可以簡化媒體文件以及文字數(shù)據(jù)的收集工作。這些數(shù)據(jù)可以被簡單地“傾倒”入數(shù)據(jù)湖泊(hub)而后加以利用,因為這些數(shù)據(jù)的存儲是無結(jié)構(gòu)的。
2、數(shù)據(jù)存儲
數(shù)據(jù)不斷增長造成單機系統(tǒng)性能不斷下降,即使不斷提升硬件配置也難以跟上數(shù)據(jù)的增長速度。因此,關(guān)于數(shù)據(jù)的存儲就發(fā)展出來數(shù)據(jù)庫進行存儲,具體有如下幾種:
并行數(shù)據(jù)庫
并行數(shù)據(jù)庫是指那些在無共享的體系結(jié)構(gòu)中進行數(shù)據(jù)操作的數(shù)據(jù)庫系統(tǒng)。這些系統(tǒng)大部分采用了關(guān)系數(shù)據(jù)模型并且支持SQL語句查詢,但為了能夠并行執(zhí)行SQL的查詢操作,系統(tǒng)中采用了兩個關(guān)鍵技術(shù):關(guān)系表的水平劃分和SQL查詢的分區(qū)執(zhí)行。
NoSQL數(shù)據(jù)管理系統(tǒng)
傳統(tǒng)關(guān)系型數(shù)據(jù)庫在處理數(shù)據(jù)密集型應(yīng)用方面顯得力不從心,主要表現(xiàn)在靈活性差、擴展性差、性能差等方面。最近出現(xiàn)的一些存儲系統(tǒng)摒棄了傳統(tǒng)關(guān)系型數(shù)據(jù)庫管理系統(tǒng)的設(shè)計思想,轉(zhuǎn)而采用不同的解決方案來滿足擴展性方面的需求。這些沒有固定數(shù)據(jù)模式并且可以水平擴展的系統(tǒng)現(xiàn)在統(tǒng)稱為NoSQL(有些人認為稱為NoREL更為合理),這里的NoSQL指的是“Not Only SQL”,即對關(guān)系型SQL數(shù)據(jù)系統(tǒng)的補充。
NewSQL數(shù)據(jù)管理系統(tǒng)
傳統(tǒng)數(shù)據(jù)庫支持ACID和SQL等特性限制了數(shù)據(jù)庫的擴展和處理海量數(shù)據(jù)的性能,因此嘗試通過犧牲這些特性來提升對海量數(shù)據(jù)的存儲管理能力。這種方式取消了耗費資源的緩沖池,在內(nèi)存中運行整個數(shù)據(jù)庫;它還擯棄了單線程服務(wù)的鎖機制,也通過使用冗余機器來實現(xiàn)復(fù)制和故障恢復(fù),取代原有的昂貴的恢復(fù)操作。這種可擴展、高性能的SQL數(shù)據(jù)庫被稱為NewSQL。
得益于自身基礎(chǔ)設(shè)計理念,大數(shù)據(jù)平臺可以無限擴展。如果大數(shù)據(jù)平臺在云端運行維護,那么它的靈活性將更強,但是網(wǎng)絡(luò)也存在較大安全問題。但是我們從整個數(shù)據(jù)的應(yīng)用過程來看,至少從概念上講,存儲數(shù)據(jù)是大數(shù)據(jù)應(yīng)用中最易于實現(xiàn)的部分。
3、數(shù)據(jù)使用(非應(yīng)用)
在數(shù)據(jù)湖泊中存儲了理想的數(shù)據(jù)后,我們該怎么將其加以利用呢?數(shù)據(jù)的轉(zhuǎn)換、協(xié)調(diào)、確保不同數(shù)據(jù)源之間的一致性、檢查數(shù)據(jù)的質(zhì)量,這些是大數(shù)據(jù)應(yīng)用中最難實施的部分,而且在這些方面我們可用的自動化工具少之又少。
如果我們的需求只是基于某個單一數(shù)據(jù)源開發(fā)項目,或者基于一致的數(shù)據(jù)集得出報告的話,那么我們有許多集成度高的無縫化解決方案可以使用。然而想要結(jié)合多種數(shù)據(jù)源、探索利用不同屬性的數(shù)據(jù)的話,我們就不得不自行開發(fā)。
4、大數(shù)據(jù)的兩個誤區(qū)
大數(shù)據(jù)“萬能”
個人認為,目前大多企業(yè)不具備數(shù)據(jù)應(yīng)用的能力,因為大數(shù)據(jù)之間存在相關(guān)性。“一句話,即便在大數(shù)據(jù)時代,種種‘黑天鵝’事件也仍然是沒有辦法被準確預(yù)測到的。因為所有根據(jù)過去的理論數(shù)據(jù)模型進行的假設(shè)都無法準確推演未來,它們不過是為了未來某個黑天鵝做著準備。”
大數(shù)據(jù)涉及海量非相關(guān)數(shù)據(jù)的相關(guān)性的統(tǒng)計,其相關(guān)性的存在基礎(chǔ)又是什么呢?非相關(guān)數(shù)據(jù),很多時候兩者的相關(guān)性是真相關(guān),也可能是偽相關(guān)。需要注意,這種相關(guān)性要成為可推演的行為邏輯,首要前提就是確保這種相關(guān)性的基礎(chǔ)是恒定不變的。
因此,我們要注意和警惕的是,大數(shù)據(jù)并非是一個萬能的事物,它的缺陷在于立足于統(tǒng)計學(xué)基礎(chǔ)之上,必然是會因為統(tǒng)計樣本的變化而發(fā)生變化的。過去決定未來,是無法反映出時代進步和調(diào)整的可能性的。過去所做的推斷,永遠只代表了過去那個階段為止的最高極限,本身是不會自我演化和發(fā)展的。
大數(shù)據(jù)之“大”
人們往往犯這樣的錯誤,認為大數(shù)據(jù)越大越好。事實是數(shù)據(jù)并非越大越好,有價值的分析工具是幫助客戶從海量的大數(shù)據(jù)找出真正可用于決策的數(shù)據(jù),這些有價值的數(shù)據(jù)就是‘小數(shù)據(jù)’。”換言之,“小數(shù)據(jù)”是針對客戶的特定需求概括、提煉出的數(shù)據(jù)。