提到大數據,就不得不提到存儲。我們首先都會將眼睛聚焦大量數據如何存儲的問題上,我們以往都是先存儲,然后再進行回顧式的分析。
對于數據的存儲我們常見的問題,諸如數據如何存儲、數據如何組織、怎樣清洗數據以及怎樣的時間劃分是合適的。盡管這些基于存儲的問題解決了,分析師還要決定哪些數據是已經過期了的。它們可能已經過時了,不能夠用來反映當前環(huán)境了,有些歷史數據是不能給我們一個關于未來的視角的。
實時數據分析
換一個思路,我們可以選擇進行實時大數據分析。這樣的話,我們就不用考慮大規(guī)模存儲相關的問題了,而改為關心商業(yè)數據流量帶寬了。Jeff Bertolucci在Information Week上面寫道,電信公司最早開始使用實時大數據分析來了解當前的網絡狀況。“先存儲,后分析”的方法,在要求實時性的領域中作用可能就不大了。
盡管中小企業(yè)可能沒有像電信公司那么大量的數據流,但是他們也應當在投資數據存儲之前,先知道它們需要哪些商業(yè)數據。Mary Shacklett在Tech Republic上面的一篇文章中提到,清理歷史數據,然后得出有用的結果的花費很可能已經超出中小企業(yè)的預算承受范圍了。從過去中反思學習的確是好的,但是對于中小企業(yè)而言,這樣的投資得到的數據分析質量的確還是存疑的。
實時分析的好處
IT專家應當推薦企業(yè)走向實時之路,而不要陷入無盡的數據清理之中。實時分析之中往往見效很快,中小企業(yè)短時間內就能看到數據分析的好處;而用傳統(tǒng)方式大規(guī)模存儲,企業(yè)要投入很多資金。實時分析方法還有一個好處,就是讓中小企業(yè)能夠了解到哪些商業(yè)數據是需要的,因為畢竟不是所有的數據流都要用到商業(yè)分析之中。
通過對數據流的檢驗,中小企業(yè)能夠看出哪些是有必要進行存儲并回顧的。數據可以在源頭就得到了優(yōu)化。
由此可見,對于大數據的存儲,首先要從數據的源頭進行優(yōu)化。數據有多少用處,不在于你存儲了多少數據,而在于你對于這些數據的了解程度。