前幾天我因?yàn)樯缃痪W(wǎng)站得以和一個(gè)老朋友重新取得聯(lián)系,星期天時(shí)他從費(fèi)城趕到挪威來,就為了約我給他解答一個(gè)問題,我想這個(gè)問題對(duì)他來說一定很重要。他問:“Jane,你說你是做大數(shù)據(jù)分析的,那大數(shù)據(jù)到底是什么呢?”
他是一個(gè)IT人,了解關(guān)于電腦的大部分知識(shí),但是因?yàn)橛刑嗳嗽趪L試定義 大數(shù)據(jù)的概念 ,以致于很多人都徹底地被弄暈了。
我朋友并不是唯一一個(gè)被弄混的人。根據(jù)最新的Garter大數(shù)據(jù)產(chǎn)業(yè)網(wǎng)絡(luò)播報(bào),整整有15%的受訪者仍然把“了解大數(shù)據(jù)是什么”視作他們的前三大挑戰(zhàn)之一。
而最讓我感興趣的一個(gè)數(shù)據(jù)是,在那些已經(jīng)投資大數(shù)據(jù)項(xiàng)目的公司中,仍有9%的受訪者在理解大數(shù)據(jù)這個(gè)問題上還有困難。他們投資的到底是什么呢?皇帝的新衣嗎?
考慮到各位的困難,我寫下這篇假設(shè)的問答,試著解答各位關(guān)于大數(shù)據(jù)的那些想問又不敢問的問題:
Q:大數(shù)據(jù)只代表那些量很大的數(shù)據(jù)嗎?
A:雖然從名字上看是這樣,但是實(shí)際上我們用“大數(shù)據(jù)”來形容因?yàn)槟撤N原因無法適應(yīng)傳統(tǒng)數(shù)據(jù)庫軟件工具的數(shù)據(jù),而這些軟件工具在過去的數(shù)十年間一直被用于分析和商業(yè)智能。舉個(gè)例子,大數(shù)據(jù)也許無法完全適應(yīng)關(guān)系型數(shù)據(jù)庫(例如圖像的像素?cái)?shù)據(jù)),或者需要經(jīng)過特別的處理才能和其他數(shù)據(jù)共同使用(例如從機(jī)器設(shè)備獲得的時(shí)間序列數(shù)據(jù))。
Q: 我們?cè)谟蜌庑袠I(yè)不是一直都在用大數(shù)據(jù)嗎?
A:是的!地震探測和歷史學(xué)家儲(chǔ)存的傳感器數(shù)據(jù)就是兩個(gè)很好的例子。早期,由于這些數(shù)據(jù)量很大而難以處理,在典型的數(shù)據(jù)庫工具中表現(xiàn)并不出色,所以我們就將它限制在了預(yù)定義的工作流和應(yīng)用單元當(dāng)中。結(jié)果是我們不知不覺地限制了自己尋求關(guān)鍵業(yè)務(wù)問題的準(zhǔn)確答案的能力?,F(xiàn)在的大數(shù)據(jù)運(yùn)動(dòng)都是為了實(shí)現(xiàn)以全新的方式去應(yīng)用這些棘手的、對(duì)運(yùn)營提出了挑戰(zhàn)的數(shù)據(jù),從而獲取更多問題的答案。
Q: 當(dāng)前的大數(shù)據(jù)運(yùn)動(dòng)究竟在做什么呢?
A:都是為了實(shí)現(xiàn)所有數(shù)據(jù)的自由支配——不管它是圖像、視頻、音頻、自然語言文本、機(jī)器可讀文本、傳感器數(shù)據(jù)還是平常的數(shù)據(jù)庫中的老式關(guān)系型數(shù)據(jù),不管數(shù)據(jù)量是兆字節(jié)還是兆兆字節(jié),不管信息來源是實(shí)時(shí)的快照還是不斷流入的數(shù)據(jù)流。
Q: 但是要怎么實(shí)現(xiàn)呢?關(guān)鍵是這些數(shù)據(jù)很難管理啊
A:相比“傳統(tǒng)的”數(shù)據(jù)而言,我們可以采取各種不同的IT解決方案來管理并查詢這些數(shù)據(jù)。我們可以從Yahoo、Google、eBay等互聯(lián)網(wǎng)企業(yè)身上學(xué)到很多,他們都是新型工具和技術(shù)的領(lǐng)導(dǎo)者。他們每天用到的數(shù)據(jù)和油氣行業(yè)一直以來賣力管理的數(shù)據(jù)非常相似。
他們每天都要檢查兆兆字節(jié)的網(wǎng)絡(luò)服務(wù)器日志,加深對(duì)客戶交互的理解;還對(duì)社交媒體內(nèi)容應(yīng)用了自然語言處理和情感傾向分析;物聯(lián)網(wǎng)的發(fā)展帶入了更多FitBit 和蘋果智能手表這樣的“可穿戴設(shè)備”,所以傳感器數(shù)據(jù)也是他們的重點(diǎn)關(guān)注之一。
Q: 我們?yōu)槭裁匆龃髷?shù)據(jù)?
A:為什么不呢?我們都知道,油氣行業(yè)的風(fēng)險(xiǎn)非常高,因?yàn)橐淮斡蜌忾_采的花費(fèi)可以高達(dá)70億美元,所以必須根據(jù)數(shù)據(jù)進(jìn)行商業(yè)決策,不能憑直覺拍腦袋。
在交通運(yùn)輸行業(yè)中,傳感器數(shù)據(jù)(一種大數(shù)據(jù)的來源)可以檢測引擎行為,并且可以結(jié)合引擎性能和引擎或車輛的主數(shù)據(jù),例如修理歷史、服務(wù)和利用歷史等數(shù)據(jù)(在大數(shù)據(jù)出現(xiàn)之前他們擁有的所有數(shù)據(jù)來源),方便運(yùn)營商準(zhǔn)確預(yù)測引擎故障的時(shí)間。對(duì)于火車、航空、快遞公司而言,這意味著他們可以組織故障車輛進(jìn)行預(yù)防性維護(hù),而不是坐以待斃,讓車輛在路上發(fā)生故障,使旅客、運(yùn)貨發(fā)生滯留。
套用到生產(chǎn)作業(yè)中,如果我們可以很好地結(jié)合傳感器數(shù)據(jù)與維修記錄、地下地質(zhì)、表面狀況(如天氣)等信息,就能夠改善技術(shù)維護(hù)計(jì)劃、物流和供應(yīng)鏈,顯著降低成本并避免非計(jì)劃內(nèi)的關(guān)井停產(chǎn)。
在我看來這絕對(duì)是一個(gè)好的商業(yè)決策。