開始于部分web服務商所進行的分析大數據的浪潮正在波及到一般企業(yè)。這是因為,即使目前條件還不完善,但是為了保持競爭力并維持正常的營業(yè)狀態(tài),要充分利用大數據。在此情況下,下面本文將介紹企業(yè)的情報最高負責人所要必須掌握的有關大數據的5項內容。
第一,形勢要求企業(yè),抓緊掌握好大數據。
分析大數據,最初是由google、雅虎及twitter等美國的web服務供應商開始做起來。這是因為上述這些企業(yè)有必要最大限度地利用來自用戶的信息資源。但是,從目前趨勢看,我們認為,即便是一般企業(yè)也為了保持競爭力并使企業(yè)運營正常進行,將來有一天就要把大數據很好地利用起來。
在美國GigaOM調研主管Jo Maitland 指出美國目前有些企業(yè)盡管其企業(yè)規(guī)模小,但它卻擁有大量的數據,比如對沖基金公司就擁有大量的數據。另外,美國的咨詢公司McKinsey and Company最近預測,認為再過幾年,包括公共機構、健康管理、零售業(yè)、制造商圈在內的廣泛的各業(yè)界通過對大數據進行分析,將會獲取相應的財務利潤。
提供HadoopLinux發(fā)行版的美國雅虎Hortonworks最高技術責任者(CTO)Eric Baldeschwieler也說,目前正在形成一種高潮,要認識到掌握大數據乃是企業(yè)的必備項目。這種趨勢具有普遍意義,它適用于諸多領域的顧客。這是因為,收集交易信息并對它進行分析,將會使企業(yè)更深入地了解顧客的消費趨勢走向。因為這些數據除了可以運用于新產品開發(fā)和新型服務外,也對用最快的速度來解決今后可能發(fā)生的問題,提供方便。
第二,對企業(yè)有用的信息和數據,普遍存在于任何事物中。
可能有的人覺得,目前手頭里還沒有一個最重要的可參考的大量數據;但是,我們可以說,你就可以掌握這些數據的日子很快就會到來。上述Baldeschwieler指出,你所要的大數據,其實不過是通過“收集各處分散的數據而形成”。
比如說,server上的計算機操作日志文件夾(log file)可能就是大數據。Server就會告訴每個人他所要查閱的不同領域的不同部門的內容。通過跟蹤這些數據即可知道顧客究竟需要什么。分析操作日志這件事本身雖然很早就有,但是,在新形勢下,它將在更高的水平上進行分析,其分析精密度將會進一步得到提高。
與此同時,取自于傳感器上的數據也將會成為大數據。最近幾年來,有些證券分析師也早已開始談論那些廉價的感應器如何同網絡連接起來,連續(xù)發(fā)出數據信息,以便了解“物”的流通和消耗過程,即“物”的網絡化現(xiàn)象?,F(xiàn)在,我們就可以設想一下,這些數據可以來自于車輛、橋梁以及飲料的自動售貨機所提供的信息。 美國微軟Kevin Dallas指出,IT行業(yè)設備的真正價值在于,使它收集數據并對所收集的信息進行分析,以便提高商業(yè)效率。
第三,要具備有關大數據的新的專業(yè)知識。
美國Forrester Research分析師James Kobielus說,在引進大數據分析系統(tǒng)時最重要的一件事,是要招募那些通曉分析數據工具的使用方法的專業(yè)人才。
大數據對實體數據(solid deta)的模型有著相互依存關系。正因為如此,上述James Kobielus又指出,企業(yè)必須把企業(yè)工作的重心放在數據科學上。關于這方面的人才,我們需要的是統(tǒng)計學挖掘方面以及文本挖掘專業(yè)和心理專業(yè)的人才。因為,即便是那些熟悉商業(yè)智能工具的證券分析師,也未必能具有這些上述技能。
當然,也有可能目前缺乏掌握這些技能的專業(yè)人才。據悉,截止2018年,美國具有高度分析技能的專業(yè)人才將會缺少14萬到19萬人。除此以外,還會缺少具有分析并充分利用大數據,高效決策的經理人和證券分析師,其空缺人數將會達到150萬人
另外,還有一項必備的技能是,為了保存和分類數據,要具備對所需要的大量的硬件進行管理的能力。前述James Kobielus還指出,管理100臺服務器和管理10臺服務器是兩碼事,不可同日而語。我們建議,雇用若干各當地大學和研究所出身的計算機管理人才。
第四,大數據沒有必要事前編制。
假如CIO能熟練地掌握一項技術,即針對商業(yè)智能數據倉庫EDW,制訂一套嚴密的詳細計劃,那么,對他來說運用大數據將并非是難事。換而言之,大數據的相關法則即為首先收集好數據,而后再考慮如何運用和充分利用這些數據。
而關于與商業(yè)智能數據庫相關的數據,在收集數據之前,則有必要設計出數據日志來。關于這一點,美國MapR主管銷售的Jack Norris認為,它意味著有必要事先掌握所要尋找的對象。他又指出,之所以這樣做,是為了防止使數據一般化,從而失去數據。如果自己原來的想法有了變化,那么事后要對數據進行分析,那就為時已晚了。
Jack Norris進一步指出,我們可以把大數據的知識庫當做一種廢棄物存放地來理解,而必要時可以再拿過來進行分析,有許多企業(yè)甚至并不知道需要找什么內容,只有等到收集數據之后才開始明白要做什么。
第五,大數據并不等同于Hadoop。
有不少人認為,大數據即是對Hadoop進行數據分析的平臺。而上述James Kobielus則認為,毫無疑問,Hadoop即為多數企業(yè)所重視的與企業(yè)預算和人才招聘相關的軟件技術;但是,企業(yè)也有可能最終使用另外一種產品。
美國的法律咨詢的大公司LexusNexus最近將本公司的分析平臺-HPCC Systems公開。我們要知道LexusNexus這家企業(yè)非常擅長大數據分析。而且,美國企業(yè)MarkLogic也把自己用于非結構性數據的數據庫-MarkLogic Server,同大數據聯(lián)結起來。而且最近,比如像服務器系統(tǒng)日志文件,用于對機器所產生的數據進行搜索和分析的Splunk也是目前人氣很高的。美國企業(yè)Monash Research的Curt Monash也指出,Splunk將有可能可以利用取自服務器系統(tǒng)日志文件的任何一項數據。