很多公司已經(jīng)實(shí)現(xiàn)了大數(shù)據(jù)應(yīng)用的部署。這些應(yīng)用的組成包括:大數(shù)據(jù)存儲(chǔ)、混合硬件、用于存儲(chǔ)和訪問(wèn)數(shù)據(jù)的軟件和一些復(fù)雜的軟件接口。這些接口可以用于接受商業(yè)分析師的查詢,訪問(wèn)數(shù)據(jù)存儲(chǔ),提供解決方案以用于理解客戶需求,簡(jiǎn)化商業(yè)事務(wù),提高利潤(rùn)等方面。
隨著越來(lái)越多的成功或失敗的案例在各種新聞媒體上曝光,大數(shù)據(jù)越來(lái)越神乎其神。本文將討論一些最廣為流傳的神話,并探討其如何對(duì)你的大數(shù)據(jù)實(shí)現(xiàn)產(chǎn)生負(fù)面影響。
神話1:大數(shù)據(jù)應(yīng)用可以獨(dú)立存在
很明顯是錯(cuò)的,顯然,你的大數(shù)據(jù)應(yīng)用包含著大量的數(shù)據(jù)。然而,用于查詢數(shù)據(jù)的分析軟件同樣重要。對(duì)數(shù)據(jù)進(jìn)行分析是非常常見(jiàn)的行為,尤其是在那些擁有數(shù)據(jù)倉(cāng)庫(kù)的公司中。數(shù)據(jù)倉(cāng)庫(kù)包含了實(shí)時(shí)性的運(yùn)營(yíng)數(shù)據(jù)快照。你當(dāng)前的數(shù)據(jù)集合和分析報(bào)告取決于數(shù)據(jù)倉(cāng)庫(kù)的維度。
維度就是分析師對(duì)信息進(jìn)行劃分和歸類的實(shí)體依據(jù)。它包括時(shí)間、地理、客戶類型、商店、部門等等。一條統(tǒng)計(jì)圣誕節(jié)期間在某些州中顧客在零售商店購(gòu)買電子產(chǎn)品付費(fèi)信息的查詢包括如下幾個(gè)維度:商品類型(電子商品)、商店、地理(州)、時(shí)間(圣誕期間)。每一個(gè)維度都提供一種匯總數(shù)據(jù)的方式,可以為分析用戶喜好、統(tǒng)計(jì)商品庫(kù)存、計(jì)算收益等提供線索。
大數(shù)據(jù)應(yīng)用也需要類似的維度。由于數(shù)據(jù)已經(jīng)被數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)和維護(hù),整合數(shù)據(jù)倉(cāng)庫(kù)模型和大數(shù)據(jù)應(yīng)用勢(shì)在必行。
這種整合的一種自然表現(xiàn)就是你將會(huì)升級(jí)數(shù)據(jù)倉(cāng)庫(kù)以便分析查詢能夠覆蓋數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)。良好的企業(yè)數(shù)據(jù)模型和綜合數(shù)據(jù)字典是必不可少的。
數(shù)據(jù)倉(cāng)庫(kù)升級(jí)一般會(huì)增加新的維度,包含新運(yùn)行系統(tǒng)的數(shù)據(jù),對(duì)大型對(duì)象如圖像和XML文件提供存儲(chǔ)。最后一項(xiàng)尤其重要,在預(yù)算討論時(shí)將會(huì)較早被提及。大型的復(fù)雜對(duì)象可能不會(huì)被你的商業(yè)智能軟件包直接用于分析,但這些對(duì)象的基本數(shù)據(jù)將會(huì)存儲(chǔ)于數(shù)據(jù)倉(cāng)庫(kù)中。舉例來(lái)說(shuō),XML文件會(huì)被一些數(shù)據(jù)庫(kù)管理系統(tǒng)編碼,以表的形式存儲(chǔ)于數(shù)據(jù)庫(kù)中。BI軟件使用這些表數(shù)據(jù)來(lái)進(jìn)行分析操作。
神話2:要新增的預(yù)算項(xiàng)目?jī)H僅包括大數(shù)據(jù)軟件和硬件
這也是錯(cuò)的,盡管一些供應(yīng)商聲稱,任何企業(yè)要實(shí)現(xiàn)大數(shù)據(jù)應(yīng)用,成本將會(huì)顯著超過(guò)對(duì)大數(shù)據(jù)軟硬件上的投資
首先,要為未來(lái)考慮。你的大數(shù)據(jù)應(yīng)用必須具備擴(kuò)展能力。這是指系統(tǒng)對(duì)大批量數(shù)據(jù),快速的數(shù)據(jù)傳輸,日漸增長(zhǎng)的用戶量等作出快速反應(yīng)的能力。當(dāng)出現(xiàn)響應(yīng)時(shí)間變慢,運(yùn)行時(shí)間延長(zhǎng),交易時(shí)間延長(zhǎng)時(shí),你就該意識(shí)到此類問(wèn)題已經(jīng)產(chǎn)生。
對(duì)于很多應(yīng)用來(lái)說(shuō),這些問(wèn)題被劃分為性能相關(guān),解決方法是添加CPU,內(nèi)存、存儲(chǔ)設(shè)備等硬件設(shè)施。然而,在大數(shù)據(jù)環(huán)境下,更強(qiáng)的硬件設(shè)施已經(jīng)不是解決問(wèn)題的辦法。供應(yīng)商所提供的大數(shù)據(jù)軟硬件依賴于專用的數(shù)據(jù)存儲(chǔ)方式,如數(shù)據(jù)壓縮,大規(guī)模并行數(shù)據(jù)處理,以及同底層數(shù)據(jù)管理系統(tǒng)的協(xié)作等。此類環(huán)境下的擴(kuò)展需要你對(duì)數(shù)據(jù)的架構(gòu)設(shè)計(jì)和存儲(chǔ)進(jìn)行重新思考,包括可能出現(xiàn)的非格式化數(shù)據(jù),邏輯劃分,更智能的查詢重寫(xiě)以及對(duì)SQL性能分析關(guān)注度的提升。
接下來(lái),通過(guò)對(duì)擴(kuò)展制定預(yù)算來(lái)進(jìn)行中期計(jì)劃,大數(shù)據(jù)存儲(chǔ)植根于操作系統(tǒng),而這些操作系統(tǒng)所包含的已經(jīng)不再是簡(jiǎn)單的字符型和數(shù)據(jù)型數(shù)據(jù)。一些系統(tǒng)包括復(fù)雜的數(shù)據(jù)類型,如可擴(kuò)展標(biāo)記語(yǔ)言數(shù)據(jù)(XML),視頻與音頻數(shù)據(jù),圖片,以及大型對(duì)象(LOBs).當(dāng)需要對(duì)數(shù)據(jù)進(jìn)行聚集和其他操作時(shí),你的大數(shù)據(jù)應(yīng)用需要分析這些數(shù)據(jù)類型。
要實(shí)現(xiàn)這些,你必須預(yù)算員工的工作時(shí)間。最重要的是企業(yè)數(shù)據(jù)模型,包括硬件體系結(jié)構(gòu),以及在你的企業(yè)數(shù)據(jù)集成。
另一個(gè)預(yù)算項(xiàng)目是非生產(chǎn)環(huán)境。典型的非生產(chǎn)環(huán)境用于軟件開(kāi)發(fā),用戶驗(yàn)收測(cè)試,系統(tǒng)壓力測(cè)試等。你的大數(shù)據(jù)應(yīng)用測(cè)試版應(yīng)該存在于其中。
為什么要這樣? 大數(shù)據(jù)環(huán)境下,業(yè)務(wù)分析師的學(xué)習(xí)曲線是陡峭的。為了有效的對(duì)大數(shù)據(jù)應(yīng)用進(jìn)行查詢,大部分商店采用了商業(yè)智能(BI)軟件產(chǎn)品。這些產(chǎn)品展示數(shù)據(jù)以及常見(jiàn)數(shù)據(jù)結(jié)構(gòu)圖形式之間的關(guān)系,采用點(diǎn)擊或拖動(dòng)的接口,允許用戶指定某些數(shù)據(jù)元素按照特定維度聚集。接口通常是專業(yè)性的,一般要求用戶對(duì)業(yè)務(wù)數(shù)據(jù)和其體系結(jié)構(gòu)非常熟悉。
非生產(chǎn)環(huán)境非常適合這些未來(lái)用戶使用和練習(xí)。
另一個(gè)要考慮的是災(zāi)難恢復(fù)計(jì)劃。這在分析系統(tǒng)通常被視為是非關(guān)鍵性的,大數(shù)據(jù)應(yīng)用可以幫助許多用戶辨識(shí)出他們的關(guān)鍵任務(wù),這非常有用。使用大數(shù)據(jù)的應(yīng)用程序的測(cè)試環(huán)境可以做到有備無(wú)患,還可作為一個(gè)災(zāi)難恢復(fù)環(huán)境的候選之一。
最大的預(yù)算項(xiàng)目是工作人員培訓(xùn)。你的工作人員將負(fù)責(zé)大數(shù)據(jù)應(yīng)用環(huán)境的維護(hù),新的數(shù)據(jù)和存儲(chǔ)的添加,清除或歸檔過(guò)期數(shù)據(jù),為查詢用戶提供支持,有時(shí)可能要為分析軟件提供支持。
除了現(xiàn)有的員工,你可能需要額外的人員或咨詢服務(wù)。咨詢顧問(wèn)的典型用途包括協(xié)助用戶,性能監(jiān)控,容量規(guī)劃等。
你需要放眼未來(lái),才能進(jìn)行預(yù)算計(jì)劃?;仡欉@些項(xiàng)目,確定在什么時(shí)間以何種方式來(lái)讓它們展示自己。
神話3:大數(shù)據(jù)應(yīng)用幾乎不需要性能調(diào)整
這也是錯(cuò)的。是的,大數(shù)據(jù)的應(yīng)用程序都標(biāo)榜自己的訪問(wèn)時(shí)間非???。該技術(shù)的承諾是能夠快速地分析大量的數(shù)據(jù)、得到面向客戶系統(tǒng)分析變化的能力。管理層認(rèn)為,這種分析和隨后的變化將提高客戶滿意度,市場(chǎng)份額和利潤(rùn)。
大數(shù)據(jù)性能的關(guān)鍵在于數(shù)據(jù)本身。IT系統(tǒng)必須從操作系統(tǒng)采集數(shù)據(jù),進(jìn)行數(shù)據(jù)轉(zhuǎn)換,最終加載到你的大數(shù)據(jù)應(yīng)用中。你需要越多的數(shù)據(jù),支持系統(tǒng)就需要完成越多工作,以保證其提供最新的數(shù)據(jù)。
從操作系統(tǒng)的數(shù)據(jù)采集包括數(shù)據(jù)拷貝,文件,和各種數(shù)據(jù)庫(kù)的提取。一些數(shù)據(jù)可能是無(wú)效的(例如,一個(gè)日期,有些可能是00-00-0000),有些數(shù)據(jù)時(shí)完全缺失的。每個(gè)系統(tǒng)都面臨著數(shù)據(jù)清潔度問(wèn)題,以及何時(shí)能夠方便的提取數(shù)據(jù)的問(wèn)題。所有這些過(guò)程都需要隨著數(shù)據(jù)量的增加來(lái)進(jìn)行性能調(diào)整。
另一個(gè)問(wèn)題是應(yīng)用程序加載數(shù)據(jù)的問(wèn)題。當(dāng)輸入數(shù)據(jù) 每天增加,負(fù)荷也會(huì)日漸增加,數(shù)據(jù)裝載是I/O密集型的任務(wù)。你可能需要尋找特定供應(yīng)商的高性能數(shù)據(jù)加載解決方案。
查詢優(yōu)化也是一個(gè)需求。誠(chéng)然,大數(shù)據(jù)應(yīng)用為快速查詢而存在,用戶數(shù)量的增長(zhǎng)也將帶來(lái)每天查詢數(shù)量的增長(zhǎng)。查詢不僅能夠訪問(wèn)大數(shù)據(jù)應(yīng)用,而且還能訪問(wèn)你的數(shù)據(jù)倉(cāng)庫(kù)。如果你將數(shù)據(jù)倉(cāng)庫(kù)加載到大數(shù)據(jù)應(yīng)用中,你將面臨另一個(gè)大負(fù)荷的運(yùn)行問(wèn)題。
為了適應(yīng)多個(gè)潛在的數(shù)據(jù)訪問(wèn)方式,大多數(shù)DBMS有一個(gè)優(yōu)化措施:在查詢執(zhí)行之前衡量成本。在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)庫(kù)管理系統(tǒng)軟件判定在大數(shù)據(jù)的應(yīng)用和基礎(chǔ)DBMS存取數(shù)據(jù)的成本。而在大數(shù)據(jù)應(yīng)用程序環(huán)境下的執(zhí)行成本可能較低,在DBMS執(zhí)行低優(yōu)先級(jí)的查詢可能會(huì)更符合成本效益。為此你需要獲取用戶查詢和他們估計(jì)成本,然后和用戶進(jìn)行復(fù)核。
總結(jié)
大數(shù)據(jù)的應(yīng)用程序不存在于真空中的。為了激發(fā)它們的最大潛力,其必須與數(shù)據(jù)倉(cāng)庫(kù)集成,由經(jīng)過(guò)培訓(xùn)的人員進(jìn)行支持,并監(jiān)控查詢性能和進(jìn)行容量規(guī)劃。你將需要一個(gè)企業(yè)數(shù)據(jù)模型和數(shù)據(jù)字典,對(duì)員工進(jìn)行BI分析軟件的培訓(xùn),以及一個(gè)覆蓋上述內(nèi)容的預(yù)算。