企業(yè)應(yīng)慎重選擇一款大數(shù)據(jù)設(shè)備,以便確保其對(duì)于企業(yè)業(yè)務(wù)的價(jià)值。
似乎選擇一款單一的、優(yōu)化架構(gòu)的方法來(lái)處理大數(shù)據(jù)是有一定意義的。
一款專門(mén)由硬件和軟件組合所搭建起來(lái)的設(shè)備顯然應(yīng)該要比手工胡亂拼湊起來(lái)的設(shè)備要好很多,不是嗎?
上述這一邏輯已然在數(shù)據(jù)管理人員的圈子中得到了廣泛的認(rèn)同。
例如,甲骨文已經(jīng)收購(gòu)了Exadata公司,并創(chuàng)建了一款被稱為甲骨文大數(shù)據(jù)設(shè)備的系統(tǒng)。該結(jié)合了Sun的硬件與各種不同的軟件方法,以便在一款設(shè)備中處理不同類型的數(shù)據(jù)。
而IBM公司在收購(gòu)了Netezza公司之后,也采取了類似的方法,創(chuàng)建了一套被稱為PureData的設(shè)備。
另外,戴爾和惠普也都有推出一系列的大數(shù)據(jù)應(yīng)用設(shè)備;Teradata公司收購(gòu)了Aster公司,并隨后推出了其集成的大數(shù)據(jù)平臺(tái);日立數(shù)據(jù)系統(tǒng)具有超級(jí)橫向擴(kuò)充平臺(tái)(Hyper Scale-Out Platform,HSP);而EMC公司則推出了其數(shù)據(jù)計(jì)算設(shè)備;存儲(chǔ)專家DataDirect Networks公司有其被命名為SFA12K的大數(shù)據(jù)設(shè)備。
企業(yè)可以有許多不同的方式來(lái)進(jìn)行大數(shù)據(jù)分析——自行構(gòu)建方法,并將大數(shù)據(jù)作為服務(wù)只是一對(duì)常用的組合,但這些方法都充滿了問(wèn)題,而供應(yīng)商正在努力幫助您企業(yè)避免。對(duì)于企業(yè)對(duì)大數(shù)據(jù)的利用而言,采用一款大數(shù)據(jù)設(shè)備的方法似乎正風(fēng)靡一時(shí),但大數(shù)據(jù)設(shè)備的選擇是否真的如同其看上去那么簡(jiǎn)單呢?
要深入挖掘,首先就要充分了解到底什么是大數(shù)據(jù)。
關(guān)于大數(shù)據(jù)的五大特性
往往在太多數(shù)時(shí)候,大數(shù)據(jù)仍然僅被關(guān)注到了其龐大的數(shù)據(jù)信息量。然而,如果是這樣的話,那么這應(yīng)該只是一個(gè)大量數(shù)據(jù)的問(wèn)題,而不是大數(shù)據(jù);龐大的數(shù)據(jù)量只是大數(shù)據(jù)的五大特征之一。
想要充分理解大數(shù)據(jù)所帶來(lái)的問(wèn)題,就必須了解大數(shù)據(jù)的其他幾個(gè)方面的特性,以及由這幾大特性綜合作用所為大數(shù)據(jù)世界創(chuàng)造的問(wèn)題和提供的相關(guān)機(jī)遇。
如前所述,有海量的數(shù)據(jù)被處理。然而,如果所有這些被處理的數(shù)據(jù)都是正式的、結(jié)構(gòu)化的數(shù)據(jù),那么,擁有適當(dāng)?shù)臋M向擴(kuò)展計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)平臺(tái)的標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)應(yīng)該是足夠的。
當(dāng)您看到數(shù)據(jù)種類的多樣性時(shí),這些問(wèn)題才真正開(kāi)始突顯,混合了結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)集合亟待進(jìn)行處理。大多數(shù)的數(shù)據(jù)具有一定的層次結(jié)構(gòu),無(wú)論其承載的載體是否是一個(gè)微軟Word文檔的格式;或是以逗號(hào)分隔的機(jī)器對(duì)機(jī)器的數(shù)據(jù);或是圖像,視頻或音頻數(shù)據(jù)。然后是數(shù)據(jù)的傳輸速度的特性,這一特性這有2個(gè)方面。首先是數(shù)據(jù)被呈現(xiàn)給分析環(huán)境的速度。例如,實(shí)時(shí)數(shù)據(jù)分析處理物聯(lián)網(wǎng)的數(shù)據(jù),往往需要處理大量小數(shù)據(jù)包的數(shù)據(jù),沒(méi)有人能夠延遲來(lái)使其減緩。其次是分析得出結(jié)果的速度。
例如,在金融交易中,與其他交易員相比,下游的交易員得到結(jié)果往往要稍微晚幾毫秒的時(shí)間。而在生產(chǎn)線上,對(duì)于某個(gè)問(wèn)題的識(shí)別往往需要在其成為一個(gè)問(wèn)題之前采取行動(dòng),這樣才能夠使得生產(chǎn)線得以繼續(xù)經(jīng)營(yíng),而不是停掉整條生產(chǎn)線來(lái)進(jìn)行處理。大數(shù)據(jù)的準(zhǔn)確性這一特性也很重要。糟糕的數(shù)據(jù)分析往往會(huì)導(dǎo)致質(zhì)量很差的輸出。
因此,任何大數(shù)據(jù)系統(tǒng)必須能夠檢查其所分析的數(shù)據(jù)的質(zhì)量,或者上游的數(shù)據(jù)源是能夠值得信任的。最后的一大特性是大數(shù)據(jù)的價(jià)值。其實(shí),這一點(diǎn)才是真正驅(qū)動(dòng)企業(yè)進(jìn)行任何大數(shù)據(jù)活動(dòng)項(xiàng)目的推動(dòng)因素。其應(yīng)該在大數(shù)據(jù)的五大特性中被排在第一位。進(jìn)行大數(shù)據(jù)分析的決策必須建立在其價(jià)值之上,從而使得企業(yè)得出相應(yīng)結(jié)果:這種分析是否真的是值得的?
其對(duì)于企業(yè)業(yè)務(wù)活動(dòng)及其成功的真正影響在何處?在某些情況下,Quocirca公司已經(jīng)看到了大數(shù)據(jù)分析所帶來(lái)的一些進(jìn)展,因?yàn)檫@“似乎的確是個(gè)好主意”——但在為何要使用這種IT資源的背后必須要有扎實(shí)的商業(yè)理由。因此,任何向您企業(yè)吹捧一款大數(shù)據(jù)系統(tǒng)的供應(yīng)商,都必須有相應(yīng)的信息來(lái)針對(duì)您企業(yè)大數(shù)據(jù)的每種特性。因此,將各個(gè)方面的數(shù)據(jù)都納入關(guān)系數(shù)據(jù)庫(kù)中,不強(qiáng)迫結(jié)構(gòu)化數(shù)據(jù)作為二進(jìn)制大對(duì)象不應(yīng)是處理大數(shù)據(jù)的方式。
同樣,那些在象牙塔中宣稱關(guān)系型數(shù)據(jù)庫(kù)的日子已經(jīng)結(jié)束了,所有一切數(shù)據(jù)都可以納入一款持續(xù)的Hadoop存儲(chǔ)或NoSQL數(shù)據(jù)庫(kù)的說(shuō)法也是錯(cuò)誤的。然而,針對(duì)專業(yè)的不同數(shù)據(jù)系統(tǒng)采取一種斷開(kāi)連接的方法也將無(wú)法奏效。例如,對(duì)數(shù)據(jù)縮減非持久的Hadoop系統(tǒng)采用MapReduce,分離關(guān)系和非關(guān)系的持久性存儲(chǔ)將導(dǎo)致無(wú)法處理大數(shù)據(jù)速率的要求。
單一的分析方法
對(duì)于真正的大數(shù)據(jù)分析,大數(shù)據(jù)的五大特性需要加以處理,而數(shù)據(jù)以一種單一的方法匯聚,實(shí)際可以進(jìn)行業(yè)務(wù)分析。這便是設(shè)備的方式發(fā)揮其作用的時(shí)候了。通過(guò)借助Hadoop環(huán)境,并將其在同一臺(tái)設(shè)備中與關(guān)系型和非關(guān)系型數(shù)據(jù)存儲(chǔ)進(jìn)行混合,智能化可內(nèi)置于整個(gè)系統(tǒng),以確保恰當(dāng)?shù)臄?shù)據(jù)在恰當(dāng)?shù)臅r(shí)間駐留在合適的存儲(chǔ)中。所需的分析層可以優(yōu)化,以確保性能是符合分析目的。這是一個(gè)所有相關(guān)供應(yīng)商都在為之戰(zhàn)斗的一個(gè)戰(zhàn)場(chǎng)。
然而,仍有人認(rèn)為購(gòu)買(mǎi)一個(gè)大的數(shù)據(jù)設(shè)備需要注意的領(lǐng)域。對(duì)于大多數(shù)組織而言,大數(shù)據(jù)將涉及大量的數(shù)據(jù)。為了提供所需的分析速度,大數(shù)據(jù)設(shè)備中的大多數(shù)將有大量的內(nèi)存,使內(nèi)存分析發(fā)生。因此,確保設(shè)備有足夠的內(nèi)存是采購(gòu)大數(shù)據(jù)設(shè)備所需考慮的一大關(guān)鍵。該設(shè)備將需要擴(kuò)展,太小的內(nèi)存將導(dǎo)致數(shù)據(jù)系統(tǒng)的交付將比預(yù)期的慢,然后數(shù)據(jù)就會(huì)在低速存儲(chǔ)系統(tǒng)中進(jìn)出。查看設(shè)備是否是純粹旋轉(zhuǎn)的,基于磁力盤(pán)額。隨著固態(tài)存儲(chǔ)器的出現(xiàn),從磁盤(pán)檢索數(shù)據(jù)的速度已大幅增加,但仍遠(yuǎn)低于存儲(chǔ)系統(tǒng)。使用固態(tài)存儲(chǔ)器的系統(tǒng)比使用磁盤(pán)的速度快得多。此外,要注意混合系統(tǒng),其是頂部層的固態(tài)和較低層的磁盤(pán)存儲(chǔ)的一個(gè)混合。除非有一個(gè)智能的軟件管理隨時(shí)駐留在此的數(shù)據(jù),當(dāng)分析系統(tǒng)試圖從內(nèi)存中獲取數(shù)據(jù)看到數(shù)據(jù)不在那里,然后下降到固態(tài),發(fā)現(xiàn)數(shù)據(jù)不存在,并下降到磁盤(pán),并將數(shù)據(jù)從那里納入到內(nèi)存時(shí),有可能是主要的性能問(wèn)題。
展望未來(lái)
現(xiàn)在需要尋求將Hadoop,NoSQL與關(guān)系型數(shù)據(jù)庫(kù)匯集到一起的系統(tǒng)的方法。然而,也可以展望未來(lái)。很長(zhǎng)一段時(shí)間,Quocirca建議不要使用Hadoop作為一個(gè)持久性存儲(chǔ),而不是取決于其MapReduce的能力,作為數(shù)據(jù)過(guò)濾器,來(lái)降低在任何環(huán)境所需分析的數(shù)據(jù)量。
MapR公司是Apache Drill項(xiàng)目的領(lǐng)軍,而Hortonworks則推出了其Hive Stinger計(jì)劃,兩大項(xiàng)目均顯示了在在Hadoop存儲(chǔ)中啟用SQL查詢的承諾。諸如IBM和Actian公司這樣的供應(yīng)商,有商業(yè)化的Hadoop-SQL產(chǎn)品,能夠處理一些目前Hadoop作為一個(gè)持久性存儲(chǔ)的速度問(wèn)題。在NoSQL終端的數(shù)據(jù)存儲(chǔ),Basho公司則采取一種不同的方法。通過(guò)啟用其Riak NoSQL數(shù)據(jù)庫(kù)節(jié)點(diǎn)的網(wǎng)格,每個(gè)節(jié)點(diǎn)處理大數(shù)據(jù)的不同方面,他們希望能夠創(chuàng)造出“所有規(guī)則的其中一環(huán)”:一個(gè)可以針對(duì)不同數(shù)據(jù)類型的變化速度處理數(shù)據(jù)壓縮的數(shù)據(jù)庫(kù)。
最后,尋找不會(huì)將您捆綁在特定工作方法的系統(tǒng)。使用現(xiàn)有的商業(yè)智能(BI)系統(tǒng)的技能已經(jīng)建立,而無(wú)需學(xué)習(xí)新的技能,大數(shù)據(jù)系統(tǒng)的選擇應(yīng)該能夠使現(xiàn)有的BI工具能夠分層。現(xiàn)在,大數(shù)據(jù)分析仍處于相對(duì)不成熟的水平。企業(yè)自行打造的方法不太可能能夠提供投資回報(bào)率,而一款專業(yè)的大數(shù)據(jù)設(shè)備則可能只是在短時(shí)間內(nèi)解決了某個(gè)問(wèn)題。因此,企業(yè)應(yīng)謹(jǐn)慎選擇一款大數(shù)據(jù)設(shè)備,確保該項(xiàng)業(yè)務(wù)的價(jià)值足以彌補(bǔ)您企業(yè)的該項(xiàng)支出。