大數(shù)據(jù)堆棧是一套互補(bǔ)的軟件技術(shù),用于管理和分析對(duì)于傳統(tǒng)技術(shù)來(lái)說(shuō)太大或太復(fù)雜的數(shù)據(jù)集。大數(shù)據(jù)堆棧技術(shù)——最常用于分析——是專門為應(yīng)對(duì)數(shù)據(jù)大小、速度和種類的增長(zhǎng)而設(shè)計(jì)的。大數(shù)據(jù)產(chǎn)品和服務(wù)通常用于管理數(shù)據(jù)管道中的數(shù)據(jù),以提供及時(shí)高效的業(yè)務(wù)洞察。
企業(yè)可以考慮幾個(gè)流行的大數(shù)據(jù)堆棧,每個(gè)堆棧都有一套技術(shù)和開源替代方案,無(wú)論他們是選擇套裝堆棧還是構(gòu)建自己的堆棧,大數(shù)據(jù)堆棧都已成為現(xiàn)代數(shù)據(jù)架構(gòu)的主要組成部分。
大數(shù)據(jù)面臨的挑戰(zhàn)
大數(shù)據(jù)通常被描述為規(guī)模和復(fù)雜性,這帶來(lái)了獨(dú)特的挑戰(zhàn),稱為三個(gè)V:
·數(shù)據(jù)量-人和機(jī)器生成的數(shù)據(jù)量,通常,機(jī)器生成的數(shù)據(jù)(例如傳感器數(shù)據(jù))量遠(yuǎn)遠(yuǎn)大于人類生成的交易數(shù)據(jù),海量的靜態(tài)和動(dòng)態(tài)數(shù)據(jù)給企業(yè)帶來(lái)了挑戰(zhàn)。
·速度-數(shù)據(jù)的速率,機(jī)器生成的數(shù)據(jù)通常比人類生成的數(shù)據(jù)產(chǎn)生的頻率更高,挑戰(zhàn)在于企業(yè)收集和處理數(shù)據(jù)的巨大速度,尤其是在實(shí)時(shí)流架構(gòu)中。
·多種多樣-數(shù)據(jù)的多樣性,數(shù)據(jù)采用的三種主要形式包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化。各種各樣的結(jié)構(gòu)不同的數(shù)據(jù)——通常需要不同的方法——帶來(lái)了新的挑戰(zhàn)。
傳統(tǒng)軟件技術(shù)無(wú)法處理的三種情況中的任何一種都被認(rèn)為是大數(shù)據(jù)。
大數(shù)據(jù)堆棧的架構(gòu)層
要應(yīng)對(duì)大數(shù)據(jù)的挑戰(zhàn),企業(yè)必須將目光投向傳統(tǒng)數(shù)據(jù)處理基礎(chǔ)設(shè)施以外的領(lǐng)域,求助的一個(gè)領(lǐng)域是特殊用途的大數(shù)據(jù)軟件技術(shù),當(dāng)配合使用時(shí),大數(shù)據(jù)技術(shù)可以克服大數(shù)據(jù)面臨的挑戰(zhàn)。
以下6層是成功的大數(shù)據(jù)堆棧架構(gòu)的關(guān)鍵:
1.收集
大數(shù)據(jù)堆棧架構(gòu)的第一步是數(shù)據(jù)收集。數(shù)據(jù)采集可以從各種內(nèi)部和外部數(shù)據(jù)源進(jìn)行推送或拉取。數(shù)據(jù)源的一些示例包括交易系統(tǒng)、物聯(lián)網(wǎng)設(shè)備、社交媒體和靜態(tài)日志文件。
大數(shù)據(jù)攝取軟件處理大型靜態(tài)數(shù)據(jù)集、小型實(shí)時(shí)數(shù)據(jù)集以及每個(gè)數(shù)據(jù)集的各種數(shù)據(jù)格式。大的數(shù)據(jù)集到達(dá)得很慢,小的數(shù)據(jù)集到達(dá)得很快。將模式和質(zhì)量驗(yàn)證推遲到管道中的更遠(yuǎn)有助于更高的吞吐量。
2.儲(chǔ)存
一旦收集,原始數(shù)據(jù)通常以文件的形式存儲(chǔ)在數(shù)據(jù)湖中,該數(shù)據(jù)湖針對(duì)將數(shù)據(jù)輸入分析管道進(jìn)行了優(yōu)化。原生格式存儲(chǔ)庫(kù)既是批量數(shù)據(jù)的著陸區(qū),也是時(shí)間敏感型探索性查詢的沙盒。
大數(shù)據(jù)存儲(chǔ)軟件存儲(chǔ)各種格式的大文件和小文件,通常采用對(duì)象存儲(chǔ)等分布式文件系統(tǒng)的形式。非瞬時(shí)數(shù)據(jù)可以在較長(zhǎng)的保留期內(nèi)持續(xù)存在,并且需要在數(shù)據(jù)的整個(gè)生命周期中使用自動(dòng)分層的軟件。
3.處理
處理包括準(zhǔn)備靜態(tài)的批量數(shù)據(jù)集和流動(dòng)的動(dòng)態(tài)數(shù)據(jù)以供分析。數(shù)據(jù)管理可以包括清理、整合、豐富、集成、過(guò)濾、聚合和以其他方式準(zhǔn)備用于分析的數(shù)據(jù)。
大數(shù)據(jù)處理軟件運(yùn)行在大批量數(shù)據(jù)上,延遲更高,計(jì)算更復(fù)雜,需要長(zhǎng)時(shí)間運(yùn)行的高效率計(jì)算。使用分布式處理軟件對(duì)較小的分區(qū)數(shù)據(jù)片段進(jìn)行操作可以實(shí)現(xiàn)這一點(diǎn)。
大數(shù)據(jù)處理軟件也可以處理高速的流數(shù)據(jù),延遲更低,計(jì)算相對(duì)簡(jiǎn)單。流數(shù)據(jù)處理需要通過(guò)持續(xù)可用的流服務(wù)實(shí)現(xiàn)有保證的耐用性、訂購(gòu)和交付。
通過(guò)軟件并行性、就地處理和讀取時(shí)架構(gòu)實(shí)現(xiàn)批處理和流性能。關(guān)鍵的大數(shù)據(jù)堆棧策略包括將數(shù)據(jù)和處理劃分為同時(shí)執(zhí)行的小單元,以及在分析存儲(chǔ)加載期間最大限度地減少模式驗(yàn)證。
4.提煉
分析數(shù)據(jù)存儲(chǔ)處理或提煉數(shù)據(jù)以供分析。數(shù)據(jù)存儲(chǔ)的示例包括基于SQL的多維數(shù)據(jù)倉(cāng)庫(kù)、NoSQL技術(shù)和具有抽象層的分布式數(shù)據(jù)存儲(chǔ),該抽象層用于通過(guò)接口訪問(wèn)各種數(shù)據(jù)類型。
大數(shù)據(jù)分析商店支持多種存儲(chǔ)方法和技術(shù),稱為多語(yǔ)言持久性。專用單一模型數(shù)據(jù)庫(kù)通過(guò)優(yōu)化數(shù)據(jù)存儲(chǔ)和處理特定數(shù)據(jù)類型來(lái)提供性能和可擴(kuò)展性?;静呗园〝?shù)據(jù)處理、并行執(zhí)行和數(shù)據(jù)分區(qū)。
5.分析
分析檢查分析數(shù)據(jù)存儲(chǔ)和原始存儲(chǔ),處于交互環(huán)境中的人類用戶使用BI工具通過(guò)可視化獲得洞察力,先進(jìn)的分析工具處理數(shù)據(jù)以提取情報(bào),機(jī)器學(xué)習(xí)使用人工智能直接處理數(shù)據(jù)來(lái)自我學(xué)習(xí)。
大數(shù)據(jù)分析軟件處理從簡(jiǎn)單的即席查詢到復(fù)雜的預(yù)測(cè)分析和機(jī)器學(xué)習(xí)操作的查詢。用戶范圍包括臨時(shí)分析師、數(shù)據(jù)科學(xué)家和機(jī)器。由于數(shù)據(jù)通常是分散的,就地分析是必不可少的,因此軟件應(yīng)該通過(guò)數(shù)據(jù)交換矩陣的虛擬化向用戶呈現(xiàn)數(shù)據(jù)生態(tài)系統(tǒng)的統(tǒng)一視圖。
6.編排
大數(shù)據(jù)堆棧通常使用工作流技術(shù)來(lái)管理源數(shù)據(jù)收集、原始數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)處理等數(shù)據(jù)操作,運(yùn)營(yíng)還包括將精煉數(shù)據(jù)移動(dòng)到分析數(shù)據(jù)存儲(chǔ),以及將洞察力直接推送到商業(yè)智能應(yīng)用程序,如報(bào)告和儀表板。
大數(shù)據(jù)協(xié)調(diào)軟件可自動(dòng)化數(shù)據(jù)管道,從而最大限度地減少延遲并縮短實(shí)現(xiàn)價(jià)值的時(shí)間。工作流軟件提供了易于使用的管理界面和架構(gòu)組件之間的無(wú)縫集成。
選擇大數(shù)據(jù)堆棧
在選擇大數(shù)據(jù)技術(shù)或堆棧之前,企業(yè)應(yīng)量化其當(dāng)前和未來(lái)的數(shù)據(jù)挑戰(zhàn),了解傳統(tǒng)軟件的局限性,并注意大數(shù)據(jù)行業(yè)趨勢(shì)。他們應(yīng)該定期重新評(píng)估自己的評(píng)估,因?yàn)榇髷?shù)據(jù)和技術(shù)演變是不斷變化的目標(biāo)。
重要的是要確保技術(shù)選擇是模塊化的和松散耦合的,以允許即插即用策略中的更改,而對(duì)其他堆棧軟件的影響最小或沒(méi)有影響。專注于專門為解決體系結(jié)構(gòu)中的獨(dú)特挑戰(zhàn)而設(shè)計(jì)的軟件,而不是多用途軟件。
數(shù)據(jù)驅(qū)動(dòng)型企業(yè)了解處理大數(shù)據(jù)是一項(xiàng)核心能力。專用大數(shù)據(jù)軟件可以應(yīng)對(duì)規(guī)模性和復(fù)雜性的數(shù)據(jù)挑戰(zhàn)。與傳統(tǒng)數(shù)據(jù)軟件一起,大數(shù)據(jù)堆棧有助于管理數(shù)據(jù)并提供及時(shí)的業(yè)務(wù)洞察。
關(guān)于企業(yè)網(wǎng)D1net(r5u5c.cn):
國(guó)內(nèi)主流的to B IT門戶,同時(shí)在運(yùn)營(yíng)國(guó)內(nèi)最大的甲方CIO專家?guī)旌椭橇敵黾吧缃黄脚_(tái)-信眾智(www.cioall.com)。同時(shí)運(yùn)營(yíng)19個(gè)IT行業(yè)公眾號(hào)(微信搜索D1net即可關(guān)注)。
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需在文章開頭注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。