•批量處理大數(shù)據(jù)源。
•實時處理大數(shù)據(jù)。
•預測分析和機器學習。
精心設計的大數(shù)據(jù)架構(gòu)可以節(jié)省企業(yè)資金,并幫助其預測未來趨勢,從而做出明智的業(yè)務決策。
大數(shù)據(jù)架構(gòu)的好處
可用于分析的數(shù)據(jù)量每天都在增長。而且,流媒體資源比以往更多,其中包括流量傳感器、健康傳感器、事務日志和活動日志中提供的數(shù)據(jù)。但擁有數(shù)據(jù)只是業(yè)務成功的一半。企業(yè)還需要能夠理解數(shù)據(jù),并及時使用它來影響關(guān)鍵決策。使用大數(shù)據(jù)架構(gòu)可以幫助企業(yè)節(jié)省資金并做出關(guān)鍵決策,其中包括:
•降低成本。在存儲大量數(shù)據(jù)時,Hadoop和基于云計算的分析等大數(shù)據(jù)技術(shù)可以顯著地降低成本。
•做出更快、更好的決策。使用大數(shù)據(jù)架構(gòu)的流組件,企業(yè)可以實時做出決策。
•預測未來需求并創(chuàng)建新產(chǎn)品。大數(shù)據(jù)可以幫助企業(yè)衡量客戶需求并使用分析預測未來趨勢。
大數(shù)據(jù)架構(gòu)的挑戰(zhàn)
如果做得好,大數(shù)據(jù)架構(gòu)可以為企業(yè)節(jié)省資金,并幫助預測重要的趨勢,但它并非沒有挑戰(zhàn)。在處理大數(shù)據(jù)時,需要注意以下問題:
(1)數(shù)據(jù)質(zhì)量
無論何時使用各種數(shù)據(jù)源,數(shù)據(jù)質(zhì)量都是一項挑戰(zhàn)。這意味著企業(yè)需要做的工作是確保數(shù)據(jù)格式匹配,并且沒有重復數(shù)據(jù)或缺少數(shù)據(jù)將會使分析不可靠。企業(yè)需要先分析和準備數(shù)據(jù),然后才能將其與其他數(shù)據(jù)一起進行分析。
(2)擴展
大數(shù)據(jù)的價值在于其數(shù)量。但是,這也可能成為一個重要問題。如果企業(yè)尚未設計架構(gòu)以進行擴展,則可能會很快遇到問題。首先,如果企業(yè)不計劃支持基礎(chǔ)設施,那么支持基礎(chǔ)設施的成本就會增加。這可能會給企業(yè)的預算帶來負擔。其次,如果企業(yè)不打算進行擴展,那么其性能可能會顯著下降。這兩個問題都應該在構(gòu)建大數(shù)據(jù)架構(gòu)的規(guī)劃階段得到解決。
(3)安全性
雖然大數(shù)據(jù)可以為企業(yè)提供對數(shù)據(jù)的深入了解,但保護這些數(shù)據(jù)仍然具有挑戰(zhàn)性。欺詐者和黑客可能對企業(yè)的數(shù)據(jù)非常感興趣,他們可能會嘗試添加自己的偽造數(shù)據(jù)或瀏覽企業(yè)的數(shù)據(jù)以獲取敏感信息。網(wǎng)絡犯罪分子可以制作數(shù)據(jù)并將其引入其數(shù)據(jù)湖。例如,假設企業(yè)跟蹤網(wǎng)站點擊次數(shù)以發(fā)現(xiàn)流量中的異常模式,并在其網(wǎng)站上查找犯罪活動,網(wǎng)絡犯罪分子可以滲透企業(yè)的系統(tǒng),在企業(yè)的大數(shù)據(jù)中可以找到大量的敏感信息,如果企業(yè)沒有保護周邊環(huán)境,加密數(shù)據(jù)并努力匿名化數(shù)據(jù)以移除敏感信息的話,網(wǎng)絡犯罪分子可能會挖掘其數(shù)據(jù)以獲取這些信息。
大數(shù)據(jù)架構(gòu)因公司的基礎(chǔ)設施和需求而異,但通常包含以下組件:
•數(shù)據(jù)源。所有大數(shù)據(jù)架構(gòu)都從源代碼開始。這可以包括來自數(shù)據(jù)庫的數(shù)據(jù)、來自實時源(如物聯(lián)網(wǎng)設備)的數(shù)據(jù),以及從應用程序(如Windows日志)生成的靜態(tài)文件。
•實時消息接收。如果有實時源,則需要在架構(gòu)中構(gòu)建一種機制來攝取數(shù)據(jù)。
•數(shù)據(jù)存儲。企業(yè)需要存儲將通過大數(shù)據(jù)架構(gòu)處理的數(shù)據(jù)。通常,數(shù)據(jù)將存儲在數(shù)據(jù)湖中,這是一個可以輕松擴展的大型非結(jié)構(gòu)化數(shù)據(jù)庫。
•批處理和實時處理的組合。企業(yè)需要同時處理實時數(shù)據(jù)和靜態(tài)數(shù)據(jù),因此應在大數(shù)據(jù)架構(gòu)中內(nèi)置批量和實時處理的組合。這是因為可以使用批處理有效地處理大量數(shù)據(jù),而實時數(shù)據(jù)需要立即處理才能帶來價值。批處理涉及到長時間運行的作業(yè),用于篩選、聚合和準備數(shù)據(jù)進行分析。
•分析數(shù)據(jù)存儲。準備好要分析的數(shù)據(jù)后,需要將它們放在一個位置,以便對整個數(shù)據(jù)集進行分析。分析數(shù)據(jù)存儲的重要性在于,企業(yè)的所有數(shù)據(jù)都集中在一個位置,因此其分析將是全面的,并且針對分析而非事務進行了優(yōu)化。這可能采取基于云計算的數(shù)據(jù)倉庫或關(guān)系數(shù)據(jù)庫的形式,具體取決于企業(yè)的需求。
•分析或報告工具。在攝取和處理各種數(shù)據(jù)源之后,企業(yè)需要包含一個分析數(shù)據(jù)的工具。通常,企業(yè)將使用BI(商業(yè)智能)工具來完成這項工作,并且可能需要數(shù)據(jù)科學家來探索數(shù)據(jù)。
•自動化。通過這些不同的系統(tǒng)移動數(shù)據(jù)需要通常以某種形式的自動化進行編排。數(shù)據(jù)的攝取和轉(zhuǎn)換、批量移動和流處理,將其加載到分析數(shù)據(jù)存儲,最后獲得洞察力必須在可重復的工作流程中,以便企業(yè)可以不斷從大數(shù)據(jù)中獲取洞察力。