企業(yè)越來越多地將云平臺(tái)用于大數(shù)據(jù)分析。這些平臺(tái)提供了可擴(kuò)展的替代方案,與內(nèi)部部署系統(tǒng)相比可以節(jié)省更多的資金,但前提是使用得當(dāng)。
成本控制對(duì)于各種規(guī)模和經(jīng)驗(yàn)水平的企業(yè)來說都是一個(gè)問題,即使那些精通云計(jì)算的企業(yè)也是如此。這就是用戶必須了解云計(jì)算分析和大數(shù)據(jù)的規(guī)模、多樣性、速度、準(zhǔn)確性、價(jià)值這五個(gè)V的原因。這些用戶必須學(xué)會(huì)明智地消費(fèi),以最大化投資回報(bào)率。
5V和云計(jì)算分析
將數(shù)據(jù)和分析納入云端為用戶提供了新的選項(xiàng)來處理分析,如果它符合大數(shù)據(jù)的五個(gè)V的話:
1.規(guī)模(Volume)
顧名思義,大數(shù)據(jù)就是巨大的數(shù)據(jù)量。云端提供了幾乎無限的存儲(chǔ)容量,這就是它隨著數(shù)據(jù)量不斷增長(zhǎng)而成為吸引企業(yè)和政府機(jī)構(gòu)有力選擇的一個(gè)原因。
將數(shù)據(jù)和分析轉(zhuǎn)移到云端在管理規(guī)模(Volume)方面發(fā)揮了很好的作用,因?yàn)樗鼮橛脩籼峁┝遂`活性和可擴(kuò)展性,以滿足峰值需求。然而,在云存儲(chǔ)方面,企業(yè)仍應(yīng)謹(jǐn)慎行事,不應(yīng)丟失數(shù)據(jù)包。如果用戶在可能的情況下不使用低成本存儲(chǔ)層,或者在云中放置過多不必要的數(shù)據(jù),那么成本會(huì)迅速增加。
2.多樣性(Variety)
作為數(shù)據(jù)科學(xué)術(shù)語,多樣性(Variety)指的是異構(gòu)來源,例如結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)。
例如,IT部門可能需要分析來自其后臺(tái)和SaaS應(yīng)用程序的半結(jié)構(gòu)化數(shù)據(jù),而會(huì)計(jì)部門則希望以報(bào)告的形式分析結(jié)構(gòu)化數(shù)據(jù)。同時(shí),營(yíng)銷部門希望分析圖片、視頻、短信和其他不符合傳統(tǒng)數(shù)據(jù)庫行和列的數(shù)據(jù)。
企業(yè)可以使用基于云計(jì)算的數(shù)據(jù)湖來容納所有這些分析類型等。
3.速度(Velocity)
與云中的大數(shù)據(jù)相關(guān),速度(Velocity)是來自SaaS應(yīng)用程序、云平臺(tái)、物聯(lián)網(wǎng)設(shè)備、社交網(wǎng)絡(luò)和任何其他與業(yè)務(wù)相關(guān)的數(shù)據(jù)點(diǎn)的高速信息積累。當(dāng)組織試圖增加足夠的處理能力來處理正在生成的大量且連續(xù)的數(shù)據(jù)流時(shí),速度(Velocity)變得更加復(fù)雜。
隨著組織系統(tǒng)的發(fā)展,云平臺(tái)可以擴(kuò)展以滿足對(duì)可操作數(shù)據(jù)的需求。
4.準(zhǔn)確性(Veracity)
無論數(shù)據(jù)駐留在何處,組織的數(shù)據(jù)始終存在不一致和不確定性。但是,云計(jì)算可以為用戶提供更多的空間并變得凌亂,并進(jìn)一步損害信息的質(zhì)量和準(zhǔn)確性。
如果沒有對(duì)內(nèi)部數(shù)據(jù)準(zhǔn)備、治理和管理流程進(jìn)行審核和潛在改革,就無法實(shí)現(xiàn)云分析。
5. 價(jià)值(Value)
組織收集的大部分?jǐn)?shù)據(jù)幾乎沒有任何價(jià)值,除非IT團(tuán)隊(duì)能夠?qū)⑵渥優(yōu)榭刹僮鞯臄?shù)據(jù),并為其業(yè)務(wù)提供優(yōu)勢(shì)。
借助基于云計(jì)算的自助服務(wù)分析,企業(yè)的數(shù)據(jù)科學(xué)家可以專注于更具戰(zhàn)略性的項(xiàng)目,而業(yè)務(wù)用戶可以獲得儀表板、報(bào)告以及與數(shù)據(jù)本身交互所需的用戶界面。
云存儲(chǔ)的成本影響
當(dāng)然,如果組織不控制成本,那么所有商業(yè)價(jià)值都可以很快被否定。但是,由于存儲(chǔ)和分析的云計(jì)算成本優(yōu)化與傳統(tǒng)的云計(jì)算成本優(yōu)化實(shí)踐不一致,因此很難獲得成功。云計(jì)算分析和消費(fèi)模型可能無法預(yù)測(cè),用戶通常缺乏他們所需資源的參考框架。此外,云計(jì)算管理工具在管理分析的能力方面仍然是一項(xiàng)正在進(jìn)行的工作。
云計(jì)算服務(wù)提供商有攝取模型和按使用付費(fèi)模式這兩種主要的定價(jià)模式可供最終用戶使用。攝取模型計(jì)算存儲(chǔ)在服務(wù)中的數(shù)據(jù)量。其示例包括Azure Stream Analytics、Google BigQuery。
通過Azure Data Lake Analytics、Amazon Kinesis Data Analytics等按使用付費(fèi)服務(wù),云計(jì)算服務(wù)提供商根據(jù)應(yīng)用程序運(yùn)行流處理所需的處理單元數(shù)按小時(shí)收費(fèi)。應(yīng)該注意,容量需求可能會(huì)增加,具體取決于正在運(yùn)行的查詢的復(fù)雜性。
有關(guān)模型的具體詳細(xì)信息(例如,有效和長(zhǎng)期使用的潛在定價(jià)折扣)取決于所選的云計(jì)算服務(wù)提供商。應(yīng)該預(yù)期存儲(chǔ)與分析之間的成本與性能之間的權(quán)衡。
以Amazon S3為例,它具有大規(guī)??蓴U(kuò)展性,是數(shù)據(jù)湖泊的理想選擇。但是,當(dāng)用戶將數(shù)據(jù)移動(dòng)到性能更高且更昂貴的存儲(chǔ)(例如Amazon Elastic Block Store)時(shí),則必須忍受較慢的訪問速度。
IT團(tuán)隊(duì)?wèi)?yīng)審核并遵循其提供商的文檔,以估算分析工作的經(jīng)濟(jì)性。然后,創(chuàng)建一個(gè)財(cái)務(wù)模型來預(yù)測(cè)使用情況并防止發(fā)生意外。
在將分析遷移到云端之前,IT團(tuán)隊(duì)還應(yīng)該了解他們的支出歷史和成本管理實(shí)踐。用戶了解他們的歷史數(shù)據(jù)和基線數(shù)據(jù)越多,他們就越能追蹤超支情況。
雖然自助服務(wù)分析對(duì)于組織來說是一種吸引力,但如果用戶過度放縱和限制不到位,它可能會(huì)導(dǎo)致更多的意外賬單。云原生和第三方工具可用于監(jiān)控工作負(fù)載的推出。
云中大數(shù)據(jù)的未來
Salesforce公司最近收購了Tableau,谷歌收購了Looker,這表明云計(jì)算領(lǐng)域的分析技術(shù)令人關(guān)注。SaaS供應(yīng)商(如Salesforce)擁有基礎(chǔ)設(shè)施、基于訂閱的定價(jià)專業(yè)知識(shí),以及營(yíng)銷和銷售渠道,可將云計(jì)算分析引入新賬戶和現(xiàn)有賬戶。主要的云計(jì)算提供商將在內(nèi)部利用他們的技術(shù)、知識(shí)產(chǎn)權(quán)、專業(yè)知識(shí)與其新的SaaS分析競(jìng)爭(zhēng)對(duì)手展開競(jìng)爭(zhēng)。
此外,前面提到的兩個(gè)主要定價(jià)模型已經(jīng)成熟,可以進(jìn)行變革。谷歌公司已經(jīng)提供了按使用付費(fèi)和固定費(fèi)率之間的選擇,而像SAP公司這樣的第三方供應(yīng)商提供了更傳統(tǒng)的訂閱模式。主要的公共云提供商可能會(huì)更積極地定價(jià),除了現(xiàn)有的渠道合作伙伴和折扣計(jì)劃之外,他們還會(huì)提供更多的替代方案。