與更成熟的公司相比,早期的初創(chuàng)公司有著截然不同的分析需求。數(shù)據(jù)湖基礎(chǔ)設(shè)施可以使工作變得更容易。
你可能對(duì)“數(shù)據(jù)湖”這個(gè)術(shù)語(yǔ)并不熟悉,但如果你在早期階段的初創(chuàng)公司中,你可能很快就會(huì)熟悉。
雖然數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市往往迫使企業(yè)進(jìn)入狹隘的數(shù)據(jù)范式和孤島,但數(shù)據(jù)湖則側(cè)重了更全面和更廣泛的分析視角。數(shù)據(jù)湖為分析數(shù)據(jù)提供了更具適應(yīng)性的方法,并強(qiáng)調(diào)所有信息的價(jià)值,而不是被預(yù)先篩選的零散信息。
在大數(shù)據(jù)行業(yè)圍繞數(shù)據(jù)湖的爭(zhēng)議往往集中在他們認(rèn)為的缺點(diǎn)上。數(shù)據(jù)湖非常沒(méi)有結(jié)構(gòu)化、太寬泛和太難管理。無(wú)論如何,數(shù)據(jù)湖具備了使其有獨(dú)特價(jià)值的關(guān)鍵特征,盡管這些特征相對(duì)較新,但對(duì)初創(chuàng)公司尤其有用。
這是因?yàn)閷?duì)于初創(chuàng)公司而言,丟棄他們所擁有的大量數(shù)據(jù)可能會(huì)導(dǎo)致對(duì)市場(chǎng)的了解更少,并可能忽略一些關(guān)鍵趨勢(shì)。這五個(gè)原因凸顯了為什么數(shù)據(jù)湖是初創(chuàng)公司分析范式的重要組成部分,而不是將自己鎖定在嚴(yán)格的數(shù)據(jù)管理實(shí)踐中。
數(shù)據(jù)湖將與規(guī)模相關(guān)的成本保持在較低水平
初創(chuàng)公司開(kāi)始可能會(huì)有較少的數(shù)據(jù)流和較小的需求,但是當(dāng)它們開(kāi)始發(fā)展時(shí),這種情況會(huì)迅速改變。數(shù)據(jù)倉(cāng)庫(kù)是高度結(jié)構(gòu)的,需要由專業(yè)的數(shù)據(jù)工程師和架構(gòu)師進(jìn)行高程度的維護(hù)和持續(xù)監(jiān)控。其中包括構(gòu)建適當(dāng)?shù)哪J揭赃M(jìn)行分析,更改分析模型,甚至構(gòu)建正確的結(jié)構(gòu)來(lái)存儲(chǔ)清理數(shù)據(jù)。
例如,Meta Networks等公司為企業(yè)提供“網(wǎng)絡(luò)即服務(wù)”(Network-as-a-Service)工具,每秒可收集數(shù)百萬(wàn)個(gè)數(shù)據(jù)點(diǎn),隨著新客戶的加入,數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng)。通過(guò)使用Upsolver平臺(tái)(它可以依賴于更容易擴(kuò)展的系統(tǒng),例如AWS的S3云服務(wù)器)來(lái)構(gòu)建數(shù)據(jù)湖,該公司已經(jīng)能夠收集所需的所有數(shù)據(jù),而無(wú)需預(yù)先構(gòu)建模式和倉(cāng)庫(kù)結(jié)構(gòu)。
數(shù)據(jù)湖消除了數(shù)據(jù)孤島
在一家新成立的公司,快速共享數(shù)據(jù)和執(zhí)行各種橫向分析可以提供洞察力以及新的、意想不到的前進(jìn)道路。然而,許多早期初創(chuàng)公司為了方便而錯(cuò)誤地創(chuàng)建了數(shù)據(jù)孤島。信息嚴(yán)重地被分割開(kāi),通信和傳輸數(shù)據(jù)變得更加困難。
在企業(yè)層面,普華永道公司在加州大學(xué)歐文分校醫(yī)療中心(UC Irvine Medical Center)實(shí)施了一個(gè)數(shù)據(jù)湖系統(tǒng),這極大改善了運(yùn)營(yíng)工作。與初創(chuàng)公司相比,醫(yī)療機(jī)構(gòu)甚至可能更容易出現(xiàn)數(shù)據(jù)孤島,但普華永道公司表示,數(shù)據(jù)湖可以提供更敏捷的方法。由于數(shù)據(jù)沒(méi)有被強(qiáng)制劃分為不同模式,該醫(yī)院已經(jīng)能夠提供更好的分析、更廣泛的研究和更快的溝通。
數(shù)據(jù)湖減少了排序和查詢的時(shí)間
無(wú)論初創(chuàng)公司選擇何種數(shù)據(jù)結(jié)構(gòu),他們都必須投入一些資源來(lái)管理和優(yōu)化。通常,這意味著花費(fèi)數(shù)小時(shí)來(lái)設(shè)置儀表板、分析算法和數(shù)據(jù)模式,并要始終對(duì)所有這些工作進(jìn)行管理。這意味著要配備一名全職工作人員,如果他不是專職于這項(xiàng)工作,則他就會(huì)放棄其他工作任務(wù)來(lái)花時(shí)間處理數(shù)據(jù)倉(cāng)庫(kù)工作。
由于數(shù)據(jù)湖具有非結(jié)構(gòu)化特性和原始數(shù)據(jù)流,因此需要維護(hù)的工作量要少得多。與需要配備一名全職人員不同(這是大多數(shù)初創(chuàng)公司根本無(wú)法負(fù)擔(dān)的),數(shù)據(jù)湖可以讓任何團(tuán)隊(duì)成員自己執(zhí)行臨時(shí)性的分析,而無(wú)需預(yù)先進(jìn)行復(fù)雜的清理和結(jié)構(gòu)化過(guò)程。最重要的是,它還可以顯著縮短查詢時(shí)間。
數(shù)據(jù)湖包含所有數(shù)據(jù)
大數(shù)據(jù)的關(guān)鍵是盡可能多地提供信息來(lái)解析和處理,但大多數(shù)數(shù)據(jù)倉(cāng)庫(kù)都與這種范式背道而馳。數(shù)據(jù)倉(cāng)庫(kù)通常會(huì)過(guò)濾掉不符合預(yù)定結(jié)構(gòu)的重要數(shù)據(jù)塊,通常會(huì)刪除掉一些數(shù)據(jù)點(diǎn),而這些數(shù)據(jù)點(diǎn)在不同視角下觀察時(shí)可能包含關(guān)鍵見(jiàn)解。數(shù)據(jù)湖提供的最大價(jià)值的源泉之一是,它龐大的數(shù)據(jù)存儲(chǔ)庫(kù)有不同來(lái)源,并提供了獨(dú)特的方法來(lái)進(jìn)行組合。這種上下文無(wú)關(guān)的模型在執(zhí)行預(yù)測(cè)分析或只是尋找一些所關(guān)注的趨勢(shì)時(shí)非常有價(jià)值。
EMC是最受歡迎的數(shù)據(jù)湖解決方案之一,已成功應(yīng)用于醫(yī)療服務(wù)領(lǐng)域,以改善預(yù)測(cè)性護(hù)理和趨勢(shì)發(fā)現(xiàn)。然而,其如此成功,是因?yàn)樗梢栽诓煌呐渲孟卵芯扛鼜V泛的橫向數(shù)據(jù)。與數(shù)據(jù)倉(cāng)庫(kù)(將預(yù)定分析算法強(qiáng)加于數(shù)據(jù))不同,數(shù)據(jù)湖擁有全套原始數(shù)據(jù),這使初創(chuàng)公司能夠根據(jù)需求而非技術(shù)來(lái)執(zhí)行自己的分析。
數(shù)據(jù)湖讓初創(chuàng)公司通過(guò)分析獲得創(chuàng)意
最重要的是,數(shù)據(jù)湖可能并不會(huì)將企業(yè)鎖定在分析和見(jiàn)解的特定范式中。數(shù)據(jù)倉(cāng)庫(kù)通常具有重要的用途,但由于其固定性結(jié)構(gòu),使其應(yīng)用范圍較窄。因?yàn)閿?shù)據(jù)倉(cāng)庫(kù)需要仔細(xì)規(guī)劃數(shù)據(jù)流和結(jié)構(gòu),所以初創(chuàng)公司必須在看到數(shù)據(jù)之前就決定它的使用方式。
對(duì)于一家了解其數(shù)據(jù)和渠道的公司而言,建立限制性習(xí)慣最終可能會(huì)對(duì)分析大局產(chǎn)生不利影響。另一方面,數(shù)據(jù)湖能夠忽略有關(guān)數(shù)據(jù)的先入之見(jiàn),同時(shí)能夠以獨(dú)特方式探索信息。
數(shù)據(jù)湖有利于工作取得成功
對(duì)于通常以顛覆和創(chuàng)新而自豪的初創(chuàng)公司而言,擁有一個(gè)數(shù)據(jù)的整體觀以及擁有基于需求而非限制來(lái)執(zhí)行臨時(shí)分析的能力,這是一個(gè)至關(guān)重要的區(qū)別。
您的初創(chuàng)公司根本無(wú)法準(zhǔn)確預(yù)測(cè)在組織生命周期中最重要的一些特定而有限的指標(biāo)、信息源和用例。通過(guò)利用數(shù)據(jù)湖基礎(chǔ)設(shè)施,您的公司及其利益相關(guān)者可以重新審視這些決策,并在未來(lái)幾年開(kāi)啟新的價(jià)值層面。