咨詢和托管服務提供商Onica公司首席解決方案架構師Mark McQuade學習和拓寬了他對從Docker和Kubernetes到人工智能和深度學習的各種知識。McQuade分享了對數(shù)據(jù)池的看法。
為什么組織使用數(shù)據(jù)湖?
數(shù)據(jù)湖用例的范圍從數(shù)據(jù)科學家開發(fā)的機器學習算法到構建統(tǒng)計可視化,以及使用生成的見解來指導業(yè)務決策。
為什么數(shù)據(jù)湖如此復雜?
隨著數(shù)據(jù)每五年增長10倍,數(shù)據(jù)平臺需要擴展1000倍才能滿足未來15年的存儲和處理要求。采用數(shù)據(jù)湖可以減輕這種負擔,但是由于數(shù)據(jù)清理、數(shù)據(jù)準備和安全配置的復雜性,建立數(shù)據(jù)湖的過程涉及一系列步驟,這些步驟可能變得非常繁瑣,將持續(xù)數(shù)月之久。此外,在數(shù)據(jù)湖的整個生命周期中,還涉及其他人工步驟,例如管理和監(jiān)視ETL(提取、轉換、加載)作業(yè),基于數(shù)據(jù)更改更新元數(shù)據(jù),維護清理腳本等。
建立數(shù)據(jù)湖需要多長時間?
建立一個完善的數(shù)據(jù)湖可能既困難又耗時,這個過程可能需要三到六個月的時間。使用AWS Lake Formation可以簡化以往花費大量人力構建數(shù)據(jù)湖的工作,并且可以將構建數(shù)據(jù)湖的時間減少到數(shù)周,不必那么復雜或花費那么長時間。
簡化數(shù)據(jù)湖有什么好處?
組織簡化數(shù)據(jù)湖可以節(jié)省大量的時間和減少麻煩。通過完善組織對數(shù)據(jù)湖的維護,可以減少保持一切正常運行所需的內部專業(yè)知識和資源,使IT團隊能夠專注于更緊迫的項目,從而從長遠來看節(jié)省了組織成本。
數(shù)據(jù)還可以幫助組織預測客戶行為,自動化流程以提高效率,除了自動化客戶服務之外,還可以通過速度和可用性增強產品供應。這些用例要求數(shù)據(jù)是安全的和實時可用的,隨著越來越多的人訪問數(shù)據(jù),重要的是數(shù)據(jù)平臺是靈活和可擴展的。AWS Lake Formation可以解決所有上述問題。
組織如何簡化數(shù)據(jù)湖?
建議使用AWS Lake Formation,它可以消減很多人工工作,并且可以將構建數(shù)據(jù)湖的時間減少到數(shù)周,它還允許組織以三種方式簡化數(shù)據(jù)湖:
•使用藍圖來攝取數(shù)據(jù):能夠以大容量或增量負荷攝取數(shù)據(jù)。如果選擇增量加載以進行攝取,則可以指定要增量加載的表和列,并設置一些書簽鍵,并根據(jù)自己的偏好指定鍵排序順序。設置完所有這些參數(shù)后,就可以監(jiān)視增量導入,以檢查攝取是否成功。
•授予權限以安全地共享數(shù)據(jù):在攝取數(shù)據(jù)之后,可以為用戶分配對保存數(shù)據(jù)庫中數(shù)據(jù)表的訪問權限。這些權限可能特定于每個用戶,具有可單獨選擇的選項,例如創(chuàng)建、選擇、插入、更改或刪除數(shù)據(jù)。
•運行查詢:提取數(shù)據(jù)并定義安全權限之后,可以使用Amazon服務(例如Amazon Athena)運行查詢,這些服務利用數(shù)據(jù)湖中表中的數(shù)據(jù)。與人工工作相比,使用AWS Lake Formation來創(chuàng)建和管理數(shù)據(jù)湖是一個更簡單、直觀并且更快的過程。
組織是否還有其他方法可以降低其不采用這些特定步驟或Amazon的數(shù)據(jù)湖的復雜性?
雖然這三種超大規(guī)模方案都提供了管理數(shù)據(jù)湖的方法,但對于組織而言,在采用新技術之前先問自己要解決的問題始終很重要。盡管簡化數(shù)據(jù)湖對于某些組織而言可能是關鍵,但可能存在只能用另一種解決方案解決的情況。
組織在簡化其數(shù)據(jù)湖時絕對不應該做哪些事情?
組織需要避免內部部署工作,并堅持使用無服務器數(shù)據(jù)湖。無服務器的數(shù)據(jù)湖可以使IT團隊有效地進行擴展,而內部部署則需要頻繁的軟件升級和對物理硬件的關注。
建立數(shù)據(jù)湖時,可能會花費大量時間和精力,組織可能會想辦法走捷徑,但是當涉及到數(shù)據(jù)和將為組織的數(shù)據(jù)提供強大動力的數(shù)據(jù)平臺時,需要避免這種走捷徑的舉動。
組織如何才能確保在構建數(shù)據(jù)湖時考慮到未來因素?
確保組織的數(shù)據(jù)平臺是為長期成功而不僅僅是為了滿足當前需求而構建的。例如,組織可能此時對機器學習不感興趣,但是在接下來的兩到三年內,很可能希望對數(shù)據(jù)進行一些預測。組織確保擁有一個健壯、可擴展且安全的數(shù)據(jù)平臺也是一個好習慣,這將使組織的業(yè)務和數(shù)據(jù)在未來幾年內都能正常運行。
版權聲明:本文為企業(yè)網D1Net編譯,轉載需注明出處為:企業(yè)網D1Net,如果不注明出處,企業(yè)網D1Net將保留追究其法律責任的權利。