數(shù)據(jù)孤島是大數(shù)據(jù)價值提升的重大障礙
這顯然是個難題!呈指數(shù)級速度增長的數(shù)量存儲量,不同的數(shù)據(jù)來源,數(shù)據(jù)的多元化,使用者的多元化,甚至各種各樣不同的分析工具,都使得真正的大數(shù)據(jù)很難得到最大程度的利用并獲得價值。
以常用的交易型數(shù)據(jù)庫為例,交易型數(shù)據(jù)庫作為底層數(shù)據(jù)基礎(chǔ),一般會放在ERP、CRM及企業(yè)客戶的各種業(yè)務系統(tǒng)之下,從里面經(jīng)過整理變成中間層數(shù)據(jù)倉庫,然后再分析展示出商務智能,從而為企業(yè)提供一定程度的決策依據(jù)。但隨著物聯(lián)網(wǎng)時代到來,數(shù)據(jù)來源更加多樣化,不僅僅只是ERP、CRM及業(yè)務系統(tǒng),各種PC端數(shù)據(jù)、移動端數(shù)據(jù)、傳感器數(shù)據(jù)等越來越多,以往從數(shù)據(jù)庫到數(shù)據(jù)倉庫再到商務智能BI的數(shù)據(jù)處理之路造成的數(shù)據(jù)孤島,已成為提升大數(shù)據(jù)價值的極大障礙。
數(shù)據(jù)湖是大數(shù)據(jù)時代的必然
最近幾年出現(xiàn)的數(shù)據(jù)湖方案,因為能有效解決傳統(tǒng)數(shù)據(jù)倉庫存在的數(shù)據(jù)孤島問題,同時也能夠兼容傳統(tǒng)數(shù)據(jù)倉庫的數(shù)據(jù)分析方法,而且特別適合與機器學習結(jié)合,做出更多預測性的分析。
數(shù)據(jù)湖和傳統(tǒng)數(shù)據(jù)倉庫有以下區(qū)別:數(shù)據(jù)倉庫是在數(shù)據(jù)庫的基礎(chǔ)上把數(shù)據(jù)經(jīng)過分類、提煉、整理好后放在數(shù)據(jù)倉庫,小型的數(shù)據(jù)倉庫最早以前也曾被稱為數(shù)據(jù)集市,部門級的數(shù)據(jù)可以放在數(shù)據(jù)集市里。數(shù)據(jù)倉庫一般是企業(yè)級別,但數(shù)據(jù)倉庫的方法對數(shù)據(jù)有非常嚴格的要求,必須是能夠被識別的固定好格式的數(shù)據(jù),整理各種數(shù)據(jù)便需要極長的時間,無法適應現(xiàn)在數(shù)據(jù)時刻處于快速變化中的環(huán)境。而數(shù)據(jù)湖則顧名思義,就是把所有數(shù)據(jù)像湖水一樣先蓄在這個湖里,也就是形成了一個中心數(shù)據(jù)存儲的容器,這個容器可以存無論是格式化的還是非格式化的各種各樣的數(shù)據(jù),而且從數(shù)據(jù)量上也非常容易實現(xiàn)對數(shù)據(jù)量的快速縮放,并且對這些數(shù)據(jù)可以進行查詢、分析。換言之,數(shù)據(jù)湖就是一個集中式的、安全的存儲庫,以云計算技術(shù)和基礎(chǔ)設(shè)施為依托,允許企業(yè)或機構(gòu)以任意規(guī)模,存儲所有的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)??蛻艨梢园丛瓨哟鎯?shù)據(jù),無需先對數(shù)據(jù)進行結(jié)構(gòu)化處理;可以對這些數(shù)據(jù)運行不同類型的分析,從數(shù)據(jù)儀表板和可視化數(shù)據(jù)展現(xiàn),到大數(shù)據(jù)處理、實時分析和機器學習,指導客戶做出更好的決策。
因此數(shù)據(jù)湖有如下兩大特點:
第一, 數(shù)據(jù)不限形態(tài),可以存儲原始的自然的數(shù)據(jù),可以是結(jié)構(gòu)化的,也可以是非結(jié)構(gòu)化的。
第二, 可快速縮放存下海量的數(shù)據(jù),并具備高可用,高持久、安全、合規(guī)等特性。
AWS推出兩大數(shù)據(jù)分析服務AWS Glue和Amazon Athena
由于數(shù)據(jù)湖的天然優(yōu)勢,近年來圍繞數(shù)據(jù)湖和大數(shù)據(jù)分析生態(tài),業(yè)界發(fā)展出包括Hadoop、MapReduce、Spark等在內(nèi)的一系列開源框架和組件,為組織搭建平臺和創(chuàng)新應用帶來了豐富的工具和方法。云服務商將數(shù)據(jù)湖技術(shù)引入拓展其服務范圍,更是順理成章。
近期,AWS宣布,在西云數(shù)據(jù)運營的AWS中國(寧夏)區(qū)域推出兩個重磅的數(shù)據(jù)分析服務AWS Glue和Amazon Athena,以完善其中國區(qū)域的數(shù)據(jù)湖解決方案。前者可以簡化數(shù)據(jù)提取、轉(zhuǎn)換和加載過程;后者可以通過通用的結(jié)構(gòu)化查詢語言,直接在數(shù)據(jù)湖中進行交互式數(shù)據(jù)查詢。
具體而言,AWS Glue是一種全托管的數(shù)據(jù)提取、轉(zhuǎn)換和加載(ETL)服務及元數(shù)據(jù)目錄,實現(xiàn)了數(shù)據(jù)分析準備工作的自動化,讓客戶從準備數(shù)據(jù)到開始分析的時間由幾個月縮短到幾分鐘。由于AWS Glue是無服務器服務,客戶在執(zhí)行ETL任務時,只需要為他們所消耗的計算資源付費。Amazon Athena則是一種交互式查詢服務,它讓客戶可以使用標準SQL語言、輕松分析Amazon S3中的數(shù)據(jù),幾秒鐘內(nèi)便可獲得查詢結(jié)果。
AWS云端大數(shù)據(jù)分析體系更趨完善
至此,AWS的云端大數(shù)據(jù)分析體系便趨于完善。既有面向大數(shù)據(jù)處理的Amazon EMR,用戶可在AWS上輕松運行Spark、Hadoop、Presto、Hbase等大數(shù)據(jù)分析;也擁有對應實時數(shù)據(jù)分析這一分析框架的重要組成部分Amazon Kinesis,可支持用戶輕松地實時收集、處理并分析視頻和流數(shù)據(jù);數(shù)據(jù)湖則可以與機器學習和人工智能結(jié)合,通過Amazon SageMaker開展更多自動化的預測性分析,充分釋放大數(shù)據(jù)的潛能。
上述產(chǎn)品及解決方案給合涵蓋了數(shù)據(jù)移動、數(shù)據(jù)存儲、數(shù)據(jù)湖、分析和機器學習五大維度,可針對各類現(xiàn)代應用和大數(shù)據(jù)分析場景,讓各行各業(yè)的用戶都在AWS上快速構(gòu)建,通過各種產(chǎn)品方案組合匹配需求。
茄子快傳是一家全球化的互聯(lián)網(wǎng)科技公司,累計有18億用戶。茄子快傳搭建了一個數(shù)字內(nèi)容連接入口,幫助全球200多個國家和地區(qū)的用戶獲取優(yōu)質(zhì)數(shù)字內(nèi)容。茄子快傳數(shù)據(jù)運營負責人何誠表示,“茄子快傳的數(shù)據(jù)量大,分析維度多,業(yè)務也非常復雜,所以經(jīng)常需要多維度多顆粒度的高并發(fā)分析,AWS的分析工具很好地滿足了我們?nèi)粘5臄?shù)據(jù)提取和分析需求。使用Amazon Athena,我們可以輕松地運行交互式查詢,分析數(shù)據(jù),不必構(gòu)建和部署額外的集群。同時,我們運行新數(shù)據(jù)分析所需的時間縮短了30%,大幅減少了成本與運維方面的風險。”
AWS首席云計算企業(yè)戰(zhàn)略顧問張俠博士指出:“Amazon Athena和AWS Glue服務將由西云數(shù)據(jù)運營的AWS中國(寧夏)區(qū)域推出, Athena完全不需要管理基礎(chǔ)設(shè)施,任何能夠編寫SQL查詢的人都能以高性價比的方式快速分析他們在Amazon S3中的數(shù)據(jù)。而隨著AWS Glue的正式上線,客戶可以輕松地從任意多的數(shù)據(jù)源傳輸和處理數(shù)據(jù),整合數(shù)據(jù)到數(shù)據(jù)湖,并且可以選用多種AWS分析服務,迅速開始分析所有數(shù)據(jù)。這極大的加快了AWS中國客戶對數(shù)據(jù)的響應需求。”