登頂財(cái)富500強(qiáng)
一個(gè)標(biāo)志性時(shí)刻即將來(lái)臨
近日,IT媒體《eWEEK》發(fā)表一篇文章認(rèn)為,在2020年,財(cái)富500強(qiáng)上的前十大公司中,有八家與石油或能源相關(guān)。這一事實(shí)清楚地表明了石油在當(dāng)今世界的主導(dǎo)地位,即在過(guò)去100年來(lái),石油是推動(dòng)全球經(jīng)濟(jì)增長(zhǎng)的核心驅(qū)動(dòng)力。
然而這一情況即將發(fā)生轉(zhuǎn)變。預(yù)計(jì)在2022年,按收入計(jì)算,亞馬遜將登頂全球財(cái)富500強(qiáng)。這也許是一個(gè)標(biāo)志性事件,意味著世界從以能源和石油為基礎(chǔ)的經(jīng)濟(jì)轉(zhuǎn)向數(shù)據(jù)驅(qū)動(dòng)型經(jīng)濟(jì)。
文章表示,到2030年,包括蘋(píng)果、特斯拉、谷歌在內(nèi),全球財(cái)富十大公司中,有8家可能是數(shù)據(jù)驅(qū)動(dòng)型公司。正如中東和蘇伊士運(yùn)河在石油時(shí)代具有重要戰(zhàn)略地位,數(shù)據(jù)也將數(shù)字時(shí)代重要的“戰(zhàn)略資源”。
這也是如此之多的企業(yè)在數(shù)字化道路上狂飆突進(jìn)的原因,掌握數(shù)據(jù)即是預(yù)見(jiàn)未來(lái),才能在競(jìng)爭(zhēng)中占領(lǐng)“制高點(diǎn)”。
數(shù)據(jù)價(jià)值如何挖掘
當(dāng)然,光有數(shù)據(jù)還不夠,正如石油本身并沒(méi)有什么作用,而是需要提煉、加工,才能把石油變作燃料、化纖、塑料等等。數(shù)據(jù)本身也沒(méi)有價(jià)值,只有經(jīng)過(guò)收集、整理和分析,將數(shù)據(jù)轉(zhuǎn)化為見(jiàn)解,才能真正驅(qū)動(dòng)商業(yè)價(jià)值。
在這里,“數(shù)據(jù)湖”三個(gè)字你一定不會(huì)陌生,這個(gè)最早在2010年由Pentaho創(chuàng)始人James Dixon提出,并這樣解釋這個(gè)概念“
如果你將數(shù)據(jù)集市視為瓶裝水的存儲(chǔ)——經(jīng)過(guò)清洗、包裝和組織以方便消費(fèi),數(shù)據(jù)湖是一個(gè)處于更自然狀態(tài)的大水體。來(lái)自源頭的內(nèi)容流補(bǔ)充到湖中,各類(lèi)客戶(hù)可以來(lái)湖中檢測(cè)、探索以及獲取樣本。
”
不幸的是,數(shù)據(jù)湖的發(fā)展并非一帆風(fēng)順,因?yàn)樵缙诘母拍罾铮?數(shù)據(jù)湖更多地是關(guān)于當(dāng)企業(yè)在處理海量異構(gòu)的數(shù)據(jù)時(shí),如何在數(shù)據(jù)產(chǎn)生實(shí)際的應(yīng)用價(jià)值之前,為海量數(shù)據(jù)構(gòu)建一個(gè)易訪(fǎng)問(wèn)且成本低的存儲(chǔ)方式。
用戶(hù)把數(shù)據(jù)扔進(jìn)湖中,然后任其自生自滅,已經(jīng)有多次公開(kāi)的失敗證明這種方法是錯(cuò)誤的,一些早期采用者看到他們的數(shù)據(jù)湖迅速演變?yōu)楣芾聿簧苹驘o(wú)人管理的數(shù)據(jù)沼澤。
隨著時(shí)間的推移,今天用于實(shí)施數(shù)據(jù)湖的技術(shù)和方法已經(jīng)趨于成熟。數(shù)據(jù)湖作為大數(shù)據(jù)和人工智能技術(shù)基礎(chǔ)架構(gòu)發(fā)展的趨勢(shì),不僅提供了海量數(shù)據(jù)的存儲(chǔ)能力,同時(shí)也為上層的數(shù)據(jù)處理提供了高效統(tǒng)一的數(shù)據(jù)管理引擎。
數(shù)據(jù)湖的主要特點(diǎn):
? 第一:存儲(chǔ)原始數(shù)據(jù),這些原始數(shù)據(jù)來(lái)源非常豐富;
? 第二:支持多種計(jì)算模型;
? 第三:有完善的數(shù)據(jù)管理能力,要能做到多種數(shù)據(jù)源接入,實(shí)現(xiàn)不同數(shù)據(jù)之間的連接,支持Schema管理和權(quán)限管理等;
? 第四:靈活的底層存儲(chǔ),一般用s3、hdfs這種分布式文件系統(tǒng),采用特定的文件格式和緩存,滿(mǎn)足對(duì)應(yīng)場(chǎng)景的數(shù)據(jù)分析需求。
技術(shù)上,數(shù)據(jù)湖不僅包括Hadoop,還包括其他傳統(tǒng)和新興大數(shù)據(jù)技術(shù)。下圖所示的是典型數(shù)據(jù)湖結(jié)構(gòu):在一個(gè)數(shù)據(jù)湖解決方案中,用戶(hù)通過(guò)諸如Apache Flink等平臺(tái),通過(guò)自帶的數(shù)據(jù)定義或者第三方框架的數(shù)據(jù)定義,對(duì)存儲(chǔ)在存儲(chǔ)層的數(shù)據(jù)進(jìn)行管理,包括查詢(xún)和修改等。
其中,Apache Iceberg則是一個(gè)新興的數(shù)據(jù)定義框架,它適配了多個(gè)計(jì)算引擎,并具備了極強(qiáng)的擴(kuò)展性,使得存儲(chǔ)層可以對(duì)其進(jìn)行適配。
與Apache Iceberg結(jié)合
戴爾推出對(duì)象數(shù)據(jù)湖解決方案
Iceberg與Delta、Apache Hudi并稱(chēng)為當(dāng)前主流的三大開(kāi)源數(shù)據(jù)湖方案。其特點(diǎn)是表元數(shù)據(jù)非常簡(jiǎn)單,僅僅包括當(dāng)前表的名稱(chēng)和版本信息。所有的Schema和Properties都由Iceberg自身進(jìn)行管理。
并且,Iceberg支持多種表的操作,包括從表中查詢(xún)數(shù)據(jù)、向表中插入數(shù)據(jù)、更新表中的數(shù)據(jù)、刪除指定行的數(shù)據(jù)和刪除指定條件的數(shù)據(jù)等。
Iceberg架構(gòu)
而為了全面擁抱數(shù)據(jù)湖,戴爾易安信對(duì)象存儲(chǔ)ECS與Apache Iceberg結(jié)合,推出對(duì)象數(shù)據(jù)湖解決方案。該方案實(shí)現(xiàn)了table-format的數(shù)據(jù)訪(fǎng)問(wèn)接口,在數(shù)據(jù)加速、小文件、多地部署以及存儲(chǔ)效率上具備優(yōu)越的特性。
關(guān)于ECS
戴爾易安信ECS是完全軟件定義的云存儲(chǔ)平臺(tái),專(zhuān)為滿(mǎn)足移動(dòng)、云、大數(shù)據(jù)和社交網(wǎng)絡(luò)應(yīng)用程序需求而設(shè)計(jì),支持在商用硬件上大規(guī)模存儲(chǔ)、操作和分析非結(jié)構(gòu)化數(shù)據(jù)。
數(shù)據(jù)湖在本質(zhì)上,是一種企業(yè)數(shù)據(jù)架構(gòu)方法,物理實(shí)現(xiàn)上則是一個(gè)數(shù)據(jù)存儲(chǔ)平臺(tái)。ECS對(duì)象存儲(chǔ)作為數(shù)據(jù)湖底層存儲(chǔ)方案,用此方案可以將數(shù)據(jù)湖的元數(shù)據(jù)和數(shù)據(jù)都直接對(duì)接對(duì)象存儲(chǔ),充分利用對(duì)象存儲(chǔ)提供的原生優(yōu)勢(shì),并且無(wú)需部署額外的元數(shù)據(jù)管理服務(wù),提供了更大的部署便利性。同時(shí)利用Iceberg良好的Table Format語(yǔ)義,用于幫助用戶(hù)組織數(shù)據(jù)。
根據(jù)測(cè)試驗(yàn)證,單節(jié)點(diǎn)S3寫(xiě)性能10KB大小的數(shù)據(jù)能達(dá)到1萬(wàn)以上TPS,100MB大小的數(shù)據(jù)能達(dá)到1GB以上帶寬。單節(jié)點(diǎn) S3讀性能10KB大小的數(shù)據(jù)能達(dá)到3萬(wàn)以上TPS,100MB大小的數(shù)據(jù)能達(dá)到5GB以上帶寬。成為企業(yè)構(gòu)建統(tǒng)一數(shù)據(jù)湖存儲(chǔ),并在其上構(gòu)建多種形式分析的理想方案。
為了更好支持該解決方案的執(zhí)行,還發(fā)布了相關(guān)白皮書(shū),讀者可復(fù)制下方鏈接至瀏覽器打開(kāi),下載白皮書(shū),了解更多內(nèi)容: