為給數(shù)據(jù)工程師提供更佳工具來開創(chuàng)生產(chǎn)數(shù)據(jù)通道,Databricks發(fā)布了Databrick數(shù)據(jù)工程新版本(Databricks for Data Engineering),其基于Apache Spark云平臺架構(gòu),特別為數(shù)據(jù)工程工作負(fù)載進(jìn)行了優(yōu)化。
Databricks為Apache Spark原班人馬所創(chuàng)建,其早先已提供過一個云版本來支持?jǐn)?shù)據(jù)科學(xué)工作負(fù)載。但是Databricks的CEO及聯(lián)合創(chuàng)始人Ali Ghodsi認(rèn)為公司近500企業(yè)級客戶和50,000社區(qū)版用戶正在尋求SQL、結(jié)構(gòu)化流、ETL和機(jī)器學(xué)習(xí)等均可以在Spark上運(yùn)行,并部署數(shù)據(jù)通道獲得產(chǎn)出。
模糊數(shù)據(jù)清洗
“他們所獲取的可能是模糊不準(zhǔn)的數(shù)據(jù),或者是錯誤數(shù)據(jù),所以他們正利用Spark去創(chuàng)造一個通道來清洗數(shù)據(jù),并將其結(jié)構(gòu)化。”Ghodsi表示,“這是我們最常見的真實案例,他們利用互動API來探索挖掘數(shù)據(jù)集,并將這些數(shù)據(jù)集即刻轉(zhuǎn)入生產(chǎn)數(shù)據(jù)通道且無人工干預(yù)。”
Ghodsi表示利用最新版本來構(gòu)建這些通道比以往的版本更具成本效率優(yōu)勢,可以節(jié)約50%至75%的成本。
Databrick數(shù)據(jù)工程最新版本包括以下特點:
· 性能優(yōu)化Databricks I/O (DBIO) 技術(shù)提供涵蓋范圍更廣的優(yōu)化Spark 版本,亦可接入優(yōu)化AWS S3訪問層。Databricks認(rèn)為DBIO十倍級加速了數(shù)據(jù)探索。
· 成本管理 集群管理功能,例如自主縮放和AWS Spot instances服務(wù)降低了運(yùn)營成本,避免了創(chuàng)建、配置和維護(hù)復(fù)合Spark架構(gòu)的耗時任務(wù)。“其自動決定了計算工作負(fù)載所需的最佳機(jī)器數(shù)量,”Ghodsi說道:“我們看到很多人無論何時都使用過多機(jī)器,他們很難算出他們的工作負(fù)載需要多少機(jī)器合適。”
· 優(yōu)化整合 平臺提供全套REST API 以編程方式來啟動集群和其他工作,以及整合從Amazon Redshift 和Amazon Kinesis到機(jī)器學(xué)習(xí)架構(gòu)例如谷歌的TensorFlow這些工具或者服務(wù)。一個集成的數(shù)據(jù)源目錄可以讓Databricks用戶直接獲得數(shù)據(jù)源,而不需重復(fù)工作。
· 企業(yè)級安全 Databrick數(shù)據(jù)工程內(nèi)置的安全標(biāo)準(zhǔn)涵括并符合SOC 2 Type 1認(rèn)證、HIPPA合規(guī)、端到端數(shù)據(jù)加密、AWS S3可調(diào)試詳細(xì)日志接入和IT管理功能,例如SAML2.0 單點登錄支持,集群、工作以及筆記本等不同接入控制權(quán)限設(shè)置。
· 數(shù)據(jù)科學(xué)整合 該平臺整合了Databricks的數(shù)據(jù)科學(xué)作業(yè)領(lǐng)域,使其將數(shù)據(jù)工程和互動數(shù)據(jù)科學(xué)工作負(fù)載之間無縫交互。
Ghodsi認(rèn)為最后一項特點尤其重要。“事實上在互動計算和生產(chǎn)通道之間的互相過渡非常難。我認(rèn)為擁有這種智力模型的人可以做兩件不同的事:你可以做互動分析,或者你也可以創(chuàng)建數(shù)據(jù)通道。這并不是常規(guī)開發(fā)者的工作,當(dāng)他們開發(fā)一個數(shù)據(jù)通道時,他們不得不探索數(shù)據(jù)并且做調(diào)試和測試,來確保這個數(shù)據(jù)通道的確在正常工作。在這個過程中,他們需要互動分析。”
在不同模式中穿行
當(dāng)你希望你的數(shù)據(jù)通道可以正常運(yùn)行而無需人工干預(yù)時,如果你遭遇問題,你需要能夠無縫進(jìn)入一個互動模式,然后再進(jìn)一步開發(fā)。
Ghodsi認(rèn)為:“我們想確信你可以非常容易地、無縫地在兩種模式中交互。”
“Databricks的數(shù)據(jù)工程最新版本使其更易開始于Spark——其提供了可適用于整合開發(fā)環(huán)境和部署通道的平臺,”Dollar Shave Club數(shù)據(jù)工程部工程經(jīng)理Brett Bevers說道。“我們從用Databricks的第一天起,就已經(jīng)整裝待發(fā),做好面對各種數(shù)據(jù)挑戰(zhàn)的準(zhǔn)備了。”
新套件已經(jīng)面世,定價基于數(shù)據(jù)工程工作負(fù)載的具體情況,例如ETL和自動工作(除AWS成本外,0.20美金/Databricks Unit)