亚洲免费av一区二区三区,泡泡影视,2021天堂在线亚洲精品专区

三個理由告訴你為什么需要在云端運行Spark

責任編輯：editor005

作者：布加迪編譯

2015-06-23 13:45:20

摘自：51CTO

我采訪了Databricks公司的客戶互動副總裁Arsalan Tavakoli，請他談談Spark和數(shù)據(jù)分析技術如何成為強大的組合。為此，商業(yè)智能可視化應用程序再理想不過，而Zoomdata證明了它很適合我們的云。

Spark的發(fā)展勢頭正猛，可是對主流用戶們來說還是太難了。云外加可視化也許有所幫助。

需要在云端運行Spark的三個理由

開源項目Apache Spark如今可能是從加州大學伯克利分校的AMP實驗室孕育而來的最有名的項目。AMP實驗室置身于機器學習、云計算和眾包這三大潮流的交匯處，正在結合算法、機器和人員三者的力量，充分解讀大數(shù)據(jù)。

開發(fā)Spark的初衷是擴展AMP實驗室另一個項目Apache Mesos的功能，沒想到迅速流行起來，幾位開發(fā)者在2013年開了一家初創(chuàng)企業(yè)：Databricks，出資方是知名風投機構Andreessen Horowitz，通過主機托管的云平臺來提供Spark，因而讓數(shù)據(jù)專業(yè)人員很容易充分發(fā)揮Spark的功能。

作為一種替代Hadoop的MapReduce，并用來處理大數(shù)據(jù)的技術，Spark具有極大的吸引力。它結合了速度、易于使用的編程模型和統(tǒng)一設計，讓用戶能夠將交互式查詢、流式分析、機器學習和圖形計算合并到單一系統(tǒng)里面。

將這種功能放到云端，又提供一種單一而出色的用戶體驗，你就為從事數(shù)據(jù)探查和構建端到端數(shù)據(jù)管道的任何人提供了一種殺手級平臺。使用從頭開始為大數(shù)據(jù)開發(fā)的可視化分析應用程序，比如Zoomdata，你就有了一種殺手級價值主張，可以進行超快速的商業(yè)智能(BI)可視化分析。

我采訪了Databricks公司的客戶互動副總裁Arsalan Tavakoli，請他談談Spark和數(shù)據(jù)分析技術如何成為強大的組合。

為何Spark放在云端?既然我下載Spark后可以在內部本地運行Spark，為何還需要向Databricks租用Spark呢?

Tavakoli：很顯然，Spark是作為一種開源產品來提供的。誰都可以從眾多供應商處下載，并使用它。但是我們考察了大數(shù)據(jù)項目失敗的客戶后，發(fā)現(xiàn)通常有三個原因可以解釋項目為何會失敗。

首先，基礎設施管理很難。如果是在內部本地運行，你要考慮6到9個月的過渡期，才能讓大數(shù)據(jù)基礎設施投入到生產環(huán)境，有時需要更長的時間。即便你在亞馬遜網絡服務(AWS)上運行Spark，也得編寫EC2腳本，讓開發(fā)運營(DevOps)人員參與其中。這并不好。

切記，基礎設施很難。而許多公司求助于Spark，很大程度上是由于其快速的創(chuàng)新周期。它們想獲得由數(shù)百人貢獻代碼、一直日臻完善的這樣一項技術帶來的好處。這意味著，這也是一項迅速前進的技術。你的團隊需要花多長時間才能將最新版本部署并運行起來?

其次，一旦你的Spark集群安搭建并運行起來，該如何處理它?數(shù)據(jù)科學家往往使用偏愛的語言，比如R和Python。現(xiàn)在，他們不得不弄清楚如何導入數(shù)據(jù)，如何讓任務盡快運行起來。處理獨立式Spark所必不可少的工具鏈可能對這些用戶來說難以使用。你又該如何運行你的分析技術、與同事合作呢?

這并非易事。

第三，在你全面測試了查詢和模型后，你想進入到生產環(huán)境――這個過程看起來像什么?在大多數(shù)公司，這意味著將你的模型交給工程團隊，這支團隊回過頭去，將你認為需要的特性重新實施到所有新的基礎設施上。

像Databricks這樣的云平臺提供了一套集成的、主機托管的解決方案，消除了企業(yè)采用Spark和確保大數(shù)據(jù)項目成功所面臨的這三大障礙。我們?yōu)槟闾峁┝巳婀芾砗驼{優(yōu)的Spark集群，開發(fā)Spark的一群專家在大力支持。我們的平臺為你提供了一種互動式工作區(qū)域，以便探查、可視化、合作和發(fā)布。如果你已準備好進入生產環(huán)境，只要點擊一下鼠標即可啟動任務。我們會自動搭建基礎設施。

另外，我們還提供了一組豐富的API，以便通過編程訪問該平臺，這還讓用戶能夠無縫整合第三方應用程序。

請說一下為何客戶們想要在云端進行商業(yè)智能可視化。有沒有特別的原因可以解釋交付的這種平臺最適合商業(yè)智能可視化?

Tavakoli：人們想要使用數(shù)據(jù)來獲得洞察力，以便深入了解公司業(yè)務，而數(shù)據(jù)工程師和數(shù)據(jù)科學家致力于提供這種洞察力。但是除非你是像Pinterest、Netflix或Facebook這樣的技術型公司，否則他們(數(shù)據(jù)工程師和數(shù)據(jù)科學家)只是任何企業(yè)組織的一小部分。業(yè)務分析員和最終用戶這個用戶群要大得多。

比如說，營銷部門的人想對數(shù)據(jù)進行大致的交叉分析，可是苦于沒有相應的技術技能。他們就想在受到嚴重制約的決策空間獲得儀表板或諸如此類的工具。

明智的公司知道，自己應該幫助員工能夠自我管理。這時候，商業(yè)智能可視化可以發(fā)揮其作用。你可能會需要一款針對特定領域的應用程序。

這么說來，這是貴公司與Zoomdata達成合作伙伴的原因?Databricks Cloud的用戶可以從這種合作關系中得到原本得不到的哪些好處?

Tavakoli：我們的客戶使用場合與Zoomdata存在諸多重疊之處。許多這些企業(yè)是典型的早期采用者，它們高度依賴數(shù)據(jù)工程師和數(shù)據(jù)科學家。所有這些企業(yè)組織還有一個主要的商業(yè)智能倉庫組件。

但是這些公司可能會問自己的下一個問題是：我如何才能讓這對更多的用戶來說更簡單?我擁有所有這些數(shù)據(jù)，可以用Spark來處理，如何才能提供給不是開發(fā)人員的那些用戶呢?

為此，商業(yè)智能可視化應用程序再理想不過，而Zoomdata證明了它很適合我們的云。

您在這種Databricks/Zoomdata聯(lián)合解決方案方面看到一些常見的使用場合有哪些?

Tavakoli：一種常見的使用場合是廣告技術(AdTech)垂直領域。

廣告技術公司通常有下列流程：它們從眾多來源匯集數(shù)據(jù)，建立起內部數(shù)據(jù)庫，然后這些數(shù)據(jù)通過又長又深的抽取、轉換和加載(ETL)管道，轉換成經過處理的形式。

隨后，每個客戶提供來自CRM和營銷自動化系統(tǒng)的數(shù)據(jù)，這些數(shù)據(jù)需要與該內部數(shù)據(jù)庫結合起來，才能解答營銷活動效果方面的問題。這個過程由全面檢驗了深入理論的數(shù)據(jù)工程師和數(shù)據(jù)科學家來處理。

另一方面，數(shù)據(jù)分析師和產品經理們想要提出更大致的問題，比如產品中哪項功能最有效，或者他們想知道移動廣告的效果怎樣。這一群用戶在使用Zoomdata之類的商業(yè)智能用戶界面時得心應手。

另一種使用場合是物聯(lián)網。Automatic Labs等公司獲取來自汽車里面所有設備的全部數(shù)據(jù)。數(shù)據(jù)科學家分析與汽車、成本和駕駛模式有關的基本趨勢方面的更深入問題。