而對于采用大數(shù)據(jù)來打包云計算,企業(yè)的團隊為此準備好了嗎?
即使企業(yè)在自己的數(shù)據(jù)中心內(nèi)采用大數(shù)據(jù),也不一定意味著他們將在云中取得成功。而且在大多數(shù)情況下,必須對工作人員進行培訓(xùn),讓其獲得新的工作技能。
調(diào)研機構(gòu)Enterprise Strategy Group的高級分析師Mike Leone表示,總體而言,云計算中的大數(shù)據(jù)可以降低內(nèi)部部署數(shù)據(jù)中心的成本,并非運行在云端的大數(shù)據(jù)工作負載或項目都需要企業(yè)擁有一名大數(shù)據(jù)專家,但也有一些企業(yè)需要數(shù)據(jù)專家的幫助,例如涉及Hadoop。
Leone表示,雖然在云端使用五節(jié)點集群替換五節(jié)點Hadoop集群非常簡單,但卻出現(xiàn)了管理方面的挑戰(zhàn),尤其是軟件互操作性方面的管理挑戰(zhàn)。
云端獲得大數(shù)據(jù)的四大技能
根據(jù)IT培訓(xùn)機構(gòu)Linux Academy公司的大數(shù)據(jù)分析主管Manisha Sule的說法,IT團隊?wèi)?yīng)該把重點放在四大技能上,以便在云計算領(lǐng)域運行大數(shù)據(jù)。
(1)管理:工作人員知道如何管理Hadoop和NoSQL變得至關(guān)重要。工作人員還需要仔細配置和管理(諸如計算、存儲和網(wǎng)絡(luò)等)基礎(chǔ)設(shè)施組件,以支持大數(shù)據(jù)項目。Sule說,使用Hadoop分布式文件系統(tǒng)和NoSQL數(shù)據(jù)庫的經(jīng)驗也是有幫助的,這兩者都可以存儲大量的數(shù)據(jù)。
(2)開發(fā):Sule表示,大數(shù)據(jù)開發(fā)人員應(yīng)該具有Python、Scala和Java等語言的編程經(jīng)驗。此外,具有使用亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)Kinesis和Lambda等產(chǎn)品的經(jīng)驗也是一個優(yōu)勢,因為它們提供了基于微服務(wù)架構(gòu)的實時處理的替代方案。
(3)分析:云端大數(shù)據(jù)分析需要統(tǒng)計學(xué)、數(shù)據(jù)挖掘、機器學(xué)習(xí)、操作研究、計算機編程方面的專業(yè)知識。Sule說,數(shù)據(jù)科學(xué)家和分析師以及機器學(xué)習(xí)和人工智能工程師需要學(xué)習(xí)如何構(gòu)建算法,然后將這些算法實現(xiàn)自動化以處理大量的實時數(shù)據(jù)。
(4)可視化:可視化開發(fā)人員設(shè)計儀表板,講述組織收集的大數(shù)據(jù)的故事。這個角色的IT專業(yè)人員需要訪問不同的數(shù)據(jù)源,并將其整合到統(tǒng)一的交互式平臺中。
Sule指出,雖然有一些課程可以幫助掌握這四項技能,但對于IT專業(yè)人員來說,最好采取邊做邊學(xué)的方法。云計算也適合采用這種模式。
Sule說:“在人們準備充分的時候,可以輕松地注冊一個試用賬戶,直接感受到可用的服務(wù)。許多正式課程的內(nèi)容也涉及實踐經(jīng)驗。”
Cloud Technology Partners首席架構(gòu)師Muhammad Nabeel表示,IT團隊也應(yīng)該為提供商提供的多種云服務(wù)結(jié)合起來做好準備,以支持大數(shù)據(jù)計劃。他說:“企業(yè)需要詳細了解它們并一起實施。”
根據(jù)Nabeel的說法,在三家行業(yè)領(lǐng)先的公共云提供商云平臺上運行的關(guān)鍵的大數(shù)據(jù)服務(wù)包括:
•微軟Azure:在微軟Azure上使用Hadoop、Spark、R Server、HBase,以及Storm群集的HDInsight。
•谷歌云平臺:用于分析數(shù)據(jù)倉庫的BigQuery,用于批量和流處理的云數(shù)據(jù)流,用于托管Hadoop和Spark的Cloud Dataproc,以及用于數(shù)據(jù)挖掘的Cloud Datalab。
•AWS云平臺:使用Hadoop和Spark的Elastic MapReduce; Athena在簡單存儲服務(wù)中進行分析; Elasticsearch集群。
除了第三方培訓(xùn)選項外,云計算提供商還提供有用的學(xué)習(xí)功能以加速采用。例如,在谷歌云計算控制平臺中,有一個“試用”功能的例子。
Nabeel認為,實踐經(jīng)驗有很長的路要走。他說:“學(xué)習(xí)一門課程是有幫助的,但如果課程真正涉及到工作人員所需要的具體知識時,并不總是能夠解決問題。”
網(wǎng)絡(luò)流量分析提供商Kentik公司聯(lián)合創(chuàng)始人兼首席執(zhí)行官Avi Freedman表示,雖然提供特定于供應(yīng)商的大型數(shù)據(jù)工具的知識非常重要,但組織也應(yīng)該努力在多個云平臺上使其團隊的技能多樣化。過于依賴單一供應(yīng)商的企業(yè)有些短視,因為現(xiàn)在市場上沒有明顯的贏家。
Freedman說,“這意味著企業(yè)將會開發(fā)一個沒有長期需求的技能。”更好的方法是學(xué)習(xí)云計算中與大數(shù)據(jù)有關(guān)的一般概念,如分布式系統(tǒng)和數(shù)據(jù)庫。
他說:“一旦有了這些,學(xué)習(xí)特定的云服務(wù)提供商的技術(shù)和知識應(yīng)該是非常容易的。此外,在任何云計算環(huán)境中,請務(wù)必徹底理解自己將要訪問和使用該數(shù)據(jù)的所有不同方式,例如從應(yīng)用程序類型到存儲的數(shù)據(jù)類型。”
他說:“如果發(fā)展這種關(guān)系的個人或者團隊不了解這個過程中的商業(yè)需求,那么這個過程會變得很難。” 就像開發(fā)任何新的IT項目一樣,只有求知欲和良好判斷的組織還有很長的路要走。
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。