如果云計(jì)算是一個(gè)容器,大數(shù)據(jù)就是這個(gè)容器里的水!

責(zé)任編輯:editor006

2016-09-08 18:07:01

摘自:中國(guó)智能制造網(wǎng)

云計(jì)算技術(shù)就是一個(gè)容器,大數(shù)據(jù)正是存放在這個(gè)容器中的水,大數(shù)據(jù)是要依靠云計(jì)算技術(shù)來進(jìn)行存儲(chǔ)和計(jì)算的。大數(shù)據(jù)正是因?yàn)閿?shù)據(jù)的爆發(fā)式增長(zhǎng)帶來的一個(gè)新的課題內(nèi)容,如何存儲(chǔ)如今互聯(lián)網(wǎng)時(shí)代所產(chǎn)生的海量數(shù)據(jù),如何有效的利用分析這些數(shù)據(jù)等等。

云計(jì)算技術(shù)就是一個(gè)容器,大數(shù)據(jù)正是存放在這個(gè)容器中的水,大數(shù)據(jù)是要依靠云計(jì)算技術(shù)來進(jìn)行存儲(chǔ)和計(jì)算的。

大數(shù)據(jù)

  1、云計(jì)算與大數(shù)據(jù)是什么關(guān)系?

云計(jì)算的關(guān)鍵詞在于“整合”,無論你是通過現(xiàn)在已經(jīng)很成熟的傳統(tǒng)的虛擬機(jī)切分型技術(shù),還是通過google后來所使用的海量節(jié)點(diǎn)聚合型技術(shù),他都是通過將海量的服務(wù)器資源通過網(wǎng)絡(luò)進(jìn)行整合,調(diào)度分配給用戶,從而解決用戶因?yàn)榇鎯?chǔ)計(jì)算資源不足所帶來的問題。

大數(shù)據(jù)正是因?yàn)閿?shù)據(jù)的爆發(fā)式增長(zhǎng)帶來的一個(gè)新的課題內(nèi)容,如何存儲(chǔ)如今互聯(lián)網(wǎng)時(shí)代所產(chǎn)生的海量數(shù)據(jù),如何有效的利用分析這些數(shù)據(jù)等等。

他倆之間的關(guān)系你可以這樣來理解,云計(jì)算技術(shù)就是一個(gè)容器,大數(shù)據(jù)正是存放在這個(gè)容器中的水,大數(shù)據(jù)是要依靠云計(jì)算技術(shù)來進(jìn)行存儲(chǔ)和計(jì)算的。

兩者關(guān)系:

首先,云計(jì)算是提取大數(shù)據(jù)的前提。

信息社會(huì),數(shù)據(jù)量在不斷增長(zhǎng),技術(shù)在不斷進(jìn)步,大部分企業(yè)都能通過大數(shù)據(jù)獲得額外利益。在海量數(shù)據(jù)的前提下,如果提取、處理和利用數(shù)據(jù)的成本超過了數(shù)據(jù)價(jià)值本身,那么有價(jià)值相當(dāng)于沒價(jià)值。來自公有云、私有云以及混合云之上的強(qiáng)大的云計(jì)算能力,對(duì)于降低數(shù)據(jù)提取過程中的成本不可或缺。

其次,云計(jì)算是過濾無用信息的“神器”.

首次收集的數(shù)據(jù)中,一般而言,90%屬于無用數(shù)據(jù),因此需要過濾出能為企業(yè)提供經(jīng)濟(jì)利益的可用數(shù)據(jù)。在大量無用數(shù)據(jù)中,重點(diǎn)需過濾出兩大類,一是大量存儲(chǔ)著的臨時(shí)信息,幾乎不存在投入必要;二是從公司防火墻外部接入到內(nèi)部的網(wǎng)絡(luò)數(shù)據(jù),價(jià)值極低。云計(jì)算可以提供按需擴(kuò)展的計(jì)算和存儲(chǔ)資源,可用來過濾掉無用數(shù)據(jù),其中公有云是處理防火墻外部網(wǎng)絡(luò)數(shù)據(jù)的最佳選擇。

再次,云計(jì)算可高效分析數(shù)據(jù)。

數(shù)據(jù)分析階段,可引入公有云和混合云技術(shù),此外,類似Hadoop的分布式處理軟件平臺(tái)可用于數(shù)據(jù)集中處理階段。當(dāng)完成數(shù)據(jù)分析后,提供分析的原始數(shù)據(jù)不需要一直保留,可以使用私有云把分析處理結(jié)果,即可用信息導(dǎo)入公司內(nèi)部。

最后,云計(jì)算助力企業(yè)管理虛擬化。

可用信息最終用來指導(dǎo)決策,通過將軟件即服務(wù)應(yīng)用于云平臺(tái)中,可將可用信息轉(zhuǎn)化到企業(yè)現(xiàn)有系統(tǒng)中,幫助企業(yè)強(qiáng)化管理模式。

上升到我國(guó)互聯(lián)網(wǎng)整體發(fā)展層面,雖然我國(guó)在互聯(lián)網(wǎng)服務(wù)方面具有領(lǐng)先的優(yōu)勢(shì),然而,越來越多的企業(yè)認(rèn)識(shí)到,與云計(jì)算的結(jié)合將使大數(shù)據(jù)分析變得更簡(jiǎn)單,未來幾年,如能在大數(shù)據(jù)與云計(jì)算結(jié)合領(lǐng)域進(jìn)行深入探索,將使我們?cè)谌蚴袌?chǎng)更具競(jìng)爭(zhēng)力,這是非常關(guān)鍵的問題。

2、大數(shù)據(jù)需要什么人才?

大數(shù)據(jù)需要以下六類人才:

(1)大數(shù)據(jù)系統(tǒng)研發(fā)工程師

這一專業(yè)人才負(fù)責(zé)大數(shù)據(jù)系統(tǒng)研發(fā),包括大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)業(yè)務(wù)模型構(gòu)建、大數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)庫構(gòu)設(shè)、優(yōu)化數(shù)據(jù)庫構(gòu)架、解決數(shù)據(jù)庫中心設(shè)計(jì)等,同時(shí),還要負(fù)責(zé)數(shù)據(jù)集群的日常運(yùn)作和系統(tǒng)的監(jiān)測(cè)等,這一類人才是任何構(gòu)設(shè)大數(shù)據(jù)系統(tǒng)的機(jī)構(gòu)都必須的。

(2)大數(shù)據(jù)應(yīng)用開發(fā)工程師

此類人才負(fù)責(zé)搭建大數(shù)據(jù)應(yīng)用平臺(tái)以及開發(fā)分析應(yīng)用程序,他們必須熟悉工具或算法、編程、優(yōu)化以及部署不同的MapReduce,他們研發(fā)各種基于大數(shù)據(jù)技術(shù)的應(yīng)用程序及行業(yè)解決方案。其中,ETL開發(fā)者是很搶手的人才,他們所做的是從不同的源頭抽取數(shù)據(jù),轉(zhuǎn)換并導(dǎo)入數(shù)據(jù)倉庫以滿足企業(yè)的需要,將分散的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ),為提取各類型的需要數(shù)據(jù)創(chuàng)造條件。

(3)大數(shù)據(jù)分析師

此類人才主要從事數(shù)據(jù)挖掘工作,運(yùn)用算法來解決和分析問題,讓數(shù)據(jù)顯露出真相,同時(shí),他們還推動(dòng)數(shù)據(jù)解決方案的不斷更新。隨著數(shù)據(jù)集規(guī)模不斷增大,企業(yè)對(duì)Hadoop及相關(guān)的廉價(jià)數(shù)據(jù)處理技術(shù)如Hive、HBase、MapReduce、Pig等的需求將持續(xù)增長(zhǎng),具備Hadoop框架經(jīng)驗(yàn)的技術(shù)人員是最搶手的大數(shù)據(jù)人才,他們所從事的是熱門的分析師工作。

(4)數(shù)據(jù)可視化工程師

此類人才負(fù)責(zé)在收集到的高質(zhì)量數(shù)據(jù)中,利用圖形化的工具及手段的應(yīng)用,清楚地揭示數(shù)據(jù)中的復(fù)雜信息,幫助用戶更好地進(jìn)行大數(shù)據(jù)應(yīng)用開發(fā),如果能使用新型數(shù)據(jù)可視化工具如Spotifre,Qlikview和Tableau,那么,就成為很受歡迎的人才。

(5)數(shù)據(jù)安全研發(fā)人才

此類人才主要負(fù)責(zé)企業(yè)內(nèi)部大型服務(wù)器、存儲(chǔ)、數(shù)據(jù)安全管理工作,并對(duì)網(wǎng)絡(luò)、信息安全項(xiàng)目進(jìn)行規(guī)劃、設(shè)計(jì)和實(shí)施,而對(duì)于數(shù)據(jù)安全方面的具體技術(shù)的人才就更需要了,如果數(shù)據(jù)安全技術(shù),同時(shí)又具有較強(qiáng)的管理經(jīng)驗(yàn),能有效地保證大數(shù)據(jù)構(gòu)設(shè)和應(yīng)用單位的數(shù)據(jù)安全,那就是搶手的人才

(6)數(shù)據(jù)科學(xué)研究人才

數(shù)據(jù)科學(xué)研究是一個(gè)全新的工作,夠?qū)挝?、企業(yè)的數(shù)據(jù)和技術(shù)轉(zhuǎn)化為有用的商業(yè)價(jià)值,隨著大數(shù)據(jù)時(shí)代的到來,越來越多的工作、事務(wù)直接涉及或針對(duì)數(shù)據(jù),這就需要有數(shù)據(jù)科學(xué)方面的研究專家來進(jìn)行研究,通過研究,他們能將數(shù)據(jù)分析結(jié)果解釋給IT部門和業(yè)務(wù)部門管理者聽,數(shù)據(jù)科學(xué)專家是聯(lián)通海量數(shù)據(jù)和管理者之間的橋梁,需要有數(shù)據(jù)專業(yè)、分析師能力和管理者的知識(shí),這也是搶手的人才。

3、大數(shù)據(jù)行業(yè)的從業(yè)者是從哪獲得數(shù)據(jù)的?

大數(shù)據(jù)行業(yè)的從業(yè)者有多種途徑獲得數(shù)據(jù),也就是我們常說的數(shù)據(jù)源,具體有一下幾種:

(1)數(shù)據(jù)(政府部門或企業(yè)直接提供的數(shù)據(jù)或數(shù)據(jù)接口);

(2)半數(shù)據(jù):如各類行業(yè)協(xié)會(huì),俱樂部;

(3)各個(gè)平臺(tái)的數(shù)據(jù):如淘寶網(wǎng)、京東、唯品會(huì),有些會(huì)免費(fèi)開發(fā)數(shù)據(jù),還有一部分是付費(fèi)的數(shù)據(jù)軟件;

(4)再然后就是從業(yè)者自己收集的數(shù)據(jù),一般都是用一些數(shù)據(jù)采集工具或軟件,工具如:爬蟲軟件,百度蜘蛛等;

(5)最后就是購買的數(shù)據(jù),一般有一些專門數(shù)據(jù)采集的機(jī)構(gòu),像像艾瑞、浪潮,以及傳統(tǒng)的調(diào)研企業(yè)。

數(shù)據(jù)的獲取方式有很多種,同樣,數(shù)據(jù)的使用方式也有很多種,比如說行業(yè)銷售趨勢(shì),有人用銷售額數(shù)據(jù),有人用銷量數(shù)據(jù)。數(shù)據(jù)就像一個(gè)任人打扮的姑娘,使用的人會(huì)選取自己想要的數(shù)據(jù)來展示,所以考量數(shù)據(jù)的真實(shí)性,一個(gè)是數(shù)據(jù)來源,還有就是數(shù)據(jù)的選擇是否合理。

4、大數(shù)據(jù)分析的常用方法有哪些?

(1)AnalyticVisualizations(可視化分析)

不管是對(duì)數(shù)據(jù)分析專家還是普通用戶,數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求??梢暬梢灾庇^的展示數(shù)據(jù),讓數(shù)據(jù)自己說話,讓觀眾聽到結(jié)果。

(2)DataMiningAlgorithms(數(shù)據(jù)挖掘算法)

可視化是給人看的,數(shù)據(jù)挖掘就是給機(jī)器看的。集群、分割、孤立點(diǎn)分析還有其他的算法讓我們深入數(shù)據(jù)內(nèi)部,挖掘價(jià)值。這些算法不僅要處理大數(shù)據(jù)的量,也要處理大數(shù)據(jù)的速度。

(3)PredictiveAnalyticCapabilities(預(yù)測(cè)性分析能力)

數(shù)據(jù)挖掘可以讓分析員更好的理解數(shù)據(jù),而預(yù)測(cè)性分析可以讓分析員根據(jù)可視化分析和數(shù)據(jù)挖掘的結(jié)果做出一些預(yù)測(cè)性的判斷。

(4)SemanticEngines(語義引擎)

由于非結(jié)構(gòu)化數(shù)據(jù)的多樣性帶來了數(shù)據(jù)分析的新的挑戰(zhàn),需要一系列的工具去解析,提取,分析數(shù)據(jù)。語義引擎需要被設(shè)計(jì)成能夠從“文檔”中智能提取信息。

(5)DataQualityandMasterDataManagement(數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理)

數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理是一些管理方面的最佳實(shí)踐。通過標(biāo)準(zhǔn)化的流程和工具對(duì)數(shù)據(jù)進(jìn)行處理可以保證一個(gè)預(yù)先定義好的高質(zhì)量的分析結(jié)果。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)