馬云說(shuō)過“未來(lái)的制造業(yè)要的不是石油,數(shù)據(jù)才是最大的能源。如果不去思考和把握未來(lái)的大數(shù)據(jù)時(shí)代,那么從技術(shù)上來(lái)說(shuō),我們依舊生活在昨天。“大數(shù)據(jù)時(shí)代,已勢(shì)如破竹。在這個(gè)巨大的可以共同展望未來(lái)的時(shí)代里面,企業(yè)只有積極擁抱數(shù)據(jù),善于利用資源,才能避免淪為市場(chǎng)的淘汰者。
什么是大數(shù)據(jù)
大數(shù)據(jù)英文為Big Data,早期起源于Google的MapReduce項(xiàng)目,用于減少數(shù)據(jù)集合,提煉價(jià)值數(shù)據(jù)。美國(guó)咨詢公司麥肯錫McKinsey在報(bào)告中給大數(shù)據(jù)做了以下定義:大數(shù)據(jù)是指大小超出傳統(tǒng)的數(shù)據(jù)工具抓取、存儲(chǔ)、管理和分析能力的數(shù)據(jù)集合。隨后IBM提出關(guān)于大數(shù)據(jù)的4V特征,即數(shù)據(jù)體量大(Volume)、類型多樣化(Variety)、處理速度快(Velocity)、應(yīng)用價(jià)值大(Value),受到了業(yè)內(nèi)人士的廣泛認(rèn)可。大數(shù)據(jù)科學(xué)家John Rauser則簡(jiǎn)單將大數(shù)據(jù)定義為是任何超過一臺(tái)計(jì)算機(jī)處理能力的數(shù)據(jù)量。
盡管,面對(duì)這樣一個(gè)寬泛的概念,每個(gè)人心中都有一個(gè)關(guān)于大數(shù)據(jù)的理解,但無(wú)一例外,都有幾個(gè)共同的關(guān)鍵詞對(duì)大數(shù)據(jù)做一個(gè)界定。“規(guī)?;?rdquo;、“多樣化”、“動(dòng)態(tài)化”、“處理速度快”這四個(gè)關(guān)鍵詞確定了,能夠通過機(jī)器對(duì)大規(guī)模、多樣化和動(dòng)態(tài)變化的數(shù)據(jù)進(jìn)行快速處理,獲取目標(biāo)信息的,就能夠被稱為大數(shù)據(jù)。
為什么需要大數(shù)據(jù)
大數(shù)據(jù)是在信息爆炸的當(dāng)代,簡(jiǎn)化和高效利用信息的必經(jīng)之路。企業(yè)能夠通過對(duì)海量數(shù)據(jù)的分析挖掘,快速、精準(zhǔn)的掌握用戶的個(gè)性化需求,同時(shí)通過數(shù)據(jù)預(yù)測(cè),能夠擴(kuò)寬用戶渠道,獲取更多潛在客戶。精準(zhǔn)鎖定企業(yè)資源的同時(shí),發(fā)現(xiàn)潛在資源和關(guān)聯(lián)產(chǎn)品,既有效的節(jié)約了時(shí)間成本又把控了市場(chǎng)風(fēng)險(xiǎn),為企業(yè)量身定制了戰(zhàn)略方案,高效協(xié)助企業(yè)運(yùn)營(yíng),快速搶占市場(chǎng)先機(jī)。
大數(shù)據(jù)的價(jià)值思考
近幾年來(lái),大數(shù)據(jù)加劇和各產(chǎn)業(yè)進(jìn)行深度融合,為市場(chǎng)帶來(lái)無(wú)限可能。當(dāng)然,根據(jù)服務(wù)對(duì)象的不同,大數(shù)據(jù)價(jià)值也相對(duì)有所改變。
在商業(yè)領(lǐng)域,大數(shù)據(jù)能給企業(yè)帶來(lái)的不單純是提高企業(yè)生產(chǎn)管理運(yùn)行效率和服務(wù)水平,最根本的是,大數(shù)據(jù)能夠幫助企業(yè)增收盈利,能夠在相等的時(shí)間內(nèi),獲取更多的利潤(rùn)空間,無(wú)論是提升收入還是降低成本上,都是如此。從客戶角度出發(fā),企業(yè)能夠依靠大數(shù)據(jù)實(shí)現(xiàn)精準(zhǔn)營(yíng)銷,通過海量數(shù)據(jù)信息細(xì)化客戶群,深入理解用戶對(duì)象,優(yōu)化現(xiàn)有產(chǎn)品,為不同客戶提供個(gè)性化營(yíng)銷方案,提高成交量。另外還能利用數(shù)據(jù)分析,找出交易服務(wù)過程企業(yè)存在的漏洞,著重優(yōu)化服務(wù),提升客戶交易體驗(yàn),獲得更多的交易機(jī)會(huì)。從企業(yè)內(nèi)部角度考慮,企業(yè)能夠通過大數(shù)據(jù)優(yōu)化生產(chǎn)過程,提高生產(chǎn)和管理效率,從而降低運(yùn)營(yíng)成本。還能利用大數(shù)據(jù)找出和預(yù)測(cè)企業(yè)風(fēng)險(xiǎn),制定合適的戰(zhàn)略方針,最大程度上降低企業(yè)損失。
對(duì)于政府而言,大數(shù)據(jù)的價(jià)值主要體現(xiàn)在公共安全、公共管理和公共服務(wù)三個(gè)方面。從安全需求出發(fā),政府主要利用大數(shù)據(jù)反恐、公共安全風(fēng)控等相關(guān)措施,和運(yùn)營(yíng)商合作,使用基站數(shù)據(jù),實(shí)時(shí)監(jiān)控人群區(qū)域,降低非安全事件的發(fā)生概率。
如何對(duì)大數(shù)據(jù)進(jìn)行深度挖掘
DT時(shí)代已經(jīng)到來(lái),如何在DT時(shí)代中挖掘到數(shù)據(jù)價(jià)值,好似沙里淘金,需要眾多的技巧?,F(xiàn)在數(shù)據(jù)處理需求一直居高不下,海量數(shù)據(jù)已經(jīng)成為了當(dāng)今時(shí)代一個(gè)重要的標(biāo)志,數(shù)據(jù)挖掘與分析已成為企業(yè)必須提上議程的戰(zhàn)略決策。
數(shù)據(jù)挖掘,簡(jiǎn)單來(lái)說(shuō)就是從大量原始數(shù)據(jù)中抽取出潛在的,不為人知的有用信息、模式和趨勢(shì)。數(shù)據(jù)挖掘是一門復(fù)雜的多學(xué)科交叉的技術(shù),不僅要求挖掘者具備統(tǒng)計(jì)學(xué)、可視化、數(shù)據(jù)庫(kù)技術(shù)等相關(guān)知識(shí),還需要對(duì)機(jī)器學(xué)習(xí)、信息科學(xué)等相關(guān)學(xué)科的掌握。在原始數(shù)據(jù)中抽取一定數(shù)量的數(shù)據(jù)后,建立數(shù)據(jù)挖掘庫(kù),然后對(duì)數(shù)據(jù)進(jìn)行初步預(yù)處理(對(duì)數(shù)據(jù)進(jìn)行包括描述、清理、集成、規(guī)約等相關(guān)操作),建立數(shù)據(jù)模型,最后對(duì)數(shù)據(jù)挖掘的結(jié)果進(jìn)行評(píng)價(jià),這便是數(shù)據(jù)挖掘的一般流程。
對(duì)于數(shù)據(jù)挖掘而言,還有一項(xiàng)較深的技術(shù),便是數(shù)據(jù)深度處理。
數(shù)據(jù)深度處理要求數(shù)據(jù)不必一開始就進(jìn)入企業(yè)統(tǒng)一的數(shù)據(jù)中心,而是在特殊部門的邊緣設(shè)備上實(shí)時(shí)、自動(dòng)化進(jìn)行分析,之后將分析好的結(jié)果再傳回?cái)?shù)據(jù)中心即可。而實(shí)時(shí)數(shù)據(jù)分析的一個(gè)好處就是,將數(shù)據(jù)變成真正決策的主導(dǎo)者,減少人為誤差和因素。因此,相對(duì)于傳統(tǒng)的人工數(shù)據(jù)分析,這種類型的實(shí)時(shí)數(shù)據(jù)處理就變得更加準(zhǔn)確、客觀和穩(wěn)定,但一切的前提是在算法極其嚴(yán)謹(jǐn)?shù)那闆r下。
一般來(lái)講,大數(shù)據(jù)挖掘的關(guān)鍵是決定挖掘的目標(biāo),這比決定如何挖掘更為重要。從一開始采集數(shù)據(jù)時(shí),就應(yīng)該盡量設(shè)想挖掘的場(chǎng)景,盡量多方位全面的記錄和采集數(shù)據(jù),保證數(shù)據(jù)的多樣性,這樣才能保證數(shù)據(jù)挖掘更加準(zhǔn)確高效,才能完成數(shù)據(jù)價(jià)值的體現(xiàn)。
大數(shù)據(jù)的現(xiàn)實(shí)制約
而今,制約大數(shù)據(jù)發(fā)展的因素有很多,但是頭一個(gè)想到的便是數(shù)據(jù)安全問題??梢赃@么說(shuō),這不僅是大數(shù)據(jù)行業(yè)的棘手問題,這也是整個(gè)互聯(lián)網(wǎng)領(lǐng)域的棘手問題。大數(shù)據(jù)意味著大量信息的存儲(chǔ),依照上文闡述的大數(shù)據(jù)4V要素,Value特性也意味著大數(shù)據(jù)單個(gè)數(shù)據(jù)的低價(jià)值。正是依靠著對(duì)單個(gè)數(shù)據(jù)的積少成多的采集原理,在安全防護(hù)和攻擊事件中,大數(shù)據(jù)的處理過程顯得異常復(fù)雜。首先,大量的企業(yè)運(yùn)營(yíng)數(shù)據(jù)、客戶信息、個(gè)人隱私細(xì)節(jié)都被集中存儲(chǔ),這無(wú)疑是加劇了數(shù)據(jù)泄露的風(fēng)險(xiǎn)。另外,由于一些極其敏感的數(shù)據(jù)所有權(quán)和使用權(quán)沒有被清晰界定,很多大數(shù)據(jù)的分析都沒有考慮到其中涉及的個(gè)體隱私問題;再者,大數(shù)據(jù)對(duì)于數(shù)據(jù)完整性、可用性和隱私性都帶來(lái)了絕大的挑戰(zhàn),在未來(lái)數(shù)據(jù)發(fā)生丟失、被盜取、被濫用和被毀壞問題后都存在一定的技術(shù)難度,這也為嚴(yán)重制約了大數(shù)據(jù)的后續(xù)發(fā)展。
另外,在大數(shù)據(jù)復(fù)雜的環(huán)境下,數(shù)據(jù)之間的聯(lián)系是高度擴(kuò)展的,這也要求大數(shù)據(jù)網(wǎng)絡(luò)更加的開放,面對(duì)復(fù)雜的數(shù)據(jù)集合,大數(shù)據(jù)需要對(duì)其作出快速的反應(yīng),這意味著大數(shù)據(jù)的廣泛參與特性,而這也將倒逼著系統(tǒng)管理者降低安全策略的級(jí)別。對(duì)于數(shù)據(jù)安全而言,這無(wú)疑是一個(gè)巨大的隱患。
就目前而言,技術(shù)瓶頸、人才稀缺等種種因素都在不斷的制約著大數(shù)據(jù)的未來(lái)發(fā)展。
大數(shù)據(jù)未來(lái)走向
驅(qū)動(dòng)未來(lái)的能源是數(shù)據(jù),如今,大數(shù)據(jù)產(chǎn)業(yè)已經(jīng)遭遇井噴期,現(xiàn)在的大數(shù)據(jù)變成了一個(gè)萬(wàn)能搭檔,什么元素都能牽扯上它。盡管市場(chǎng)上存在部分泡沫企業(yè),但是大數(shù)據(jù)的熱潮仍然是如今這個(gè)時(shí)代的主流,隨著智能化的日漸成熟,越來(lái)越多的傳感器和網(wǎng)站、客戶端能夠搜集到大量的數(shù)據(jù)信息,作為未來(lái)電子化世界的主要表達(dá)方式,大數(shù)據(jù)的熱潮不僅不會(huì)消褪,還會(huì)日益升溫。
對(duì)于大數(shù)據(jù)的未來(lái),行內(nèi)人士對(duì)其有過諸多揣測(cè),以下便有兩種趨勢(shì)發(fā)展:首先,大數(shù)據(jù)作為一種新型資源,未來(lái)一定會(huì)成為企業(yè)和社會(huì)關(guān)注的重要戰(zhàn)略資源。其次,未來(lái)大數(shù)據(jù)必定會(huì)與云計(jì)算進(jìn)行深度融合,隨著大數(shù)據(jù)的日漸成熟,它很可能會(huì)成就下一輪技術(shù)革新的主要戰(zhàn)場(chǎng)。面對(duì)大數(shù)據(jù)如此紛繁復(fù)雜的顯示趨勢(shì),它的未來(lái)到底要走向何處,能走多久,都還需要等待時(shí)間書寫答案。