1.大量
大數(shù)據(jù)的特征首先就體現(xiàn)為“大”,從先Map3時(shí)代,一個(gè)小小的MB級(jí)別的Map3就可以滿足很多人的需求,然而隨著時(shí)間的推移,存儲(chǔ)單位從過(guò)去的GB到TB,乃至現(xiàn)在的PB、EB級(jí)別。只有數(shù)據(jù)體量達(dá)到了PB級(jí)別以上,才能被稱為大數(shù)據(jù)。1PB等于1024TB,1TB等于1024G,那么1PB等于1024*1024個(gè)G的數(shù)據(jù)。隨著信息技術(shù)的高速發(fā)展,數(shù)據(jù)開始爆發(fā)性增長(zhǎng)。社交網(wǎng)絡(luò)(微博、推特、臉書)、移動(dòng)網(wǎng)絡(luò)、各種智能工具,服務(wù)工具等,都成為數(shù)據(jù)的來(lái)源。淘寶網(wǎng)近4億的會(huì)員每天產(chǎn)生的商品交易數(shù)據(jù)約20TB;臉書約10億的用戶每天產(chǎn)生的日志數(shù)據(jù)超過(guò)300TB。迫切需要智能的算法、強(qiáng)大的數(shù)據(jù)處理平臺(tái)和新的數(shù)據(jù)處理技術(shù),來(lái)統(tǒng)計(jì)、分析、預(yù)測(cè)和實(shí)時(shí)處理如此大規(guī)模的數(shù)據(jù)。
2.高速
就是通過(guò)算法對(duì)數(shù)據(jù)的邏輯處理速度非???,1秒定律,可從各種類型的數(shù)據(jù)中快速獲得高價(jià)值的信息,這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。大數(shù)據(jù)的產(chǎn)生非常迅速,主要通過(guò)互聯(lián)網(wǎng)傳輸。生活中每個(gè)人都離不開互聯(lián)網(wǎng),也就是說(shuō)每天個(gè)人每天都在向大數(shù)據(jù)提供大量的資料。并且這些數(shù)據(jù)是需要及時(shí)處理的,因?yàn)榛ㄙM(fèi)大量資本去存儲(chǔ)作用較小的歷史數(shù)據(jù)是非常不劃算的,對(duì)于一個(gè)平臺(tái)而言,也許保存的數(shù)據(jù)只有過(guò)去幾天或者一個(gè)月之內(nèi),再遠(yuǎn)的數(shù)據(jù)就要及時(shí)清理,不然代價(jià)太大?;谶@種情況,大數(shù)據(jù)對(duì)處理速度有非常嚴(yán)格的要求,服務(wù)器中大量的資源都用于處理和計(jì)算數(shù)據(jù),很多平臺(tái)都需要做到實(shí)時(shí)分析。數(shù)據(jù)無(wú)時(shí)無(wú)刻不在產(chǎn)生,誰(shuí)的速度更快,誰(shuí)就有優(yōu)勢(shì)。
3.多樣
如果只有單一的數(shù)據(jù),那么這些數(shù)據(jù)就沒(méi)有了價(jià)值,比如只有單一的個(gè)人數(shù)據(jù),或者單一的用戶提交數(shù)據(jù),這些數(shù)據(jù)還不能稱為大數(shù)據(jù)。廣泛的數(shù)據(jù)來(lái)源,決定了大數(shù)據(jù)形式的多樣性。比如當(dāng)前的上網(wǎng)用戶中,年齡,學(xué)歷,愛好,性格等等每個(gè)人的特征都不一樣,這個(gè)也就是大數(shù)據(jù)的多樣性,當(dāng)然了如果擴(kuò)展到全國(guó),那么數(shù)據(jù)的多樣性會(huì)更強(qiáng),每個(gè)地區(qū),每個(gè)時(shí)間段,都會(huì)存在各種各樣的數(shù)據(jù)多樣性。任何形式的數(shù)據(jù)都可以產(chǎn)生作用,目前應(yīng)用最廣泛的就是推薦系統(tǒng),如淘寶,網(wǎng)易云音樂(lè)、今日頭條等,這些平臺(tái)都會(huì)通過(guò)對(duì)用戶的日志數(shù)據(jù)進(jìn)行分析,從而進(jìn)一步推薦用戶喜歡的東西。日志數(shù)據(jù)是結(jié)構(gòu)化明顯的數(shù)據(jù),還有一些數(shù)據(jù)結(jié)構(gòu)化不明顯,例如圖片、音頻、視頻等,這些數(shù)據(jù)因果關(guān)系弱,就需要人工對(duì)其進(jìn)行標(biāo)注。
4.價(jià)值
這也是大數(shù)據(jù)的核心特征?,F(xiàn)實(shí)世界所產(chǎn)生的數(shù)據(jù)中,有價(jià)值的數(shù)據(jù)所占比例很小。相比于傳統(tǒng)的小數(shù)據(jù),大數(shù)據(jù)最大的價(jià)值在于通過(guò)從大量不相關(guān)的各種類型的數(shù)據(jù)中,挖掘出對(duì)未來(lái)趨勢(shì)與模式預(yù)測(cè)分析有價(jià)值的數(shù)據(jù),并通過(guò)機(jī)器學(xué)習(xí)方法、人工智能方法或數(shù)據(jù)挖掘方法深度分析,發(fā)現(xiàn)新規(guī)律和新知識(shí)。你如果有1PB以上的全國(guó)所有20-35年輕人的上網(wǎng)數(shù)據(jù)的時(shí)候,那么它自然就有了商業(yè)價(jià)值,比如通過(guò)分析這些數(shù)據(jù),我們就知道這些人的愛好,進(jìn)而指導(dǎo)產(chǎn)品的發(fā)展方向等等。如果有了全國(guó)幾百萬(wàn)病人的數(shù)據(jù),根據(jù)這些數(shù)據(jù)進(jìn)行分析就能預(yù)測(cè)疾病的發(fā)生,這些都是大數(shù)據(jù)的價(jià)值。大數(shù)據(jù)運(yùn)用之廣泛,如運(yùn)用于農(nóng)業(yè)、金融、醫(yī)療等各個(gè)領(lǐng)域,從而最終達(dá)到改善社會(huì)治理、提高生產(chǎn)效率、推進(jìn)科學(xué)研究的效果。
大數(shù)據(jù)已經(jīng)成為過(guò)去幾年中大部分行業(yè)的游戲規(guī)則,行業(yè)領(lǐng)袖,學(xué)者和其他知名的利益相關(guān)者都同意這一點(diǎn), 隨著大數(shù)據(jù)繼續(xù)滲透到我們的日常生活中,圍繞大數(shù)據(jù)的炒作正在轉(zhuǎn)向?qū)嶋H使用中的真正價(jià)值。