麥肯錫在它的報(bào)告中這樣描述大數(shù)據(jù):大數(shù)據(jù)是指無法在一定時(shí)間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合。IDC在它的報(bào)告中給大數(shù)據(jù)下了一個(gè)定義:大數(shù)據(jù)技術(shù)是新一代的技術(shù)與架構(gòu),它被設(shè)計(jì)用于在成本可承受的條件下,通過非常快速(velocity)的采集、發(fā)現(xiàn)和分析,從大體量(volumes)、多類別(variety)的數(shù)據(jù)中提取價(jià)值。
IDC的定義描述了大數(shù)據(jù)時(shí)代的三大特征,即俗稱的“3V”。第一個(gè)是Volume(海量),數(shù)據(jù)容量越來越大;第二個(gè)是Velocity(速度),數(shù)據(jù)量增長越來越快,需要處理的速度和響應(yīng)越來越快;第三個(gè)是Variety(多樣性),指各種各樣類型的數(shù)據(jù)出現(xiàn),過去的數(shù)據(jù)更多的是結(jié)構(gòu)化的,現(xiàn)在越來越多的數(shù)據(jù)是半結(jié)構(gòu),甚至是完全沒有結(jié)構(gòu)的數(shù)據(jù),如文本、郵件甚至于語音、視頻等。“3V”是對(duì)大數(shù)據(jù)最基本特征的歸納,得到業(yè)界的共識(shí)。
雖然后續(xù)不斷有人增加對(duì)V的理解,如Value(價(jià)值),強(qiáng)調(diào)大數(shù)據(jù)中的總體價(jià)值大,但是價(jià)值密度低;也有Veracity(真實(shí)和準(zhǔn)確),強(qiáng)調(diào)真實(shí)而準(zhǔn)確的數(shù)據(jù)才能讓對(duì)數(shù)據(jù)的管控和治理真正有意義,也有Vitality(動(dòng)態(tài)性)強(qiáng)調(diào)數(shù)據(jù)體系的動(dòng)態(tài)性等,這些都有一定的道理,但都不及最初的“3V”具有代表性。