隨著巨量數(shù)據(jù)時代來臨,大數(shù)據(jù)一詞已經(jīng)十分普及,甚至有些被濫用的趨勢。在這個時代,切身體會到「大數(shù)據(jù)」貨真價實的存在、以及解讀大數(shù)據(jù)的潛力成為我們的重要課題。
在此整理了 25 個所謂的「大數(shù)據(jù)現(xiàn)象」及「大數(shù)據(jù)事實」(Big Data fun facts)并附上數(shù)據(jù)來源供大家參考,看完你將會對大數(shù)據(jù)有多「大」有更清楚的認(rèn)知,而且也對大數(shù)據(jù)的潛力及它帶來的改變有更深一層的解讀。
我們現(xiàn)在每兩天產(chǎn)生的數(shù)據(jù)量是相當(dāng)于過去到 2003 年為止累積的數(shù)據(jù)量。
根據(jù) IDC,現(xiàn)今世界上 90% 的數(shù)據(jù)量是在過去兩年多里所產(chǎn)生的。
根據(jù) UCSD 的研究調(diào)查,2008 年光美國居民就生產(chǎn)了 3.6 ZB 的數(shù)據(jù)量。
2016 年的網(wǎng)絡(luò)流量將會到達 1.3 ZB(Zettabyte = 10^21 bytes)。
根據(jù) IDC 跟 EMC 的研究分析,估計了 2020 年時,數(shù)碼數(shù)據(jù)量將會從 3.2 ZB 成長到 40 ZB。
企業(yè)所獲取且儲存的數(shù)據(jù)量每 1.2 年就雙倍成長。
每分鐘世界上有近 2 億封 E-mail 被寄出,也就是每天 2470 億封 E-mail,不過其中 80% 是垃圾信件。
每分鐘 Youtube 影片被上傳超過 100 個小時,而且每天上傳的影片量要花你 15 年的時間來看完。
如果我們將一天內(nèi)產(chǎn)生的數(shù)據(jù)全部燒錄進 DVD 光碟內(nèi),那這些光碟疊起來可以搭成地表到月球的 DVD 高塔,而且還是「雙塔」。
每天每分鐘有約 570 個新網(wǎng)站出現(xiàn)。
大數(shù)據(jù)飛快成長,到 2015 年,為了處理大數(shù)據(jù),全球多出了 4.4 百萬個 IT 職位,也因此這方面的專業(yè)人士缺口,各行各業(yè)都在搶奪大數(shù)據(jù)專家 >> 還沒決定未來方向的學(xué)子們不妨考慮這個領(lǐng)域。
根據(jù) McKinsey Global Institute 的數(shù)據(jù),到 2018 年時,美國地區(qū)將面臨 14 萬到 19 萬的大數(shù)據(jù)專業(yè)人才短缺,以及 1 百 50 萬個擁有洞察大數(shù)據(jù)的能力、因而做出好的企業(yè)決策管理階層人才。
目前世界各地的數(shù)據(jù)中心(超過 50 萬個)加起來相當(dāng)于 6000 個足球場的大小。
從 2012 年到 2014 年,行動裝置上傳輸?shù)臄?shù)據(jù)量成長了 81%,達到 1.5 Exabytes (Exabytes = 10^18 bytes),其中 53% 來自影音數(shù)據(jù)。
NSA 每天得分析 1.6 % 的全球網(wǎng)絡(luò)數(shù)據(jù)量 —— 約 30 PB (Petabytes = 10^15 bytes)。
Hadoop 被公認(rèn)為大數(shù)據(jù)主流技術(shù)(請參考文章:認(rèn)識大數(shù)據(jù)的黃色小象幫手 –– Hadoop),根據(jù)市場研究機構(gòu) Allied Market Research,Hadoop 市場價值從 2013 年 20 億,估計到了 2020 年時會飆漲到 500 億。
根據(jù) IDC 的分析,2008 年時數(shù)碼數(shù)據(jù)量就超過了目前已知的宇宙內(nèi)星星數(shù)量,而且以數(shù)據(jù)成長的速度,2023 年時全球數(shù)據(jù)量將會超過亞佛加厥常數(shù)(Avogadro's number)—— 也就是 6.022 × 10^23。
由于物聯(lián)網(wǎng)的蓬勃發(fā)展,智慧型裝置的數(shù)量將會從現(xiàn)在到 2020 年將從 130 億成長到 500 億。
在加州及一些其他地區(qū),大數(shù)據(jù)已經(jīng)被用來建立模式、預(yù)測犯罪,而且比現(xiàn)今的其他預(yù)測技術(shù)來得準(zhǔn)確。(有興趣請參考相關(guān)文章:英美城市用大數(shù)據(jù),揪出未知的細(xì)菌、罪犯與惡棍交易員)
根據(jù) Tata Consultancy Services Limited(TCS)在 2013 年發(fā)表的研究,各企業(yè)的數(shù)據(jù)里 51% 是結(jié)構(gòu)化數(shù)據(jù)、27% 是非結(jié)構(gòu)化數(shù)據(jù)、21% 是半結(jié)構(gòu)化數(shù)據(jù)。
有將近 75% 的企業(yè)表示將逐漸增加對大數(shù)據(jù)的投資。
根據(jù) CIO 的報告,38% 的機構(gòu)根本不知道大數(shù)據(jù)是什么,27% 的機構(gòu)對大數(shù)據(jù)則是一知半解。
根據(jù) EMC2 的報告,25% 的企業(yè)已經(jīng)有聘請數(shù)據(jù)科學(xué)家,24% 的企業(yè)正在使用大數(shù)據(jù)分析工具,57% 的企業(yè)則在慎重考慮采用大數(shù)據(jù)分析工具。
如果大數(shù)據(jù)能善加利用在醫(yī)療領(lǐng)域,以美國地區(qū)為例,將會減少 8% 的醫(yī)療開銷并省下 3000 億美元。
最近幾年來,已經(jīng)有 5 億美元的風(fēng)險投資基金注入大數(shù)據(jù)科技公司里。
原文鏈接:http://www.thebigdata.cn/YingYongAnLi/14199.html