2017年大數(shù)據(jù)產(chǎn)業(yè)發(fā)展趨勢是非結構化開放的,Hadoop繼續(xù)稱霸,外加數(shù)據(jù)可視化使用垃圾數(shù)據(jù)謎續(xù),具體預測如下:
1.非結構化高于結構化數(shù)據(jù)量
一類信息能夠用數(shù)據(jù)或統(tǒng)一的結構加以表示,我們稱之為結構化數(shù)據(jù),如數(shù)字、符號;而另一類信息無法用數(shù)字或統(tǒng)一的結構表示,如文本、圖像、聲音、網(wǎng)頁等,我們稱之為非結構化數(shù)據(jù)。結構化數(shù)據(jù)屬于非結構化數(shù)據(jù),是非結構化數(shù)據(jù)的特例,今年非結構化數(shù)據(jù)將要凸顯占領結構化高度廣度。
2.結構化數(shù)據(jù)安全性高于非機構化數(shù)據(jù)
結構化數(shù)據(jù)的存在至少有40年之久,這種數(shù)據(jù)存儲在數(shù)據(jù)庫里,可以用二維表結構來邏輯表達實現(xiàn)數(shù)據(jù),因此加密方式多樣化,安全性高,相比非結構化數(shù)據(jù)最近幾年才興起,它是以圖片,音頻,視頻,文檔形式存在,加密繁瑣困難,安全性低,然而二者屬于包含的關系,多數(shù)企業(yè)更傾向于以結構化數(shù)據(jù)的形態(tài)存在。
3.大數(shù)據(jù)產(chǎn)生在非結構化數(shù)據(jù)庫里
結構化數(shù)據(jù)分析的歷史已經(jīng)很久了,至少在計算機數(shù)值計算開始的時候就有了,說已經(jīng)有四十年也不為過,新聞,視頻,圖片,音頻,網(wǎng)頁這些形態(tài)每天在數(shù)以萬計的產(chǎn)生龐大的數(shù)據(jù)量,而這些數(shù)據(jù)不是以符號數(shù)字的形式存在的,大型的社交網(wǎng)絡,媒體網(wǎng)絡,都是以視頻,圖片,音頻,網(wǎng)頁形式存在,今年的大數(shù)據(jù)產(chǎn)品將在非結構化中日益增加。
4.Hadoop沒有可以抗衡的程序出現(xiàn)
Hadoop這個單詞如今鋪天蓋地,幾乎成了大數(shù)據(jù)的代名詞。僅僅數(shù)年時間,Hadoop從邊緣技術迅速成長為一個事實標準。如今想玩轉大數(shù)據(jù),搞企業(yè)分析或者商業(yè)智能,沒有Hadoop還真不行。Hadoop實質上更多是一個分布式數(shù)據(jù)基礎設施:它將巨大的數(shù)據(jù)集分派到一個由普通計算機組成的集群中的多個節(jié)點進行存儲,意味著您不需要購買和維護昂貴的服務器硬件。
同時,Hadoop還會索引和跟蹤這些數(shù)據(jù),讓大數(shù)據(jù)處理和分析效率達到前所未有的高度。Spark,則是那么一個專門用來對那些分布式存儲的大數(shù)據(jù)進行處理的工具,它并不會進行分布式數(shù)據(jù)的存儲。雖然現(xiàn)在Spark很火,但是今年還是沒有能力和Hadoop抗衡。
5.大數(shù)據(jù)實現(xiàn)可視化趨勢
數(shù)據(jù)可視化技術讓隱藏在大數(shù)據(jù)資源背后的真相呈現(xiàn)在眾人面前。無論數(shù)據(jù)怎樣形成,無論數(shù)據(jù)資源在哪里,圖形數(shù)據(jù)可視化可以讓企業(yè)組織在業(yè)務繁忙的同時對數(shù)據(jù)進行檢索與處理??梢暬瘮?shù)據(jù)不需要任何編程基礎。只需要上傳你的數(shù)據(jù),便能輕松地創(chuàng)建和發(fā)布圖表,目前國際上已經(jīng)有一些企業(yè)在發(fā)展大數(shù)據(jù)可視化做深入的研究,今年會有專門提供大數(shù)據(jù)可視化服務公司出現(xiàn)。
6.消費垃圾數(shù)據(jù)將繼續(xù)
人們將繼續(xù)追尋大數(shù)據(jù),一直追到垃圾堆看到垃圾數(shù)據(jù),詐騙電話、免費WiFi竊取用戶信息等關系到消費者權益的問題被逐一曝光,針對廣大中國網(wǎng)民,就各種假貨和欺詐行為通過更直接的方式進行采樣和分析判斷,這些都將是無用的垃圾數(shù)據(jù),甚至是有害的數(shù)據(jù)。
在另一項調(diào)查中,國產(chǎn)手機成為預裝垃圾軟件的重災區(qū),55.3%的用戶表示國產(chǎn)手機中預裝垃圾軟件最多產(chǎn)生的垃圾無用數(shù)據(jù)也最多,12.1%用戶則認為國外品牌在垃圾軟件數(shù)據(jù)產(chǎn)生更嚴重,今年乃至未來將有很長一段時間消費者將要繼續(xù)忍受消費垃圾數(shù)據(jù)。
7.數(shù)字智慧城市與大數(shù)據(jù)接軌
智慧城市相對于數(shù)字城市概念,最大的區(qū)別在于對感知層獲取的數(shù)據(jù)進行大數(shù)據(jù)處理,從而獲得支撐和保障智慧城市順利運營的多元信息,要實現(xiàn)對數(shù)字信息的智慧處理,前提是引入大數(shù)據(jù)處理技術,從而來整合分析跨地域、跨行業(yè)、跨部門的海量數(shù)據(jù)的處理,將特定的信息應用于特定的行業(yè)和特定的解決方案中,智慧城市的應用過程實際上就是對數(shù)據(jù)采集、分析、存儲和利用的過程,大數(shù)據(jù)是智慧城市各個領域都能夠實現(xiàn)"智慧化"的關鍵性支撐技術。
在大數(shù)據(jù)時代,智慧城市建設應大力推進大數(shù)據(jù)基礎平臺和基礎網(wǎng)絡建設,積極推進信息資源數(shù)據(jù)交換和共享體系建設,今年智慧城市開始要與大數(shù)據(jù)接軌。
8.數(shù)據(jù)造假存仍然在安全隱患
醫(yī)藥臨床數(shù)據(jù)造假,環(huán)保數(shù)據(jù)造假,市場調(diào)查數(shù)據(jù)報告造假,經(jīng)濟數(shù)據(jù)造假,大數(shù)據(jù)造假給企業(yè)挖了一個大坑,大數(shù)據(jù)和以前的數(shù)據(jù)分析有3個明顯的區(qū)別:一是原來的數(shù)據(jù)分析針對部分樣本,大數(shù)據(jù)是所有的數(shù)據(jù)都要參與計算;二是大數(shù)據(jù)中,相關關系重于因果關系;三是大數(shù)據(jù)允許混雜數(shù)據(jù)甚至錯誤數(shù)據(jù)。
大數(shù)據(jù)允許混雜數(shù)據(jù)甚至錯誤數(shù)據(jù)。這是因為,大數(shù)據(jù)能夠通過造假數(shù)據(jù)的特征將其辨識出來。造假的數(shù)據(jù)和平常的數(shù)據(jù)不一樣,可以通過環(huán)比、同比、類比,發(fā)現(xiàn)數(shù)據(jù)中的異動,判斷企業(yè)是否存在數(shù)據(jù)造假行為,即便如此,數(shù)據(jù)造假問題在今年是不可能消失的,同時帶來的安全隱患,從而為各個行業(yè)指導錯誤的方向,失之毫厘,差之千里。
9.企業(yè)不需要大數(shù)據(jù)執(zhí)行官
到目前為止,企業(yè)人事任免注意力大多聚焦于填補中低層職位空缺,但填補大數(shù)據(jù)首席執(zhí)行官、在今年未來很長一段日子里還是不需要填補的。
當前可以指引公司的發(fā)展方向的責任才重大,作為回報,相當多的公司利潤落入管理層的腰包。如果在這一級別上做出錯誤的人事任命,發(fā)生災難的可能性將非常明顯。因此,目前企業(yè)不會填補大數(shù)據(jù)執(zhí)行官,大數(shù)據(jù)還沒有發(fā)展到人人皆知的地步。
10.大數(shù)據(jù)服務公司進入資本市場
最近發(fā)數(shù)據(jù)的行業(yè)應用也開始火熱起來。"微眾銀行"的大數(shù)據(jù)金融概念深得國家支持,符合"普惠銀行"的政策。相信以后會有更多的行業(yè)跟大數(shù)據(jù)扯上關系,走向資本市場。
隨著境外大數(shù)據(jù)企業(yè)近年在美國資本市場的落地開花,相信今年會為國內(nèi)的信息產(chǎn)業(yè)帶來新的靈感及發(fā)展方向。作為世界上其中一個數(shù)據(jù)使用量最大的國家,我們期待的是國內(nèi)大數(shù)據(jù)企業(yè)在未來資本市場的大爆發(fā)。