大數(shù)據(jù)作為繼云計(jì)算、物聯(lián)網(wǎng)之后IT行業(yè)又一大顛覆性技術(shù)革命,很多人對(duì)它并不陌生,然而大數(shù)據(jù)是否等同于海量數(shù)據(jù),是否得到了有效地管理和利用,第三方互聯(lián)網(wǎng)數(shù)據(jù)服務(wù)提供商締元信CEO秦雯對(duì)此表示,行業(yè)中對(duì)大數(shù)據(jù)的認(rèn)知有些混亂,大數(shù)據(jù)有待被重新認(rèn)識(shí)和合理利用。
近年來(lái),我國(guó)大數(shù)據(jù)產(chǎn)業(yè)已初具規(guī)模,被廣泛應(yīng)用于各行各業(yè),然而人們對(duì)于大數(shù)據(jù)的認(rèn)識(shí)還存在歧義,這對(duì)于大數(shù)據(jù)產(chǎn)業(yè)的跨越式發(fā)展十分不利。這些認(rèn)識(shí)偏差主要體現(xiàn)于以下幾個(gè)方面,首先,數(shù)據(jù)中心并不是大數(shù)據(jù)公司,數(shù)據(jù)中心涵蓋所有互聯(lián)網(wǎng)業(yè)務(wù)的網(wǎng)絡(luò)基礎(chǔ)設(shè)施,大數(shù)據(jù)只是其支撐業(yè)務(wù)的一部分。其次,云計(jì)算不等于大數(shù)據(jù)。很多云計(jì)算公司認(rèn)為自己是大數(shù)據(jù)公司,海量數(shù)據(jù)的處理固然憑借云計(jì)算得以實(shí)現(xiàn),但云計(jì)算只是大數(shù)據(jù)的系統(tǒng)基礎(chǔ)設(shè)施。
再次,并不是所有數(shù)字化信息一定能產(chǎn)生大數(shù)據(jù)。秦雯認(rèn)為,大數(shù)據(jù)是數(shù)字化信息的生產(chǎn)和被消費(fèi)的過(guò)程數(shù)據(jù)。并且,大數(shù)據(jù)并不等同于海量數(shù)據(jù),樣本的數(shù)量和分析結(jié)果的準(zhǔn)確性并不一定存在相關(guān)關(guān)系。美國(guó)東北大學(xué)與哈佛大學(xué)的研究人員發(fā)現(xiàn),海量數(shù)據(jù)與經(jīng)過(guò)嚴(yán)謹(jǐn)科學(xué)試驗(yàn)和采樣設(shè)計(jì)得到的數(shù)據(jù)之間存在很大的不同。首先,大未必全,其次,大則可能魚(yú)龍混雜。海量數(shù)據(jù)和事件之間甚至?xí)霈F(xiàn)偽相關(guān)關(guān)系,例如Google曾在研究搜索“流感”與流感爆發(fā)的某種相關(guān)關(guān)系時(shí)嚴(yán)重高估了流感病例的數(shù)量,因?yàn)樗阉?ldquo;流感”的人除了感冒患者之外還有對(duì)媒體報(bào)道的跟風(fēng)搜索者。因此缺少清洗的數(shù)據(jù)并不是大數(shù)據(jù),歸根結(jié)底,還需要對(duì)數(shù)據(jù)進(jìn)行模式分析,海量數(shù)據(jù)才能變成大數(shù)據(jù)。
大數(shù)據(jù)在數(shù)據(jù)資源的合理利用上存在不少實(shí)操上的問(wèn)題。在搜集數(shù)據(jù)的環(huán)節(jié),企業(yè)存在對(duì)數(shù)據(jù)的認(rèn)知和業(yè)務(wù)脫節(jié)的現(xiàn)象。在管理數(shù)據(jù)的環(huán)節(jié),企業(yè)的內(nèi)部、外部數(shù)據(jù)存在孤島現(xiàn)象。易傳媒副總裁高照對(duì)此表示,一個(gè)大型企業(yè)里不同的數(shù)據(jù)分屬于不同的部門,CRM部門、市場(chǎng)部門等都有自己的數(shù)據(jù),市場(chǎng)部門內(nèi)的小組還可能有自己的數(shù)據(jù),產(chǎn)品的制造、零售、社會(huì)化營(yíng)銷過(guò)程中也有自己的數(shù)據(jù)。由于每一個(gè)數(shù)據(jù)來(lái)源不同,對(duì)應(yīng)的產(chǎn)品不同,要把所有的數(shù)據(jù)綜合在一起,很難建立一個(gè)完整的畫(huà)像。在企業(yè)外部,一些分屬于不同行業(yè)的企業(yè)之間事實(shí)上已經(jīng)存在數(shù)據(jù)流動(dòng)或置換的意愿。在應(yīng)用數(shù)據(jù)的環(huán)節(jié),很多的企業(yè)盛行長(zhǎng)官意志,領(lǐng)導(dǎo)人急功近利,追求速效。
與此同時(shí),大數(shù)據(jù)的應(yīng)用在生態(tài)環(huán)境方面面臨的問(wèn)題主要有四點(diǎn),政府在其中沒(méi)有起到應(yīng)有的作用。第一個(gè)問(wèn)題涉及公共數(shù)據(jù),第二是用戶隱私,第三是數(shù)據(jù)開(kāi)放,第四是技術(shù)倫理。在公共數(shù)據(jù)方面,很多人認(rèn)為政府在中國(guó)擁有最多的數(shù)據(jù),然而值得注意的是,政府在業(yè)務(wù)上的數(shù)據(jù)絕大部分都是統(tǒng)計(jì)數(shù)據(jù)。此外,由于中國(guó)全社會(huì)沒(méi)有養(yǎng)成數(shù)據(jù)培育和數(shù)據(jù)管理的習(xí)慣,數(shù)據(jù)質(zhì)量存在很大的問(wèn)題,政府部門也不例外。并且許多官方數(shù)據(jù)存在缺位現(xiàn)象,中國(guó)的IP地址數(shù)和IP地址分布情況在市場(chǎng)上流行的是民間整理的資料,然而這件事應(yīng)當(dāng)由政府來(lái)做,并且作為公共數(shù)據(jù)開(kāi)放出來(lái)。在技術(shù)倫理方面,很多企業(yè)深受其害的廣告虛假點(diǎn)擊問(wèn)題突出,而大數(shù)據(jù)的技術(shù)應(yīng)用需要講究商業(yè)道德和倫理,如果這個(gè)問(wèn)題不解決,大數(shù)據(jù)在中國(guó)落地將永遠(yuǎn)是泡沫。
秦雯強(qiáng)調(diào),大數(shù)據(jù)應(yīng)用的前提是可用和有用,可用是指具備系統(tǒng)化、標(biāo)準(zhǔn)化、實(shí)時(shí)更新的數(shù)據(jù)管理平臺(tái),有用是指業(yè)務(wù)的互聯(lián)網(wǎng)化、具有科學(xué)的管理決策理念,在此前提下企業(yè)才能形成從搜集數(shù)據(jù)到管理數(shù)據(jù),到應(yīng)用數(shù)據(jù)的閉環(huán)。但是,在上述這三個(gè)環(huán)節(jié)中都存在著現(xiàn)實(shí)上的問(wèn)題。