如今,業(yè)界和學(xué)術(shù)界一直在討論一個(gè)詞,那就是大數(shù)據(jù)。不管是學(xué)術(shù)圈還是IT圈,只要能談?wù)擖c(diǎn)兒大數(shù)據(jù)就顯得很高大上。然而,大數(shù)據(jù)挖掘、大數(shù)據(jù)分析、大數(shù)據(jù)營(yíng)銷等等事情僅僅只是個(gè)開(kāi)始,對(duì)大多數(shù)公司來(lái)說(shuō),大數(shù)據(jù)仍有很強(qiáng)的神秘色彩。于是,在我們還沒(méi)有完全搞明白如何運(yùn)用大數(shù)據(jù)進(jìn)行挖掘時(shí),各種過(guò)于神化大數(shù)據(jù)的輿論就已經(jīng)不絕于耳了。當(dāng)然,也有很多人直接批判大數(shù)據(jù)或大數(shù)據(jù)營(yíng)銷給我們?cè)斐傻碾[私威脅。也有很多人根本沒(méi)有搞清楚什么是大數(shù)據(jù),到底有什么價(jià)值。
于是,站在客觀的角度,圍繞下面幾個(gè)問(wèn)題與大家分享有關(guān)大數(shù)據(jù)的幾個(gè)觀點(diǎn),也扒扒大數(shù)據(jù)的那些事兒:
1、大數(shù)據(jù)營(yíng)銷和個(gè)人隱私泄露究竟有無(wú)因果和邏輯關(guān)系?
2、大數(shù)據(jù)營(yíng)銷到底能帶給企業(yè)什么樣的價(jià)值?到底能帶給用戶什么價(jià)值?用戶是否全盤否定或反感大數(shù)據(jù)營(yíng)銷?
3、如何正確看待大數(shù)據(jù)?如何看待大數(shù)據(jù)和傳統(tǒng)調(diào)查方法或統(tǒng)計(jì)學(xué)的關(guān)系?
4、大數(shù)據(jù)營(yíng)銷究竟面臨什么樣的挑戰(zhàn)?
一、大數(shù)據(jù)的迅猛發(fā)展與數(shù)據(jù)隱私的憂慮相伴而生
社交媒體的出現(xiàn),讓用戶數(shù)據(jù)的分享數(shù)量達(dá)到了難以估量的程度。而如今,社交媒體的種類有增無(wú)減,智能手機(jī)的更大普及,又讓更多用戶轉(zhuǎn)移到移動(dòng)互聯(lián)網(wǎng),從而又進(jìn)一步貢獻(xiàn)更多數(shù)據(jù)和內(nèi)容。這樣的數(shù)據(jù)增量讓全球社交媒體的收入大漲,僅根據(jù)咨詢公司Gartner2012年的研究結(jié)果顯示,2012年全球社交媒體收入估計(jì)達(dá)到169億美元。
一邊是社交媒體因?yàn)榇髷?shù)據(jù)的盆缽滿載,另一方面則是用戶不斷毫無(wú)保留的將個(gè)人信息交給互聯(lián)網(wǎng),這些信息包括年齡、性別、地域、生活狀態(tài)、態(tài)度、行蹤、興趣愛(ài)好、消費(fèi)行為、健康狀況甚至是性取向等。一時(shí)間,針對(duì)海量用戶信息的大數(shù)據(jù)挖掘、大數(shù)據(jù)分析、大數(shù)據(jù)精準(zhǔn)營(yíng)銷、廣告精準(zhǔn)投放等等迅速被各大公司提上日程。
比如,一個(gè)發(fā)生在美國(guó)的真實(shí)故事就會(huì)告訴我們,利用數(shù)據(jù)挖掘如何掌握我們的行蹤。一個(gè)美國(guó)家庭收到了一家商場(chǎng)投送的關(guān)于孕婦用品的促銷劵,促銷劵很明顯是給給家中那位16歲女孩的。女孩的父親很生氣,并找商場(chǎng)討說(shuō)法。但幾天后,這位父親發(fā)現(xiàn),16歲的女兒真懷孕了。而商場(chǎng)之所以未卜先知,正是通過(guò)若干商品的大量消費(fèi)數(shù)據(jù)來(lái)預(yù)估顧客的懷孕情況。
類似的大數(shù)據(jù)挖掘和營(yíng)銷事件在今天更多的發(fā)生,尤其是社交媒體產(chǎn)生大量數(shù)據(jù)后。于是,許多人對(duì)個(gè)人隱私數(shù)據(jù)開(kāi)始擔(dān)憂,開(kāi)始批判大數(shù)據(jù)精準(zhǔn)營(yíng)銷侵犯了個(gè)人隱私,憂慮我們進(jìn)入了大數(shù)據(jù)失控的時(shí)代,并將原因更多歸結(jié)于社交媒體。
二、大數(shù)據(jù)營(yíng)銷和個(gè)人隱私泄露之間不能完全劃等號(hào)!邏輯關(guān)系不成立!
如果客觀的分析一下上述問(wèn)題就會(huì)發(fā)現(xiàn),這是一個(gè)難以分說(shuō)的雞生蛋還是蛋生雞的問(wèn)題。一味地批判大數(shù)據(jù)分析對(duì)個(gè)人用戶數(shù)據(jù)的泄露或?yàn)E用是不客觀的。
因?yàn)椋缃幻襟w的本質(zhì)在于分享和傳播,社交媒體的出現(xiàn)的確滿足了人們分享個(gè)人信息、曬各種數(shù)據(jù)的欲望,讓人們?cè)谶^(guò)去無(wú)聲無(wú)息的生活中突然轉(zhuǎn)移到了可以讓全世界看到自己的平臺(tái)上來(lái)。人們從而達(dá)到了內(nèi)心的滿足感和存在感。因此,單從個(gè)體的背后心理來(lái)考慮,社交媒體對(duì)他們來(lái)說(shuō)是有益的,他們不認(rèn)為自己貢獻(xiàn)的是不可告人的秘密,既然分享出來(lái),那一定是希望或允許別人看到的。因此,這是一種無(wú)形的默許的交易,用戶樂(lè)意把自己的各種瑣碎細(xì)節(jié)暴露于社交媒體,而對(duì)社交媒體上雜亂無(wú)章的海量用戶數(shù)據(jù)進(jìn)行有序的分類和分析也沒(méi)有什么不妥。
當(dāng)然,如果社交媒體平臺(tái)隨意濫用或泄露用戶的后臺(tái)數(shù)據(jù),比如個(gè)人聯(lián)系方式、家庭住址、銀行等極為隱秘的信息,這的確是赤裸的侵犯隱私的行為,極其沒(méi)有道德,必須要受到譴責(zé)和法律制裁。
但目前,許多大數(shù)據(jù)精準(zhǔn)營(yíng)銷的前提是對(duì)用戶在互聯(lián)網(wǎng)上留下的公開(kāi)顯在的信息進(jìn)行算法歸類和內(nèi)容分析,從而對(duì)海量用戶進(jìn)行人群劃分,或者對(duì)小眾群體進(jìn)一步細(xì)分化,甚至達(dá)到某種程度上針對(duì)單個(gè)人的個(gè)性化定制,最終達(dá)到精準(zhǔn)推送廣告或有針對(duì)性推出營(yíng)銷活動(dòng)的目的。
所以,從這個(gè)角度來(lái)看,大數(shù)據(jù)精準(zhǔn)營(yíng)銷與個(gè)人主動(dòng)分享和傳播到網(wǎng)絡(luò)上的信息數(shù)據(jù)之間并沒(méi)有矛盾。人們起初或許會(huì)驚訝:為什么他們知道我想買什么?為什么他們知道我的需求?但隨著“猜透心思”的推送行為讓人們的生活越來(lái)越便利時(shí),比如省去大量搜索、查找和對(duì)比產(chǎn)品或服務(wù)的時(shí)間,他們可能會(huì)十分習(xí)慣并依賴這種精準(zhǔn)性,并不會(huì)在意他們本來(lái)就隨意分享到網(wǎng)絡(luò)上的雜亂信息被如何挖掘和利用。
因此,用戶發(fā)布和分享的信息是否為隱私,在用戶分享信息之前就做過(guò)慎重考量和篩選。這一點(diǎn)非常重要,這是侵犯隱私與否的界限。那些被用戶選擇為不適合發(fā)布或不希望別人知道的信息就是用戶認(rèn)為的隱私,而那些已經(jīng)公開(kāi)發(fā)布到社交媒體或網(wǎng)絡(luò)上的信息則被用戶認(rèn)為是可以傳播的。
所以,普通的對(duì)海量公開(kāi)信息的分析、挖掘、歸類,從而進(jìn)行精準(zhǔn)營(yíng)銷的大數(shù)據(jù)行為不能一味被罵成是對(duì)用戶利益的損害。而那些對(duì)用戶存儲(chǔ)在某些位置、不希望被他人了解的信息(私人存儲(chǔ)的信息)如果被別有用心的人泄露或利用,那這就是隱私侵犯行為。但這就不能歸罪于大數(shù)據(jù),而應(yīng)質(zhì)問(wèn)存貯平臺(tái)的安全性問(wèn)題。
因此,我們不能過(guò)分解讀大數(shù)據(jù)精準(zhǔn)營(yíng)銷。其實(shí),問(wèn)題的本質(zhì)在于,人們是否真的在意雜亂信息的去向(涉及到分享信息的背后心理和動(dòng)機(jī))?以及大數(shù)據(jù)營(yíng)銷是否真的觸碰了人們不可告人的秘密或底線(需要對(duì)秘密和底線重新定義)?因?yàn)椋绻藗兡J(rèn)分享的都是公開(kāi)的,那么侵犯隱私的概念就是不成立的。如果人們有不希望別人知道的信息,也不會(huì)貿(mào)然在網(wǎng)絡(luò)上分享和傳播。
三、大數(shù)據(jù)營(yíng)銷究竟會(huì)給企業(yè)和用戶帶來(lái)什么價(jià)值?
討論完上面的問(wèn)題之后,我們是否應(yīng)該誠(chéng)懇對(duì)待大數(shù)據(jù)精準(zhǔn)營(yíng)銷這件事?那么大數(shù)據(jù)營(yíng)銷究竟對(duì)于企業(yè)和用戶兩方面來(lái)說(shuō),都有什么樣的價(jià)值?
1、對(duì)于企業(yè)的價(jià)值
讓我們先看一個(gè)國(guó)外案例:
我們都知道美劇《紙牌屋》,提到《紙牌屋》的成功,最大的功勞便是大數(shù)據(jù)分析。因此,《紙牌屋》幾乎成了大數(shù)據(jù)營(yíng)銷的經(jīng)典案例,也是美國(guó)Netflix公司基于用戶信息挖掘來(lái)決定內(nèi)容生產(chǎn)的成功嘗試。
Netflix的訂閱用戶達(dá)到了3000萬(wàn)左右,而大多數(shù)用戶的觀影都與精準(zhǔn)推薦系統(tǒng)有關(guān)。Netflix會(huì)定時(shí)收集并分析用戶觀看電影或電視劇的行為,比如根據(jù)用戶對(duì)電影的評(píng)分、用戶的分享行為、用戶的觀影記錄等信息去分析用戶的收看習(xí)慣,從而推斷用戶喜歡什么樣的影視劇,喜歡什么樣的風(fēng)格,喜歡什么樣的導(dǎo)演和演員。在此基礎(chǔ)上利用算法對(duì)用戶感興趣的視頻進(jìn)行推薦排序,直到用戶找到最喜歡的影視劇。《紙牌屋》的導(dǎo)演和主演就是Netflix挖掘用戶信息后的預(yù)測(cè)出來(lái)的。
那我們?cè)倏匆粋€(gè)國(guó)內(nèi)案例:
我們都知道阿里巴巴和新浪微博合作的事情,阿里巴巴斥資5.86億入股新浪微博。除了網(wǎng)絡(luò)上各大媒體分析的,認(rèn)為阿里巴巴希望打造生態(tài)圈、強(qiáng)化流量入口、挑戰(zhàn)騰訊等等原因之外,還有一個(gè)重要原因或許就是大數(shù)據(jù)營(yíng)銷的戰(zhàn)略。
如今各大互聯(lián)網(wǎng)大佬都在跑馬圈地,圈住用戶,誰(shuí)能圈住用戶,讓用戶在其平臺(tái)上活躍,誰(shuí)就掌握了用戶的大量信息(包括顯在的前臺(tái)信息和隱藏的后臺(tái)信息)。新浪微博在中國(guó)有幾億用戶,這個(gè)量十分龐大,但如果新浪不能把這些用戶產(chǎn)生的信息合理的利用,那么這些資源就是巨大的浪費(fèi)。我們?cè)倏窗⒗锇桶停袊?guó)最大電商平臺(tái),它有產(chǎn)品,但是卻沒(méi)有完整的用戶日常生活行為信息,只有購(gòu)買信息,但這些購(gòu)買信息不足以了解人群特點(diǎn)和喜好。所以,只有跟新浪微博合作,掌握大量用戶的行為信息,從而對(duì)其分類,找到不同人群甚至不同個(gè)體的喜好、偏好、興趣、愛(ài)好、習(xí)慣、傳播習(xí)慣、分享路徑等等,那么就能實(shí)現(xiàn)精準(zhǔn)營(yíng)銷,甚至還可以通過(guò)不同用戶的信息傳播規(guī)律,而制定產(chǎn)品的最佳品牌傳播途徑。這是一座巨大的金礦。
新浪微博和阿里巴巴合作后,微博上出現(xiàn)了一些產(chǎn)品推薦信息,同時(shí)新浪微博已經(jīng)推出支付功能??梢韵胂螅何磥?lái)你在微博上看到相關(guān)推薦的產(chǎn)品,恰好是你喜歡的產(chǎn)品,那么你就可以直接在微博上實(shí)現(xiàn)支付和購(gòu)買。從而新浪微博和阿里巴巴各取所需,共享收益。當(dāng)然,這是我個(gè)人的觀察和分析,不過(guò)阿里巴巴的大數(shù)據(jù)戰(zhàn)略也很明顯了。
2、對(duì)于用戶的價(jià)值
上述兩個(gè)例子說(shuō)的都是大數(shù)據(jù)帶給企業(yè)的價(jià)值,那么,大數(shù)據(jù)營(yíng)銷對(duì)于用戶來(lái)說(shuō),到底有沒(méi)有價(jià)值?用戶是否十分反感精準(zhǔn)營(yíng)銷?讓我們?cè)賮?lái)看看一個(gè)新的調(diào)查數(shù)據(jù):
中國(guó)傳媒大學(xué)國(guó)家廣告研究院剛剛發(fā)布一份《2014中美移動(dòng)互聯(lián)網(wǎng)發(fā)展報(bào)告》,這份調(diào)查報(bào)告對(duì)比了中美兩國(guó)用戶移動(dòng)互聯(lián)網(wǎng)的使用習(xí)慣,以及移動(dòng)用戶對(duì)于移動(dòng)廣告的態(tài)度。
調(diào)查顯示,最可能得到智能終端用戶回應(yīng)的廣告內(nèi)容為:(1)與用戶要購(gòu)買物品相關(guān)的廣告(2)與要購(gòu)買物品相關(guān)的優(yōu)惠券(3)搞笑的廣告(4)與用戶最喜愛(ài)品牌相關(guān)的廣告(5)與用戶在線上訪問(wèn)過(guò)網(wǎng)站或使用過(guò)的應(yīng)用相關(guān)的廣告(6)與最近線上購(gòu)物相關(guān)的廣告(7)與用戶所在場(chǎng)所相關(guān)的廣告(8)與最近收聽(tīng)、收看的廣播/電視相關(guān)的廣告。(占比>=20%)
從這些數(shù)據(jù)我們可以看出,在8個(gè)結(jié)果中,有6個(gè)都是跟大數(shù)據(jù)精準(zhǔn)營(yíng)銷扯上關(guān)系的。比如,與用戶要購(gòu)買物品相關(guān)的廣告,更能引起用戶的回應(yīng)或互動(dòng)。如何理解?大數(shù)據(jù)營(yíng)銷的前提就是計(jì)算并推測(cè)用戶的真實(shí)需求,看用戶需要購(gòu)買什么相關(guān)產(chǎn)品,然后給用戶直接推送用戶想要的、喜歡的,做到了精準(zhǔn)到達(dá)。那么用戶呢?用戶樂(lè)意對(duì)這樣的推動(dòng)廣告或產(chǎn)品做出回應(yīng),因?yàn)檫@些廣告少了對(duì)用戶的打擾,并且讓用戶費(fèi)勁心思對(duì)對(duì)比或貨比三家后才購(gòu)買的決策過(guò)程降低,節(jié)省了時(shí)間,讓用戶直接找到內(nèi)心真正所需的產(chǎn)品或服務(wù)。
所以,這樣的結(jié)果就表明,大數(shù)據(jù)精準(zhǔn)營(yíng)銷并不是完全都會(huì)讓用戶反感,而是看你猜透用戶心思的程度。因此,如果你推送的內(nèi)容和用戶想要購(gòu)買的物品相關(guān),與用戶最喜愛(ài)的品牌相關(guān)等等。那么這種精準(zhǔn)挖掘并不會(huì)受到用戶的反感,反而會(huì)給用戶帶來(lái)便利。
四、不要過(guò)分迷信大數(shù)據(jù);大數(shù)據(jù)的實(shí)質(zhì)究竟是什么?
看了上面的分析,或許你會(huì)認(rèn)為大數(shù)據(jù)分析真是無(wú)所不能。但是,我們不能過(guò)分迷信大數(shù)據(jù),于是接下來(lái)的問(wèn)題就產(chǎn)生了。
1、大數(shù)據(jù)分析和傳統(tǒng)統(tǒng)計(jì)學(xué)方法有什么樣的關(guān)系?
大數(shù)據(jù)所遵從的是:以大量數(shù)據(jù),甚至所有數(shù)據(jù)為基礎(chǔ),然后用算法去計(jì)算分析,從而更精準(zhǔn)的找到各個(gè)因素之間的相關(guān)關(guān)系(不是因果關(guān)系),以發(fā)現(xiàn)數(shù)據(jù)之間的規(guī)律。
那我們看看傳統(tǒng)的統(tǒng)計(jì)學(xué)方法,統(tǒng)計(jì)分析學(xué)解決的就是如何通過(guò)選取少量的樣本,通過(guò)對(duì)樣本的分析,然后推斷整體的趨勢(shì)和規(guī)律。所以,用的是概率。一般會(huì)規(guī)定在90%、95%或98%的置信度(精確度)下最大程度推斷總體。如果目的明確,樣本選取得當(dāng),操作科學(xué),那么不需要大量數(shù)據(jù)就能分析出規(guī)律,從而推斷出總體的規(guī)律,并且可以發(fā)現(xiàn)不同因素之間的因果關(guān)系。比如,抽樣方法確定后,就可以確定樣本數(shù)量,如果抽樣得當(dāng),那么樣本的數(shù)量跟總體的數(shù)量之間沒(méi)有太多直接關(guān)系。
舉個(gè)不恰當(dāng)?shù)睦右怨├斫猓杭僭O(shè)選取1000個(gè)樣本,推斷的規(guī)律是A,選取2000個(gè)樣本,同樣呈現(xiàn)出A規(guī)律,選取3000也差不多這樣。那么,我們實(shí)際上科學(xué)選取1000多個(gè)樣本就可以達(dá)到目的了。所以,傳統(tǒng)的抽樣和統(tǒng)計(jì)方法,在最大程度上解決了成本問(wèn)題,雖然會(huì)有誤差,但仍可以發(fā)現(xiàn)的顯在規(guī)律。
所以,從這個(gè)角度來(lái)說(shuō),大數(shù)據(jù)分析最終得到的結(jié)果很可能跟傳統(tǒng)統(tǒng)計(jì)學(xué)方法分析的結(jié)果類似,只不過(guò)把原來(lái)的小樣本變成了大樣本分析。雖然大數(shù)據(jù)分析理論上是更精準(zhǔn),也可以彌補(bǔ)傳統(tǒng)誤差的缺陷,但準(zhǔn)確度未必像我們想象的那樣提高非常多(因?yàn)榇髷?shù)據(jù)分析會(huì)嚴(yán)重受到數(shù)據(jù)源的影響)。另外,也不一定能發(fā)現(xiàn)更多新規(guī)律。如果是這樣的話,我們不禁要問(wèn),大數(shù)據(jù)究竟是為什么而存在?
另外,在傳統(tǒng)的統(tǒng)計(jì)學(xué)分析當(dāng)中,比如對(duì)市場(chǎng)情況的分析,我們要結(jié)合實(shí)際的環(huán)境和背景來(lái)解讀數(shù)據(jù)和分析數(shù)據(jù),我們并不把數(shù)據(jù)當(dāng)成唯一的和萬(wàn)能的指引。所以,這里面就存在人根據(jù)經(jīng)驗(yàn)和實(shí)際情況進(jìn)行數(shù)據(jù)分析的過(guò)程,而人參與分析的能力是很重要的。
2、什么樣的事情是大數(shù)據(jù)做不到的,而傳統(tǒng)的調(diào)查分析方法卻可以做到?
大數(shù)據(jù)營(yíng)銷的前提是大數(shù)據(jù)分析,而大數(shù)據(jù)分析是基于算法的,是計(jì)算機(jī)固化的模式。也就是說(shuō),原來(lái)由人對(duì)數(shù)據(jù)分析的那部分工作,現(xiàn)在我們把它約定到算法里了。并且,大數(shù)據(jù)精準(zhǔn)營(yíng)銷是對(duì)用戶產(chǎn)生的網(wǎng)絡(luò)瀏覽數(shù)據(jù)、分享數(shù)據(jù)、搜索數(shù)據(jù)等等行為信息進(jìn)行分析,從而對(duì)人群或事物進(jìn)行分類,并由此推測(cè)人的偏好、興趣等。
但是,偏好不等于真實(shí)需求,點(diǎn)擊不代表一定喜歡。一個(gè)人今天在社交媒體上說(shuō):“這個(gè)產(chǎn)品不錯(cuò)”,就認(rèn)為他一定喜歡或一定需要這個(gè)產(chǎn)品嗎?
機(jī)器可以對(duì)行為分類,但卻不能真正探測(cè)到人的心理和真實(shí)需求。那么,對(duì)于人的真實(shí)心理和需求的探測(cè),我們?nèi)绾巫龅?這時(shí)候,傳統(tǒng)的市場(chǎng)調(diào)查和分析方法是不可取代的。比如,深度訪談法,比如焦點(diǎn)小組訪談法,投射法等等。這些方法都可以在最大程度上,從心理學(xué)的角度去分析和發(fā)現(xiàn),人真正的欲望和本質(zhì)需求。所以,今天很多大的廣告公司、營(yíng)銷公司,他們?nèi)匀徊捎眠@樣傳統(tǒng)的方法去了解表面數(shù)據(jù)背后的故事和原因。而這些故事和原因,是算法目前沒(méi)辦法做到的,必須由人來(lái)完成。人和人的交流才能探測(cè)人的內(nèi)心。
從這個(gè)角度來(lái)說(shuō),大數(shù)據(jù)并不是萬(wàn)能的,也不能被一味神話,我們必須清晰的認(rèn)識(shí)到它的實(shí)質(zhì),它能用來(lái)干什么,不能用來(lái)干什么。我們可以這樣理解:人對(duì)數(shù)據(jù)的計(jì)算和分析工作如今可能會(huì)被機(jī)器替代,但是,人的另一部分工作(探測(cè)人內(nèi)心的能力)沒(méi)辦法被算法替代。
比如,前兩年我曾報(bào)道過(guò)《寫書都可以用算法實(shí)現(xiàn)自動(dòng)化了,拿什么挽救出版》這樣的新技術(shù),據(jù)稱目前亞馬遜上大量圖書都是被算法寫出來(lái)的,算法會(huì)根據(jù)人寫書的邏輯思路來(lái)組織語(yǔ)言。但是,這些書卻不能彌補(bǔ)人類情感的缺失,不能表達(dá)出社會(huì)背景和作者所處環(huán)境帶來(lái)的情感波動(dòng)等等。
五、大數(shù)據(jù)分析或大數(shù)據(jù)營(yíng)銷面臨的真正挑戰(zhàn)是什么?
1、數(shù)據(jù)冗余問(wèn)題,有沒(méi)有必要用這么多數(shù)據(jù)?
數(shù)據(jù)源問(wèn)題,數(shù)據(jù)質(zhì)量有無(wú)保障,是否是真正所需?
大數(shù)據(jù)分析一直被人稱頌的優(yōu)點(diǎn)就是:海量數(shù)據(jù)的運(yùn)用。但是,數(shù)據(jù)是不是越多越好?如何篩選這些數(shù)據(jù)?如何找到有價(jià)值和有用的數(shù)據(jù)?數(shù)據(jù)的龐大和冗余會(huì)對(duì)大數(shù)據(jù)分析造成什么樣的影響?
對(duì)于大數(shù)據(jù)而言,巨量的數(shù)據(jù)來(lái)源是分析準(zhǔn)確性的根本保證。但是,數(shù)據(jù)量大到一定程度后也面臨著很大問(wèn)題:想要保證準(zhǔn)確度就變的困難了。這樣就難以保障分析結(jié)果的準(zhǔn)確性了。大數(shù)據(jù)分析和預(yù)測(cè)失敗的例子也有很多。比如,最典型和著名的一個(gè)便是谷歌預(yù)測(cè)流感趨勢(shì)失敗的案例。
報(bào)道稱,谷歌是基于搜索引擎數(shù)據(jù)進(jìn)行的分析,其分析結(jié)果與美國(guó)疾病防控中心的監(jiān)測(cè)數(shù)據(jù)相差近兩倍。盡管谷歌不斷調(diào)整算法,但仍不能保證結(jié)果的準(zhǔn)確性。這就說(shuō)明一個(gè)重要問(wèn)題:數(shù)據(jù)源問(wèn)題。谷歌是基于搜索引擎上的搜索詞來(lái)分析的,許多搜索詞都是無(wú)效的,沒(méi)有任何意義的,所以它們不能真的代表流感趨勢(shì),但它們同樣被計(jì)算在內(nèi)。這就造成了結(jié)果的嚴(yán)重偏差。
所以,你弄到的這些數(shù)據(jù),如何保障它們的確是你所需的?的確是重要的?如果數(shù)據(jù)源出現(xiàn)了嚴(yán)重偏差,那么你的分析再精準(zhǔn),那么也是徒勞。比如,你花費(fèi)了大量精力去搜集互聯(lián)網(wǎng)用戶產(chǎn)生的日常分享信息,你對(duì)他們的所有信息都進(jìn)行分析,結(jié)果預(yù)測(cè)出幾種消費(fèi)趨勢(shì)。但是,這些分享信息中有大量冗余信息,數(shù)據(jù)精準(zhǔn)度很差,許多都是跟消費(fèi)沒(méi)有關(guān)系的,那么這種分析結(jié)果很可能就是不準(zhǔn)確的。你按照這種結(jié)果進(jìn)行下一步營(yíng)銷戰(zhàn)略當(dāng)然可能是失敗的。
2、大佬平臺(tái)的游戲,普通企業(yè)難掌握大量數(shù)據(jù);難檢驗(yàn)可信性
各大互聯(lián)網(wǎng)公司平臺(tái)掌握著用戶資源,用戶產(chǎn)生的信息當(dāng)然也被聚集在各平臺(tái)內(nèi)。但是,各家公司或平臺(tái)的數(shù)據(jù)并不會(huì)完全向公眾開(kāi)放。我們只能通過(guò)某些工具抓取到網(wǎng)絡(luò)上散落的信息,但不能準(zhǔn)確掌握完整的有實(shí)際價(jià)值和意義的后臺(tái)數(shù)據(jù)和信息。
而這些海量信息,對(duì)于像谷歌這樣的大互聯(lián)網(wǎng)公司來(lái)說(shuō),就是寶藏。大數(shù)據(jù)或許只是這些大佬平臺(tái)的游戲,普通企業(yè)比較難參與進(jìn)來(lái)。
并且,這些平臺(tái)之間并不互通和開(kāi)放,他們分析出來(lái)的數(shù)據(jù)結(jié)果得不到第三方的驗(yàn)證和檢驗(yàn),我們就無(wú)法知道他們大數(shù)據(jù)分析結(jié)果的有效性和可信性。當(dāng)然,他們將這些數(shù)據(jù)分析用戶自身產(chǎn)品開(kāi)發(fā)和自身發(fā)展上還是很有價(jià)值的。所以,普通人或普通企業(yè)對(duì)于大數(shù)據(jù)的渴望或許是奢望。將來(lái)互聯(lián)網(wǎng)大平臺(tái)公司或許會(huì)售賣大數(shù)據(jù)分析的服務(wù),這很有可能。并且,未來(lái),個(gè)人數(shù)據(jù)管理領(lǐng)域的創(chuàng)新和創(chuàng)業(yè)將會(huì)增加,應(yīng)用也會(huì)增多。
當(dāng)然,以上是我個(gè)人的看法,也歡迎更多專業(yè)人士一起交流探討。