大數(shù)據(jù)理論遇上新興分析工具 挑戰(zhàn)無(wú)處不在

責(zé)任編輯:editor005

作者:Ed Burns

2016-11-11 14:41:27

摘自:TechTarget中國(guó)

對(duì)于大數(shù)據(jù),有觀點(diǎn)認(rèn)為有了足夠大的數(shù)據(jù)集,分析的統(tǒng)計(jì)方法就是非必要的。雖然“N等價(jià)于所有”的理論在短短幾年前還是革命性的產(chǎn)物

對(duì)于大數(shù)據(jù),有觀點(diǎn)認(rèn)為有了足夠大的數(shù)據(jù)集,分析的統(tǒng)計(jì)方法就是非必要的。我們將其稱為“N等價(jià)于所有”的理論。而按這樣的說(shuō)法,抽樣和推理都是浪費(fèi)時(shí)間。擁有了所有的數(shù)據(jù),就只需讓數(shù)據(jù)說(shuō)話。

雖然“N等價(jià)于所有”的理論在短短幾年前還是革命性的產(chǎn)物,作為正在上線的新穎而且更具潛在價(jià)值的分析方法,它很快就過(guò)時(shí)了。對(duì)于將所有數(shù)據(jù)對(duì)應(yīng)一個(gè)給定主題這樣的概念,物聯(lián)網(wǎng)(IoT)分析和認(rèn)知計(jì)算這對(duì)大數(shù)據(jù)的流行觀點(diǎn)帶來(lái)了挑戰(zhàn),而且這也要求那些分析專家重新對(duì)他們的做法進(jìn)行評(píng)估。

“N等價(jià)于所有”的框架的早期形成是在2008年——大數(shù)據(jù)時(shí)代的開(kāi)端。Chris Anderson在《連線》雜志中撰文談及的例子提到,在廣告和生物等領(lǐng)域,拍字節(jié)大小的數(shù)據(jù)存儲(chǔ)可以讓答案變得清晰。足夠大的數(shù)據(jù)集意味著研究人員甚至不需要設(shè)定問(wèn)題或是假設(shè)。這些數(shù)字說(shuō)明了一切。但是當(dāng)你在談?wù)撔屡d分析技術(shù)的時(shí)候,事情并不是這樣的。

物聯(lián)網(wǎng)不會(huì)將所有數(shù)據(jù)收入囊中

一說(shuō)到物聯(lián)網(wǎng),會(huì)很自然地將曾經(jīng)所有的數(shù)據(jù)排除在外。它包括每秒鐘刷新的源源不斷傳入的信息流。它會(huì)告訴你時(shí)刻發(fā)生的事情,而不是尋求獲得大量關(guān)鍵數(shù)據(jù)來(lái)回答可溯源問(wèn)題。

最有效的物聯(lián)網(wǎng)策略可以從傳統(tǒng)大數(shù)據(jù)的角度識(shí)別技術(shù)有何不同。對(duì)于物聯(lián)網(wǎng)來(lái)說(shuō),邊緣分析已經(jīng)成為關(guān)鍵組成部分。這包括了在隨著數(shù)據(jù)創(chuàng)建用于計(jì)算的邊緣網(wǎng)絡(luò)的網(wǎng)絡(luò)設(shè)備和傳感器中的統(tǒng)計(jì)算法,對(duì)于要將哪些數(shù)據(jù)送回中心數(shù)據(jù)庫(kù),要拋棄哪些數(shù)據(jù),它們會(huì)進(jìn)行決策。在這種情況下,更多的數(shù)據(jù)只會(huì)是負(fù)擔(dān)。你永遠(yuǎn)不會(huì)想要所有的數(shù)據(jù)。我們會(huì)使用統(tǒng)計(jì)方法來(lái)決定使用哪些數(shù)據(jù)。

認(rèn)知計(jì)算帶來(lái)不同的挑戰(zhàn)

由認(rèn)知計(jì)算帶來(lái)的對(duì)主流大數(shù)據(jù)理論的挑戰(zhàn)是有所不同的。在認(rèn)知計(jì)算中,不論我們是否在談?wù)撊斯ぶ悄?AI)或深度學(xué)習(xí),或者你是否能有足夠的數(shù)據(jù)是沒(méi)有意義的。算法通過(guò)經(jīng)驗(yàn)加以改進(jìn),而且它們?cè)绞谦@得更多的訓(xùn)練,表現(xiàn)會(huì)越出色。

谷歌的圍棋人工智能算法AlphaGo(阿爾法狗)通過(guò)提取人類玩家完成的3000萬(wàn)棋局走法,學(xué)會(huì)了玩棋類游戲。這是作為該算法的初步訓(xùn)練,但這還不夠。接著它跟自己下了數(shù)千局棋,并對(duì)每場(chǎng)比賽進(jìn)行改進(jìn)。最終,它改進(jìn)到能夠擊敗該棋類游戲的每個(gè)人類大師。

但是,從理論上講,該算法還是能夠通過(guò)不斷學(xué)習(xí)來(lái)進(jìn)行自身優(yōu)化。你永遠(yuǎn)不能說(shuō)它已經(jīng)學(xué)會(huì)了玩兒這種游戲的所有內(nèi)容。這同樣適用于像語(yǔ)音識(shí)別,計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理之類的其他深度學(xué)習(xí)實(shí)踐。人類是認(rèn)知計(jì)算算法最為接近的模擬。沒(méi)有理由認(rèn)為一種算法能夠獲得所有需要的數(shù)據(jù)來(lái)最優(yōu)地執(zhí)行這些任務(wù)。

是時(shí)候重新考慮大數(shù)據(jù)的性質(zhì)了

曾經(jīng)有段時(shí)間“N等價(jià)于所有”的大數(shù)據(jù)理論被認(rèn)為是終極的價(jià)值主張。調(diào)查整個(gè)數(shù)據(jù)集的能力似乎為提出特定問(wèn)題和接收特定的答案提供了功能,而不必依賴必須涉及一定程度上不確定性的統(tǒng)計(jì)方法。

但是,越來(lái)越多的企業(yè)真正的價(jià)值和他們?cè)谑袌?chǎng)上逐漸面臨差異將來(lái)自于這些新興的分析趨勢(shì)。那些想要在業(yè)界保持領(lǐng)先的企業(yè)需要對(duì)“什么是大數(shù)據(jù)”進(jìn)行重新審視。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)