4480yy私人午夜a级,办公室大战高跟丝袜秘书经理ol,亚洲中文字幕日韩

大數(shù)據(jù)在工業(yè)界流行的黑暗真相

責(zé)任編輯：editor006

作者：wdong (cybra)

2015-04-13 13:09:36

摘自：中國(guó)大數(shù)據(jù)

這兩天在faculty版上灌水糾結(jié)大數(shù)據(jù)概念，讓我突然想明白了大數(shù)據(jù)在工業(yè)界興起的　　原因：很多規(guī)律在數(shù)據(jù)量大了以后都會(huì)變得很顯然，算法再傻B，在超大量數(shù)據(jù)作用下效果也會(huì)變得很好。

這兩天在faculty版上灌水糾結(jié)大數(shù)據(jù)概念，讓我突然想明白了大數(shù)據(jù)在工業(yè)界興起的

原因：很多規(guī)律在數(shù)據(jù)量大了以后都會(huì)變得很顯然，算法再傻B，在超大量數(shù)據(jù)作用下效果也會(huì)變得很好。因?yàn)殚_(kāi)發(fā)牛B算法開(kāi)銷很大風(fēng)險(xiǎn)很高，而獲取數(shù)據(jù)對(duì)不少公司而言很容易。所以會(huì)出現(xiàn)一個(gè)大數(shù)據(jù)潮流，大家都指著數(shù)據(jù)變成救命法寶。

比如大數(shù)據(jù)的源頭Google，Pagerank其實(shí)就是個(gè)幌子，真正優(yōu)化Google搜索結(jié)果的其實(shí)是人民群眾。結(jié)果被點(diǎn)得多了排名就上去了。算法夠傻B吧。還有Google翻譯也用到了大數(shù)據(jù)技術(shù)。算法是否傻B是和系統(tǒng)復(fù)雜度相對(duì)的。比如linear regression，數(shù)據(jù)量小用atlab三五行就寫出來(lái)了。數(shù)據(jù)量大了就得上Hadoop, Spark，支持運(yùn)算的平臺(tái)比真正的算法要復(fù)雜得多得多。但真相果真如此嗎?做過(guò)machine learning的人都知道，數(shù)據(jù)量增大對(duì)于結(jié)果改善的邊際效應(yīng)是遞減的，而且往往是指數(shù)遞減的。需要獲得10個(gè)百分點(diǎn)的提高，可能需要成千上萬(wàn)，甚至億萬(wàn)倍的數(shù)據(jù)量。真是有點(diǎn)愚公移山的感覺(jué)了。

大數(shù)據(jù)的驅(qū)動(dòng)力背后還有更黑暗的真相：提高barrier to entry。這世上聰明人很多。工業(yè)界忽悠算法其實(shí)是最危險(xiǎn)的。因?yàn)樗惴ǖ陌l(fā)明往往是單槍匹馬干的。如果一個(gè)大公司建立在一個(gè)算法的基礎(chǔ)之上，豈不是有被但強(qiáng)匹馬干掉的危險(xiǎn)?特別是學(xué)術(shù)界雖然不濟(jì)，幾百年才出一個(gè)牛頓愛(ài)因斯坦這樣的人物，但方法論一直是正確的，難保不出一兩個(gè)真正管用的新算法?，F(xiàn)在告訴你，你沒(méi)個(gè)一千臺(tái)機(jī)器就沒(méi)法做研究，把智力門檻轉(zhuǎn)換成資本門檻，并且搞一個(gè)虛無(wú)飄渺的概念，把funding標(biāo)準(zhǔn)從科研水準(zhǔn)轉(zhuǎn)換成忽悠水準(zhǔn)。以此打擊真正的科學(xué)研究，試圖多維持幾年大公司的盈利。其用心不可不謂險(xiǎn)惡。

此計(jì)一出，大合那些腦子已經(jīng)使不動(dòng)了的學(xué)霸的心意，于是大數(shù)據(jù)一夜之間就火了。

原文鏈接：http://www.thebigdata.cn/YeJieDongTai/13981.html

大數(shù)據(jù)