這兩天在faculty版上灌水糾結(jié)大數(shù)據(jù)概念,讓我突然想明白了大數(shù)據(jù)在工業(yè)界興起的
原因:很多規(guī)律在數(shù)據(jù)量大了以后都會(huì)變得很顯然,算法再傻B,在超大量數(shù)據(jù)作用下效果也會(huì)變得很好。因?yàn)殚_(kāi)發(fā)牛B算法開(kāi)銷很大風(fēng)險(xiǎn)很高,而獲取數(shù)據(jù)對(duì)不少公司而言很容易。所以會(huì)出現(xiàn)一個(gè)大數(shù)據(jù)潮流,大家都指著數(shù)據(jù)變成救命法寶。
比如大數(shù)據(jù)的源頭Google,Pagerank其實(shí)就是個(gè)幌子,真正優(yōu)化Google搜索結(jié)果的其實(shí)是人民群眾。結(jié)果被點(diǎn)得多了排名就上去了。算法夠傻B吧。還有Google翻譯也用到了大數(shù)據(jù)技術(shù)。算法是否傻B是和系統(tǒng)復(fù)雜度相對(duì)的。比如linear regression,數(shù)據(jù)量小用atlab三五行就寫出來(lái)了。數(shù)據(jù)量大了就得上Hadoop, Spark,支持運(yùn)算的平臺(tái)比真正的算法要復(fù)雜得多得多。但真相果真如此嗎?做過(guò)machine learning的人都知道,數(shù)據(jù)量增大對(duì)于結(jié)果改善的邊際效應(yīng)是遞減的,而且往往是指數(shù)遞減的。需要獲得10個(gè)百分點(diǎn)的提高,可能需要成千上萬(wàn),甚至億萬(wàn)倍的數(shù)據(jù)量。真是有點(diǎn)愚公移山的感覺(jué)了。
大數(shù)據(jù)的驅(qū)動(dòng)力背后還有更黑暗的真相:提高barrier to entry。這世上聰明人很多。工業(yè)界忽悠算法其實(shí)是最危險(xiǎn)的。因?yàn)樗惴ǖ陌l(fā)明往往是單槍匹馬干的。如果一個(gè)大公司建立在一個(gè)算法的基礎(chǔ)之上,豈不是有被但強(qiáng)匹馬干掉的危險(xiǎn)?特別是學(xué)術(shù)界雖然不濟(jì),幾百年才出一個(gè)牛頓愛(ài)因斯坦這樣的人物,但方法論一直是正確的,難保不出一兩個(gè)真正管用的新算法?,F(xiàn)在告訴你,你沒(méi)個(gè)一千臺(tái)機(jī)器就沒(méi)法做研究,把智力門檻轉(zhuǎn)換成資本門檻,并且搞一個(gè)虛無(wú)飄渺的概念,把funding標(biāo)準(zhǔn)從科研水準(zhǔn)轉(zhuǎn)換成忽悠水準(zhǔn)。以此打擊真正的科學(xué)研究,試圖多維持幾年大公司的盈利。其用心不可不謂險(xiǎn)惡。
此計(jì)一出,大合那些腦子已經(jīng)使不動(dòng)了的學(xué)霸的心意,于是大數(shù)據(jù)一夜之間就火了。
原文鏈接:http://www.thebigdata.cn/YeJieDongTai/13981.html