最近這段時間有很多人問我,大數(shù)據(jù)到底是什么。當然實際上問題沒有那么直接。更多的問題是,飛總啊你看我親戚家的那個企業(yè)是不是可以上個大數(shù)據(jù)啊,用起來就能發(fā)財了?;蛘哒f這個大數(shù)據(jù)的新開源項目是不是對我提高這個那個有幫助啊。諸如此類的問題問多了,我也就在問我自己,寫大數(shù)據(jù)系列寫到現(xiàn)在了,大數(shù)據(jù)到底是個什么鬼。
這就讓我想到了很多年前看到的Dan Ariely關(guān)于大數(shù)據(jù)的名言:
Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it.
這位普度大學(xué)的叫獸主要是做行為經(jīng)濟學(xué)研究的。但是聰明人到哪里都一樣,這段大數(shù)據(jù)的名言到今天來看依然是非常的精彩。
今天如果我們以大數(shù)據(jù)作為關(guān)鍵詞去搜索的話,那么我們可以搜出來的東西不但很多而且很精彩。各行各業(yè)的磚家叫獸們有著各種各樣的精彩言論。各種白皮書紅皮書黑皮書綠皮書滿天飛。無論是做技術(shù)的做投資的做商務(wù)的搞經(jīng)濟的乃至做地震的搞生物的開發(fā)石油的開車的,但凡你能想象得到的領(lǐng)域,都可以掛上大數(shù)據(jù)。死數(shù)據(jù)活數(shù)據(jù)各種術(shù)語滿天飛。這是一個大數(shù)據(jù)的年代,雖然有點過氣了。這是一個沒有大數(shù)據(jù)就沒有這個世界的年代。有些文字讀起來是頗有激揚文字糞土舊時代的感覺。但是你要真的問問這些專家們叫獸們,還有組團賣產(chǎn)品的各大公司們,說法五花八門,誰也沒搞明白到底什么是大數(shù)據(jù)。于是乎,Dan Ariely的名言拿到今天的各行各業(yè),頗有一番照妖鏡的味道。
我記得當華為準備進軍云計算市場的時候,2015年的宣傳里面是沒有大數(shù)據(jù)的,只有云計算,所謂大數(shù)據(jù)相關(guān)的服務(wù)只是作為云計算的各種服務(wù)之一來提供的。而到了今天再看華為的宣傳,大數(shù)據(jù)已經(jīng)是作為一個獨立的東西提出來了。這從業(yè)務(wù)邏輯結(jié)構(gòu)來看,華為顯然從2015年到2017年完成了一個從大數(shù)據(jù)等于云計算的一部分到大數(shù)據(jù)不等于云計算的轉(zhuǎn)變。至于這種轉(zhuǎn)變背后說明了什么,作為一個大數(shù)據(jù)市場上的后來者的這番變化,我們這些吃慣群眾們可以好好想一下。
我們在大數(shù)據(jù)甚囂塵上,乃至于現(xiàn)在人工智能甚囂塵上的時候,到底能夠從這里面看到點什么。我們需要注意的是,在歷史上從來都不缺乏新概念。互聯(lián)網(wǎng)行業(yè)也從來不缺乏新概念,比如網(wǎng)格計算,比如web service。然而技術(shù)其實就那么多,新概念里面到底是在玩舊酒裝進新瓶的玩意,還是真的推陳出新是每個人應(yīng)該具備鑒別能力的地方。所謂大數(shù)據(jù)和聚集在大數(shù)據(jù)這個殼下面的林林總總的東西,有些是新瓶子里裝了舊酒,有些是真玩意。到底哪些是舊貨哪些是新東西就得看各位的鑒別能力了。至于為什么會這樣,換個殼賣東西,來錢比較快。人都是喜新厭舊的啊。
如果我們拿大數(shù)據(jù)的鼻祖谷歌舉個例子,先有三駕馬車,后有Spanner大殺器。前者是指Google File System, MapReduce, BigTable. 作為Google來說,它需要這些技術(shù),因為它要面對的是整個互聯(lián)網(wǎng)的數(shù)據(jù)?,F(xiàn)存的技術(shù)當然沒辦法來滿足。但是作為用戶來說,其實我管你是GFS, HDFS還是其他什么名字,說白了就是個文件系統(tǒng)。文件系統(tǒng)能干嗎,只能存文件唄。存了文件以后呢?查詢處理,這個套路從單機時代就開始了。沒有辦法處理,那就發(fā)明了MapReduce啊。MapReduce像匯編一樣又慢又難用,自然有人在上面繼續(xù)構(gòu)建抽象的好用的東西。說這個的意思,其實是我們應(yīng)該考慮是從用戶角度看問題還是從技術(shù)人員角度看問題。比如說我就遇到過有人問我手里一把數(shù)據(jù)怎么處理,是不是應(yīng)該搞個大數(shù)據(jù)的東西,我跑去一看,乖乖,就10多個GB的數(shù)據(jù)。用個postgress或者mysql也就夠?qū)Ω读?。真要上了Hadoop再用HIVE,那只能是腦抽了。
再舉個例子HIVE,不要看這東西名字多炫酷,facebook說過他們想做的是什么:SQL on Hadoop。SQL這個東西我想是個人都明白。那么不管技術(shù)實現(xiàn)是什么,本質(zhì)上來說那還是個SQL。至于SQL能干嗎,不需要叫的多高大上,大家都明白。
我們有了NoSQL,最開始是Key-Value Store。其實這個名字已經(jīng)比較糊涂了,不妨直接用它最基本的名字:Map. Map這個數(shù)據(jù)結(jié)構(gòu)大家都懂。所以所謂的NoSQL最初來干嘛大家應(yīng)該也就明白了。至于背后實現(xiàn)的技術(shù),那對很多人來說其實是細節(jié)。這個東西是用來解決一類問題的。而這類問題是不是必須掛在大數(shù)據(jù)下面,就得問大數(shù)據(jù)到底是什么了?NoSQL很快就變成了雜種。各種各樣的db,沒有實現(xiàn)SQL的,都說自己是NoSQL。因為大家都知道沾上這個名字的光可以更有效的傳播自己,來錢更快。
現(xiàn)在又有人發(fā)明了NewSQL,用來區(qū)別NoSQL和以前的SQL,目的是什么呢?標新立異唄。所謂NewSQL就是指Spanner的copycat們給自己取的新名詞。說白了對用戶來說那不還是個SQL產(chǎn)品嗎?new能new到哪里去。這世界上如果說需要那個規(guī)模的企業(yè),估計都能養(yǎng)起一只隊伍來維護新的開源產(chǎn)品。如果不需要那個規(guī)模的,跑個mysql Postgress的也不一定差到哪里去。至于人傻錢多的所謂500強國企,上個Oracle或者SQL Server又或者Hana也挺好的。雖然人傻錢多,貴是貴了點,其實真的沒啥差別。Google最近把Spanner開出來作為大殺器來作為云服務(wù)的一部分,而且價格賊貴,我想多半也是想借助NewSQL這個名頭來多撈點錢。
說了這么多,其實只是想說一個問題,在概念滿天飛的今天,什么東西都掛到了BigData下面。但是BigData到底是什么東西,這么定義,要解決什么問題,范圍在哪里,其實是沒有一個定數(shù)的。至于各種專家教授從經(jīng)濟學(xué)行為學(xué)心理學(xué)各行各業(yè)各種學(xué)來解釋大數(shù)據(jù)這個東西多么的偉大有多大影響的話,說白了都是然并卵。我并不排除有很多睿智的人,寫了很多真知灼見。但是我覺得最重要的一點,作為使用者和了解大數(shù)據(jù)的人,最好塵歸塵土歸土的把東西都拆開來,看看每項技術(shù)是用來具體解決什么問題的。這個技術(shù)的創(chuàng)新到底是在內(nèi)部實現(xiàn)上,還是在用戶接口上。很多時候,作為用戶,SQL還是那個SQL,不管是HIVE還是Postgree還是Oracle。數(shù)據(jù)倉庫還是那個數(shù)據(jù)倉庫,不管是Business Object還是麒麟。
古話說的好,渾水摸魚,把水攪渾了,一鍋粥的端上來叫大數(shù)據(jù)套餐,才能更好的收購各位的口袋。