生火這一技術的由來在過去的一百萬年間都很有趣,但是黑夜的結束,冬季的溫暖以及燉出來的第一罐湯才真正改變了一切東西!
我最近讀了一些“大數據”方面的文章,發(fā)現了這個最新的科技泡沫中迷惑但是完全可預測的趨勢。由于大數據很熱門、時髦、并且性感,表面上看很有趣。每個人都加入進來,躍躍欲試,好像他們是專家一樣。如果這讓你開始覺得像是知識分子在Facebook上關于國際政治的演講一樣,這絕非意外。在大數據的討論中摻雜的專業(yè)知識和經驗,與Facebook上關于政治的空話一樣。
我想我可能會幫你判斷自己的大數據專家到底是不是真正的專家。看看下面的這些言論對你來講是不是很熟悉呢。
1.他們談論的都是”大“和”數據“,而不是 “新問題”
看上去好像整個科技行業(yè)都沉浸在 “大數據”之中。所有人都在討論它,剛剛成立的公司如雨后春筍般出現,LinkedIn上99.9%的簡歷都包括”數據科學家“這個詞語,然而人們并不清楚這個詞語真正的意義是什么。
確實,大多數的公司在并沒有太大的商業(yè)價值的硬件和軟件上投入了大量的錢。這并不奇怪。”大數據“對于發(fā)生在我們身邊的變革來講是個糟糕的名字。這與”大“無關,與”數據“也無關,而是與新問題有關,接觸海量的數據的方便性更促使了新問題的產生。去年我聽過Klout網站(一個評價影響力的網站)的技術主任做的一個報告。他提到,他們的數據庫有1.3萬億行的數據,就像是他們那里有那么多人一樣;也智能如此吧。
如果你現在問的問題還是以前-----有沒有更多的數據這種老問題,那并不是在做“大數據”,而是在做”大的商務智能”,這個詞語本身就是矛盾。
2.他們談論的是技術,而非商業(yè)
有一天有個人問我,“Hadoop 對數據歸檔有什么影響”。 Hadoop是一種工具,大數據是一個商業(yè)現象。很多人認為Hadoop是一種解決方法,大數據僅僅是在檔案中蹲坐著的數據。錯誤的信息和銷售宣傳使人們迷失其中。
很容易這些人就陷入了速度和容量、特性與功能的討論中。這項技術是由工程驅動的,沒有什么比填的滿滿的的規(guī)格表更能引起我們這些工程師興奮了。如果你是一個謹慎的CFO;世界上沒有比一個招人嫉妒的軟件架構師更昂貴的了。
很多企業(yè)現在問了在大數據中投入了這么多的資金,也要問了,“價值在哪兒?”好吧,如果你不將自己的項目聚焦到對商業(yè)問題的理解和解決上,那么你的項目所研究的出來的結果不大有可能是解決商業(yè)問題的方案。
你可能會建成世界上最大的云服務商,但是除了留給自己一點自夸的東西,誰又關心這個呢?從一個商業(yè)問題開始,弄清楚怎樣將問題數據化,然后利用科技找到解決方法。
3.他們關心大數據更內在的東西,而不是行動
我合作過的很多機構將數據分析作為結果,完全忽視了大數據的重點:行動。你可以構造出世界上最大的云結構,將其填滿最干凈的數據,用最好的數學模型模擬,產生令人驚奇的見解。如果這些工作做完了之后,你還沒有改變公司的行為方式,你的產品和服務可以幫助你的顧客做些什么呢,或者你是怎樣關懷周圍的世界的呢。終歸到底,你會徹底失敗。
大數據不能僅僅是新的見解,它必須是新的行動和新的結果。我并不是LHC的癡迷者,這個人類歷史上最大的科學實驗,最近確認了上帝粒子(Higgs粒子)的存在。然而,如果Higgs的知識沒有賦予這個粒子一些意義,我們都將繼續(xù)質疑在LHC上花費的數十億美金是否值得。
洞察力很重要,但是行動才是養(yǎng)家掙錢的來源。如果你的“大數據專家”在提出新見解的路上樂此不疲,而不是想法設法創(chuàng)造新的商業(yè)成效。那你是在經營一個科學實驗了。
4.他們討論的是結論,而非聯(lián)系
如果你已經從花費在大數據的努力中得到分析性結果了,你的“大數據科學家”在談論的是“結論”,這一波的大數據專家很多并不理解聯(lián)系和誘因之間的細微差別。兩者看上去是一樣的,然而涉及到行動時,這區(qū)別可大了去了。聯(lián)系意味著在各事物之間有著存在著表面上的關系,預示著某個特定的輸入也許會引起某些特定的結果。但是,在“聯(lián)系”中不存在確定性。誘因就不一樣了
只要記住,近似永遠都是近似。
這對喜歡絕對的商業(yè)人士來說是當頭棒喝;至少他們想要看上去是絕對的過程。好吧,在分析學中沒有這樣的事情。你的數據可能代表著一堆事實,但是分析學和統(tǒng)計學就如同劇院一樣。你看到的不一定總是你得到的。確實,許多“數據學家”更傾向于是“數據操作工”。為支持某個議會給出政策上可接受的結果。
聯(lián)系不能成為誘因。任何告訴你找到誘因的大數據專家應該被馬上質疑直到其他方面證明他沒有騙人。
5.他們討論的是數據質量,而不是數據有效性
我看到花費在數據質量問題上的筆墨越來越多。你在用好的數據嗎?你怎么知道,你怎樣凈化數據的呢?這些都是在數據庫和業(yè)務智能聯(lián)合論壇上的問題。數據質量是一個問題,在那么多的垃圾流進流出后。但是關注凈化數據只是數據庫的思維模式中的一部分。除此之外,還有一個價值數百億美金的行業(yè)。他們關注提取-轉化-上傳這個整體,有這種思維模式的商人掙扎在將數據與現實世界聯(lián)系起來的路上。
盡管數據質量重要,數據有效性更重要;我究竟有沒有回答我所提出的問題的有效數據呢?通常,答案會是“沒有”。除非你問的是一個你們公司已經問了好幾十年的老問題,這樣的話,又何必問呢?
如果你問的是新數據的新問題,你怎樣直到那些數據是好的,哪些又是壞的呢?你又將哪些數據定義為“干凈”的,哪些又是“臟”的呢?直到你開始研究這些由新的分析產生的新結果,進而才能發(fā)現這些結果是好的還是壞的,你怎么可能在輸入數據的時候定義哪些是干凈的,哪些是臟的?
再一次,這是老套的跳出數據庫/業(yè)務智能行業(yè)思維的方式,而且與新開發(fā)出來的大數據的領域不合適。許多分析都需要有效的數據,但是在判斷數據是否有效前就問這數據是不是干凈的是無論怎樣都沒有意義的。
6.他們聽上去跟其他討論大數據的人說的一樣
我們被埋沒在大數據的噪聲中。確實,是需要一些人來研究大數據的真正意義。更多的,我聽到的是同一個課題被一再的重復;只是被誤解、被引錯,要不就是在推動產品或服務的名義下變態(tài)發(fā)展。
這令人感到羞恥,因為大數據的背后是社會行為,而且將會一直這樣。如果你的大數據專家不談論這些數據背后的社會,行為模式,政治和經濟的話,那你就錯失良機了。這個技術很有趣,但是也只是一個找到更有意義的結論的方法。
生火這一技術的由來在過去的一百萬年間都很有趣,但是黑夜的結束,冬季的溫暖以及燉出來的第一罐湯才是真正改變了一切東西!
如果你的“大數據專家”不能明白這個,那他們永遠也不能明白了,你也是。
克里斯托弗·蘇達克:
賓夕法尼亞州立大學機械工程學學士,美國塔夫脫大學法學學士。賓夕法尼亞大學沃頓商學院高級技術管理學碩士,美國維拉諾瓦大學信息安全學碩士。
商業(yè)數據系統(tǒng)與業(yè)務模式的設計者和創(chuàng)新者。大學畢業(yè)后,進入世界最大的國防工業(yè)承包商洛克希德·馬丁空間系統(tǒng)公司總部,擔任空間系統(tǒng)工程師和火箭專家。離開該公司后,先后于BDM 信息技術公司和瑪氏糖果公司擔任高級戰(zhàn)略顧問,后又在埃森哲、西門子、戴爾和花旗銀行等領先企業(yè)擔任高級戰(zhàn)略顧問和技術架構師。他的服務對象包括美國商務部、世界銀行、國際貨幣基金組織、摩根士丹利、百事可樂、三星、沃爾瑪等。
2014年getAbstract國際圖書獎獲得者,《歐洲商業(yè)評論》雜志撰稿人。