大數(shù)據(jù)這個(gè)關(guān)鍵字從去年紅到今年,早已成為科技業(yè)的重要趨勢(shì),研調(diào)機(jī)構(gòu)IDC便預(yù)測(cè)2015年將有超過25%的企業(yè)導(dǎo)入巨量資料方案,而美國(guó)專業(yè)招聘公司羅致恆富(Robert Halt)公布的《2015薪資指南(2015 Salary Guide》更把大數(shù)據(jù)工程師列為今年薪資漲幅最大的六大行業(yè)之一,預(yù)計(jì)薪資年成長(zhǎng)率9.3%,平均年薪119,250美元至168,250美元。
臺(tái)灣從企業(yè)到政府也人人高喊大數(shù)據(jù),連向來(lái)對(duì)新科技接受速度最慢的政府都開始動(dòng)作。行政院長(zhǎng)毛治國(guó)甫上任祭出的科技叁箭,就有兩箭跟數(shù)據(jù)息息相關(guān),一個(gè)是開放資料,一個(gè)是大數(shù)據(jù),新北市政府日前也推出全國(guó)第一個(gè)「?jìng)鹘y(tǒng)產(chǎn)業(yè)大數(shù)據(jù)應(yīng)用示範(fàn)計(jì)畫」,希望導(dǎo)入大數(shù)據(jù)分析,幫助金屬、機(jī)械和紡織等傳統(tǒng)產(chǎn)業(yè)轉(zhuǎn)型,還在日前的新北大數(shù)據(jù)論壇活動(dòng)中請(qǐng)來(lái)美國(guó)大數(shù)據(jù)分析與儲(chǔ)存技術(shù)公司Teradata首席技術(shù)長(zhǎng)寶立明(Stephen Brobst)來(lái)分享大數(shù)據(jù)趨勢(shì)。
寶立明此次來(lái)臺(tái)除了出席新北大數(shù)據(jù)論壇分享大數(shù)據(jù)趨勢(shì),更受邀至行政院與毛治國(guó)暢談開放資料政策,分享美國(guó)政府開放資料的經(jīng)驗(yàn)以供臺(tái)灣借鏡。寶立明去年被ExecBank選為全美排名第四的CTO(前叁名分別是亞馬遜、特斯拉和英特爾),在2500名頂尖CTO中脫穎而出,他不僅是全球一流的數(shù)據(jù)專家,更曾成功創(chuàng)立叁家提供數(shù)據(jù)服務(wù)的公司,后來(lái)陸續(xù)被IBM、NCR等大廠併購(gòu),他也是歐巴馬的創(chuàng)新科技顧問委員會(huì)的一員。
身為全球頂尖的大數(shù)據(jù)專家,寶立明在接受《數(shù)位時(shí)代》專訪時(shí)卻說(shuō),他認(rèn)為大數(shù)據(jù)這個(gè)詞將會(huì)在五年內(nèi)消失,并認(rèn)為從物理學(xué)家到社會(huì)學(xué)家都會(huì)是優(yōu)秀的數(shù)據(jù)科學(xué)家,以下為寶立明專訪的內(nèi)容摘要:
1. 大數(shù)據(jù)這個(gè)詞近年來(lái)非?;鸺t,但也有人認(rèn)為大數(shù)據(jù)已處在泡沫期,您怎么看這種人人高喊大數(shù)據(jù)的現(xiàn)象?
我承認(rèn)現(xiàn)在整個(gè)社會(huì)上瀰漫著一股大數(shù)據(jù)熱潮,但我認(rèn)為這不失為一種好現(xiàn)象,因?yàn)檫@讓大家注意到這個(gè)世界上還有許多尚未被挖掘,并且充滿價(jià)值的資料,我認(rèn)為在這股熱潮當(dāng)中,其實(shí)是有黃金的,但就像你說(shuō)的,其實(shí)還是有很多人不知道大數(shù)據(jù)是什么意思,更不知道怎么用他。
他們以為大數(shù)據(jù)就是指大數(shù)目的數(shù)據(jù),事實(shí)上,我認(rèn)為這是大數(shù)據(jù)中最無(wú)趣的部分,我們真正在尋找的是非傳統(tǒng)的、而且未曾被挖掘過的資料,并且從這些資料中去提煉出價(jià)值,我相信在五年內(nèi)我們就不會(huì)再使用「大數(shù)據(jù)」這個(gè)詞了,到頭來(lái)大數(shù)據(jù)就只是資料而已,不是嗎?資料是很重要,但是這個(gè)世界上還有一大堆以往根本不被視為是資料的資料在那邊等著我們挖掘,到最后,人們會(huì)開始回頭分析這些資料,他們會(huì)發(fā)現(xiàn),大數(shù)據(jù)不過就只是數(shù)據(jù)的一種,大數(shù)據(jù)、小數(shù)據(jù)、結(jié)構(gòu)化、非結(jié)構(gòu)化的資料...這些稱唿通通都不重要,因?yàn)檫@些都是資料啊,這是我認(rèn)為為什么到最后大數(shù)據(jù)這個(gè)詞匯將會(huì)煺燒的塬因。
2. 你認(rèn)為數(shù)據(jù)經(jīng)濟(jì)以后將會(huì)成為每個(gè)企業(yè)的DNA嗎?
是的沒錯(cuò),人們將會(huì)依據(jù)一家公司是否有效地運(yùn)用數(shù)據(jù),來(lái)定義這家公司是否成功。大數(shù)據(jù)這個(gè)詞也許是叁年前才出現(xiàn)的,但其實(shí)它早在十年前就有了,概念比名詞出現(xiàn)得更早,在八年前發(fā)生了一個(gè)比較重大的轉(zhuǎn)變,人們從研究一筆交易變成研究互動(dòng),我們開始往下鉆研,不只研究一筆交易,更研究真實(shí)的顧客體驗(yàn),因此我認(rèn)為雖然不是每一個(gè),但許多大數(shù)據(jù)應(yīng)用必須要能夠更妥善了解顧客的行為和體驗(yàn)。
我認(rèn)為大數(shù)據(jù)發(fā)展可以分成叁階段:
第一階段是.com時(shí)期,人們研究log資料,蒐集人們的Cookie和搜尋行為等等,這類分析已經(jīng)存在很久了,我們不只知道使用者買了什么東西而已,而是更深層地去分析行為,一筆交易只告訴我價(jià)值,但沒有告訴我顧客體驗(yàn),大數(shù)據(jù)想要去分析的是顧客體驗(yàn)。
第二階段是社交網(wǎng)站,這也是我們現(xiàn)在正在經(jīng)歷的階段,我們分析Facebook、Twitter、部落格文章...等等等,這可以幫助我們進(jìn)一步了解顧客行為。
第叁階段是物聯(lián)網(wǎng),這是我覺得最有趣的階段,有些企業(yè)已經(jīng)開始分析來(lái)自感測(cè)器的數(shù)據(jù)了,在這邊我說(shuō)的物聯(lián)網(wǎng)不只是穿戴式裝置或智慧家庭而已,我說(shuō)的是機(jī)器與機(jī)器之間的溝通,這些資料的價(jià)值很值得被研究?,F(xiàn)在製造業(yè)都會(huì)訂下一些規(guī)矩,例如我們的汽車每半年就要進(jìn)廠維修,就跟人每年都要去做健康檢查一樣,我認(rèn)為這是非常過時(shí)的想法,一旦我們用感測(cè)器去蒐集引擎、汽車和生理數(shù)據(jù),我們就可以精確知道何時(shí)需要進(jìn)廠維修或做健康檢查,這就叫做預(yù)測(cè)性維修(condition based maintenance),這個(gè)概念對(duì)于促進(jìn)顧客體驗(yàn)、效益和健康保險(xiǎn)等領(lǐng)域非常重要。
3.你對(duì)大數(shù)據(jù)的定義是什么?
一般來(lái)說(shuō)我們用3V定義大數(shù)據(jù),容量(Volume)、快速(Velocity)與多樣性(Variety),其中我認(rèn)為最重要的是多樣性,資料不只來(lái)自那些傳統(tǒng)管道,有更多來(lái)自非傳統(tǒng)管道的非傳統(tǒng)資料產(chǎn)生,我認(rèn)為價(jià)值(Value)是第四個(gè)V,人們常常忘了這件事,他們專注于技術(shù),卻忘了創(chuàng)造價(jià)值,但這卻是一個(gè)大數(shù)據(jù)計(jì)畫能否成功的關(guān)鍵:這不只關(guān)乎技術(shù),而是你能用技術(shù)創(chuàng)造出什么價(jià)值。
4.臺(tái)灣有許多中小企業(yè),許多中小企業(yè)也許認(rèn)為大數(shù)據(jù)是個(gè)離他們很遙遠(yuǎn)的概念,因?yàn)樗麄兏緵]有「大數(shù)據(jù)」,您會(huì)給他們什么樣的建議?
這些小企業(yè)一看到大數(shù)據(jù)就會(huì)想說(shuō),喔這一定是很大的數(shù)據(jù)才有辦法做,但數(shù)據(jù)的量其實(shí)從來(lái)都不是重點(diǎn),我認(rèn)為「大數(shù)據(jù)」是個(gè)非常差勁的命名,因?yàn)樗屓藗冎苯勇?lián)想到「大」,但數(shù)據(jù)的大小其實(shí)是最無(wú)趣的部分,最重要的其實(shí)是那些你從來(lái)沒有想過可以用的數(shù)據(jù)以及那些非傳統(tǒng)的資料,我認(rèn)為這才是人們對(duì)大數(shù)據(jù)應(yīng)有的認(rèn)知。
有許多新創(chuàng)企業(yè)在思考如何用大數(shù)據(jù)創(chuàng)造全新的商業(yè)模式,例如硅谷最近有一個(gè)正在做P2P交易服務(wù)的新創(chuàng)公司,比如說(shuō)我們一起去吃午餐,你買單,然后我透過手機(jī)給你我的部份的錢,這不是什么新的概念,但這家公司有趣的地方他不收任何手續(xù)費(fèi),而銀行一點(diǎn)都不喜歡這個(gè)主意,你知道現(xiàn)在的銀行交易都必須額外負(fù)擔(dān)手續(xù)費(fèi),銀行于是說(shuō):「你怎么可以完全不收手續(xù)費(fèi)?」這家公司說(shuō),因?yàn)檫@些交易資料本身的價(jià)值遠(yuǎn)遠(yuǎn)超過手續(xù)費(fèi)本身。
從此之后,這家公司會(huì)知道你我之間有一種連結(jié),如果我們每個(gè)禮拜五都出去吃飯,他們就可以判斷我們之間有強(qiáng)烈連結(jié),如果我們一個(gè)月或一年才吃一次,那么也許我們之間的連結(jié)比較弱,這家公司可以藉此判斷人與人之間的關(guān)係強(qiáng)弱,你也許會(huì)說(shuō):那又怎么樣?這可以干嘛?這家公司將會(huì)知道誰(shuí)是社交意見領(lǐng)袖,如果他要賣新產(chǎn)品,他可以先從這些人開始著手,例如我也許會(huì)買他的東西,但我沒有朋友(笑)所以它就只能賣出一項(xiàng)產(chǎn)品,但你有一百個(gè)朋友,你也許是個(gè)疑心病比較重的人,所以我要花比較多功夫來(lái)說(shuō)服你買東西,但你一旦用了而且覺得好用,那么你很有可能會(huì)將這個(gè)訊息散播給你其他一百個(gè)朋友,那我搞不好可以再多賣50個(gè)產(chǎn)品,這就是一個(gè)善加利用社交數(shù)據(jù),而且突破舊有思考模式的例子。
5. 如何用大數(shù)據(jù)創(chuàng)造商業(yè)模式?
這是個(gè)頗為復(fù)雜的問題,因?yàn)榇髷?shù)據(jù)是由很多不同元素組成的,我會(huì)把大數(shù)據(jù)認(rèn)定為是比交易系統(tǒng)更深一層的互動(dòng)分析,首先,如果你有一筆訂單,你就得到了顧客的價(jià)值,但你無(wú)法了解他們?yōu)槭裁慈绱诵袆?dòng),如果我能夠了解他們的行為喜好,我就可以創(chuàng)造更好的顧客體驗(yàn),我創(chuàng)造了更好的顧客體驗(yàn),他們就會(huì)越買越多,他們會(huì)停留更久,如此我當(dāng)然就可以創(chuàng)造一個(gè)非常強(qiáng)大的商業(yè)模式。
基本上所有的電商網(wǎng)站都在做這件事情,因?yàn)殡娚叹W(wǎng)站無(wú)法直接與顧客接觸,所以他們必須透過分析數(shù)據(jù)來(lái)與顧客建立關(guān)係,這是個(gè)很顯而易見的商業(yè)模式,如果你不分析數(shù)據(jù)去改善顧客經(jīng)驗(yàn),顧客就會(huì)離你而去。如果就製造業(yè)來(lái)說(shuō),預(yù)測(cè)性維修是比較常見的大數(shù)據(jù)商業(yè)模式,這跟傳統(tǒng)的維修模式全然不同,這當(dāng)中的經(jīng)濟(jì)價(jià)值差異是數(shù)以千萬(wàn)的美元,就算對(duì)中小型企業(yè)亦然,如果你知道這些企業(yè)每年花多少錢在維修設(shè)備和安全改善,你就應(yīng)該知道預(yù)測(cè)性維修是門好生意。
6.這些對(duì)企業(yè)來(lái)說(shuō)是技術(shù)層次的問題,但商業(yè)嗅覺是否才是如何讓大數(shù)據(jù)變現(xiàn)的關(guān)鍵?
是的,我稱之為直覺,你為了驗(yàn)證你的假說(shuō),于是你設(shè)計(jì)了一個(gè)實(shí)驗(yàn)?zāi)P停绻銢]有商業(yè)嗅覺,你很可能會(huì)實(shí)驗(yàn)了一千次但得到很差的結(jié)果,我相信你一定有聽過這個(gè)笑話:「一百萬(wàn)隻猴子也可以寫出莎士比亞等級(jí)的著作,只是我們要等很久而已?!鼓惴藕镒釉谀沁呉恢贝蜃?,總會(huì)有好的產(chǎn)出的,但這其實(shí)不太好,對(duì)吧?所以我認(rèn)為還是需要具備一定的商業(yè)眼光。
好的數(shù)據(jù)科學(xué)家和不好的數(shù)據(jù)科學(xué)家的差別就在于他們的商業(yè)眼光,我認(rèn)為這不只是管理階級(jí)的職責(zé),而是一個(gè)數(shù)據(jù)科學(xué)家的職責(zé)之一。
7.大數(shù)據(jù)專案牽涉到許多跨部門的協(xié)作,而不只是IT部門的事,你認(rèn)為這會(huì)更像是一個(gè)管理問題而非技術(shù)問題嗎?
我的確觀察到許多只專注在技術(shù)層面的公司,他們的大數(shù)據(jù)表現(xiàn)通常都不怎么好,管理者必須確保你在埋首進(jìn)行的事是有商業(yè)價(jià)值的,而不只是在玩技術(shù)而已,在麻省理工學(xué)院有個(gè)詞用來(lái)形容這些只埋頭搞技術(shù)的人:追隨流行者(Fashionist),這些人盲目追隨科技新潮流,看到云端運(yùn)算就趕快跑去搞云端運(yùn)算,噢看那邊是大數(shù)據(jù)耶,大家都有我們一定也要有! 他們不知道為什么需要,只是因?yàn)榇蠹叶加?,他們就要有,這不是一個(gè)好策略。
你必須要思考:這有什么商業(yè)價(jià)值?為什么我需要做這個(gè)?所以那些最成功的大數(shù)據(jù)專案都是由技術(shù)部門和商業(yè)部門協(xié)作而成的,只有技術(shù)人員是不可能成功的,但同樣地,只有業(yè)務(wù)部門也不會(huì)成功,他們必須在一起才能創(chuàng)造價(jià)值。
而數(shù)據(jù)分析的技術(shù)的關(guān)鍵在于,你是否有用對(duì)技術(shù),這是許多公司低估的地方,有很多公司混淆了做報(bào)告和分析數(shù)據(jù)的人。比如說(shuō)美國(guó)的教育很重視數(shù)學(xué),但我們的統(tǒng)計(jì)學(xué)教得一蹋煳涂,統(tǒng)計(jì)學(xué)對(duì)于數(shù)據(jù)分析非常重要,很多人高中畢業(yè)后也許幾何、微積分很厲害,但他們連最基本的期望值理論都不懂,他們也不懂交叉分析,但這些技能對(duì)于分析數(shù)據(jù)都是非常重要的,我認(rèn)為我們的教育體系和企業(yè)在培育擁有這方面技能的人才上,投資得太少了。
近年來(lái)有很多大學(xué)開始開設(shè)數(shù)據(jù)分析課程,我覺得這是一件好事,但問題是等這些人才畢業(yè)了,到時(shí)候我們對(duì)大數(shù)據(jù)人才的需求已經(jīng)遠(yuǎn)遠(yuǎn)超過供給了。
8. 你認(rèn)為現(xiàn)在要尋找優(yōu)秀的數(shù)據(jù)分析學(xué)家很困難嗎?
人們常常把電腦科學(xué)家和數(shù)據(jù)科學(xué)家混為一談,數(shù)據(jù)科學(xué)家不一定非得要寫程式才能分析數(shù)據(jù),當(dāng)然你不應(yīng)該害怕科技,如果你害怕新科技那你就不是那個(gè)對(duì)的人,你需要會(huì)使用科技,但重點(diǎn)其實(shí)還是在數(shù)據(jù),你要會(huì)設(shè)計(jì)實(shí)驗(yàn)、熟悉數(shù)學(xué)和統(tǒng)計(jì)、如何獲取資料和得到結(jié)果...等等等。
當(dāng)然,數(shù)學(xué)系畢業(yè)的人是很好的選擇,但我的經(jīng)驗(yàn)是畢業(yè)自實(shí)驗(yàn)性科學(xué)科系的人也會(huì)成為很好的數(shù)據(jù)科學(xué)家,例如:應(yīng)用物理系、化學(xué)系、天文系...等等,因?yàn)樗麄冎涝趺丛O(shè)計(jì)實(shí)驗(yàn)、怎么蒐集數(shù)據(jù)和得到結(jié)果,這讓他們成為優(yōu)秀的數(shù)據(jù)科學(xué)家。在麻省理工學(xué)院我們有個(gè)笑話,物理系畢業(yè)的人如果不去教物理,他們就失業(yè)了。因?yàn)槌私涛锢砟氵€能干嘛?但現(xiàn)在物理系的人也會(huì)是很好的數(shù)據(jù)科學(xué)家,例如eBay最優(yōu)秀的數(shù)據(jù)科學(xué)家就是物理學(xué)家。
你看事情的眼光還需要充滿創(chuàng)意,所以社會(huì)學(xué)出身的人也會(huì)是很好的數(shù)據(jù)科學(xué)家,很多社會(huì)學(xué)家必須做調(diào)查,并且從中蒐集和調(diào)查數(shù)據(jù),這已經(jīng)具備了數(shù)據(jù)科學(xué)家該有的特質(zhì)了。但如果你不具備這種分析數(shù)據(jù)的背景的話,可能就不是那么好的候選人了。