大數(shù)據(jù)無(wú)疑是時(shí)下炙手可熱的流行詞匯,然而,我們鮮少看到大數(shù)據(jù)如何帶來(lái)收益,以及如何實(shí)現(xiàn)的例子,這是怎么回事呢?
多年來(lái),在經(jīng)歷了幾個(gè)通信和投行的大數(shù)據(jù)相關(guān)早期實(shí)施項(xiàng)目后,我認(rèn)為這個(gè)新興技術(shù)的收益主要在于:實(shí)現(xiàn)對(duì)復(fù)雜系統(tǒng)更為精準(zhǔn)的剖析,例如股票市場(chǎng)或供應(yīng)鏈。(投行成為最早一批應(yīng)用大數(shù)據(jù)分析的行業(yè)之一,可謂毫不意外。對(duì)利用技術(shù)提升效率,創(chuàng)造效益更為敏銳的商業(yè)模式,往往也是更賺錢(qián)的。)
在投行的日常工作中,為了精準(zhǔn)地選擇投資機(jī)會(huì)、選購(gòu)股票,有大量對(duì)文檔處理的需求,例如新聞簡(jiǎn)報(bào),財(cái)務(wù)報(bào)表。如果人工進(jìn)行,工作量過(guò)于龐大。因此助理分析師們往往簡(jiǎn)化他們的預(yù)測(cè)分析過(guò)程,并使用電子表格來(lái)完成絕大部分工作。通過(guò)大數(shù)據(jù)技術(shù),投行可以整合各種信息,減少可能的(簡(jiǎn)化分析帶來(lái)的)風(fēng)險(xiǎn),從整體上帶來(lái)更優(yōu)越的分析和預(yù)測(cè)能力。
公司如何通過(guò)大數(shù)據(jù)賺錢(qián)?
通過(guò)大數(shù)據(jù)平臺(tái),股票經(jīng)紀(jì)和投資經(jīng)理們可以聚合各種來(lái)源的非格式化數(shù)據(jù),輔助判斷哪些公司值得投資。所謂‘非格式化數(shù)據(jù)’包括如公司新聞,產(chǎn)品評(píng)論,供應(yīng)商數(shù)據(jù),價(jià)格變化,將這些信息以所謂“大數(shù)據(jù)”形式整合,通過(guò)建模,幫助股票經(jīng)紀(jì)決策買(mǎi)入或售出股票。
有些采用如上方式進(jìn)行投資預(yù)測(cè)的公司,很注重節(jié)約實(shí)施成本,例如使用云平臺(tái)(如AWS),先從很小數(shù)量的服務(wù)器開(kāi)始,隨著獲益增長(zhǎng),逐步提高投入。一位我認(rèn)識(shí)的分析師,從一家大投行離職創(chuàng)業(yè)后,在不到六個(gè)月的時(shí)間內(nèi),僅僅使用非常有限的投入,創(chuàng)立了一個(gè)盈利良好的大數(shù)據(jù)交易系統(tǒng)。
即便在傳統(tǒng)制造領(lǐng)域,大數(shù)據(jù)仍然可以提升預(yù)測(cè)能力。我曾經(jīng)擔(dān)任過(guò)顧問(wèn)的某歐洲一線汽車制造廠商,通過(guò)建立一個(gè)鋼材交易成本的分析系統(tǒng),選擇更好的時(shí)機(jī),以更優(yōu)價(jià)格買(mǎi)入原材料。這個(gè)系統(tǒng)由開(kāi)源Java框架Hadoop創(chuàng)建,整合了多個(gè)供應(yīng)商的共計(jì)15Tb的數(shù)據(jù),在兩年內(nèi)為該公司節(jié)省了1600萬(wàn)美元。
這個(gè)項(xiàng)目的成功主要有兩個(gè)原因:首先,公司有足夠的信息為所有的供應(yīng)商建模;其次,該項(xiàng)目節(jié)省的原材料成本超過(guò)了實(shí)施這個(gè)項(xiàng)目的費(fèi)用。
公司為何因?yàn)榇髷?shù)據(jù)虧錢(qián)?
然而,并非每個(gè)大數(shù)據(jù)項(xiàng)目都會(huì)這樣成功。公司在大數(shù)據(jù)項(xiàng)目上以虧損告終的概率,有時(shí)和成功的概率相差無(wú)幾。大數(shù)據(jù)項(xiàng)目失敗的早期癥狀有很多種,最常見(jiàn)的問(wèn)題如:
步子邁太大
大數(shù)據(jù)并不需要一筆巨大的預(yù)算,如果懷著巨大的投入將帶來(lái)巨大回報(bào)的預(yù)期開(kāi)始一個(gè)大數(shù)據(jù)項(xiàng)目,往往會(huì)產(chǎn)生問(wèn)題。在正式開(kāi)始前,明智的做法是,嘗試用有限的投入,在小范圍內(nèi)測(cè)試這個(gè)技術(shù)是否確實(shí)能帶來(lái)預(yù)期的收益。按這樣的節(jié)奏,一個(gè)項(xiàng)目可以按部就班地隨著收益逐步提高,而逐步擴(kuò)大投入規(guī)模,確保收益始終大于投入。
低估人力投入
在開(kāi)始實(shí)施一個(gè)大數(shù)據(jù)系統(tǒng)前,問(wèn)自己一個(gè)簡(jiǎn)單的問(wèn)題:這個(gè)項(xiàng)目是否可以不需要持續(xù)的人工支持來(lái)運(yùn)作?如果答案是,需要人工支持,那么建議停止項(xiàng)目。建立這樣一個(gè)項(xiàng)目往往意味著百萬(wàn)級(jí)的損失,無(wú)法在有利潤(rùn)情況下保持維護(hù)和運(yùn)行。
迷信自然語(yǔ)言處理
大數(shù)據(jù)有個(gè)經(jīng)常聽(tīng)到的功能是,通過(guò)自然語(yǔ)言處理,將各種領(lǐng)域的各種數(shù)據(jù)處理成直接可讀可理解的形式。這聽(tīng)起來(lái)確實(shí)很贊,但是在實(shí)際應(yīng)用中,往往不盡如人意。自然語(yǔ)言處理仍然存在許多妨礙應(yīng)用的限制,主要由于人工智能的發(fā)展還不夠——而且在可見(jiàn)的10年內(nèi),這個(gè)情況可能不會(huì)有很大改觀。
現(xiàn)代大數(shù)據(jù)項(xiàng)目具備巨大的節(jié)約成本的潛力,其效果對(duì)于過(guò)去的數(shù)據(jù)處理方式而言有如童話。但需要謹(jǐn)記的是,在投入時(shí)間和資源到大數(shù)據(jù)項(xiàng)目之前,首先要確認(rèn)你的項(xiàng)目是收益大于成本的。只有傻瓜才會(huì)匆匆對(duì)一個(gè)點(diǎn)子一見(jiàn)鐘情并傾其所有。
本文作者M(jìn)arco Visibelli是一位曾經(jīng)工作于IBM,后離職創(chuàng)建Kuldat的數(shù)據(jù)科學(xué)家,他的公司主營(yíng)運(yùn)用大數(shù)據(jù)來(lái)為銷售和市場(chǎng)分析潛在獲益機(jī)會(huì)。