從SGI的首席科學(xué)家John R. Masey在1998年提出大數(shù)據(jù)概念,到大數(shù)據(jù)分析技術(shù)廣泛應(yīng)用于社會(huì)的各個(gè)領(lǐng)域,已經(jīng)走過(guò)了17年的時(shí)間?,F(xiàn)在再也沒(méi)有企業(yè)懷疑大數(shù)據(jù)分析的力量,并且都在競(jìng)相利用大數(shù)據(jù)來(lái)增強(qiáng)自己企業(yè)的業(yè)務(wù)競(jìng)爭(zhēng)力。但是,即使17年過(guò)去,大數(shù)據(jù)分析行業(yè)仍然處于快速發(fā)展的初期,每時(shí)每刻都在產(chǎn)生新的變化。
從概念到實(shí)用、從結(jié)構(gòu)化數(shù)據(jù)分析到非結(jié)構(gòu)化數(shù)據(jù)分析,大數(shù)據(jù)分析技術(shù)在不斷地進(jìn)化。雖然國(guó)內(nèi)仍然在關(guān)注輿情分析,但是記者注意到,在美國(guó),大數(shù)據(jù)分析的研究已經(jīng)進(jìn)入到了一個(gè)全新的階段,“預(yù)測(cè)分析”技術(shù)成為最具有代表性的未來(lái)技術(shù)方向。
那么,“預(yù)測(cè)分析”技術(shù)和傳統(tǒng)的大數(shù)據(jù)分析有什么不同?記者就此采訪了美國(guó)數(shù)據(jù)分析科學(xué)家、前北卡大學(xué)夏洛特分校助理敎?zhǔn)?、夏洛特視覺(jué)中心主任以及非結(jié)構(gòu)化數(shù)據(jù)智能分析平臺(tái)Taste Analytics的CEO,Derek Wang(汪曉宇)博士。
大數(shù)據(jù)行業(yè)爆發(fā),現(xiàn)在的技術(shù)不夠用了
汪曉宇博士正好經(jīng)歷了整個(gè)大數(shù)據(jù)產(chǎn)業(yè)爆發(fā)的全過(guò)程。他和記者回憶說(shuō),在2010年的時(shí)候,來(lái)他們夏洛特視覺(jué)中心進(jìn)行交流的還僅僅是大公司的數(shù)據(jù)硏究員,2011年已經(jīng)變成了公司的主任,而到了2012年,來(lái)的幾乎全是CIO和CTO們了。他們甚至還為企業(yè)開(kāi)了一門(mén)數(shù)據(jù)分析的進(jìn)修課程,講座雖然只有兩天,但注冊(cè)學(xué)費(fèi)幾千美金,學(xué)員們?nèi)际莵?lái)自國(guó)內(nèi)各大公司的資深高管。
從這可以看出,在這個(gè)數(shù)據(jù)時(shí)代,中美都在用盡一切辦法實(shí)現(xiàn)數(shù)據(jù)上領(lǐng)先的概念和追求。而在這技術(shù)飛速發(fā)展的幾年間,數(shù)據(jù)本身呈現(xiàn)出了不少新的特點(diǎn),市場(chǎng)也相應(yīng)地對(duì)大數(shù)據(jù)分析技術(shù)提出了新要求。
首先,數(shù)據(jù)點(diǎn)越來(lái)越多,也越來(lái)越碎片化。
在汪曉宇博士看來(lái),大數(shù)據(jù)時(shí)代就是人的時(shí)代,數(shù)據(jù)形態(tài)越來(lái)越豐富和多樣。除去社交網(wǎng)站等傳統(tǒng)數(shù)據(jù)點(diǎn)以外,新形態(tài)的數(shù)據(jù)點(diǎn)也已經(jīng)出現(xiàn),比如Airbnb和Uber這種O2O服務(wù)。如果再看遠(yuǎn)一點(diǎn),隨著可穿戴設(shè)備、物聯(lián)網(wǎng)等先進(jìn)設(shè)備和個(gè)人的信息結(jié)合起來(lái),隨時(shí)隨地產(chǎn)生和收集數(shù)據(jù)更加成為可能。在這樣的情況下,每個(gè)人隨時(shí)隨地的“情緒”和“狀態(tài)”這些都會(huì)成為商家必須要重視的數(shù)據(jù)源。
與此相對(duì)應(yīng)的,非結(jié)構(gòu)化數(shù)據(jù)分析將越來(lái)越重要。而非結(jié)構(gòu)化數(shù)據(jù)的模塊化更加靈敏,不是傳統(tǒng)的單一解決方案可以做到的。這導(dǎo)致人們?cè)谶M(jìn)行大數(shù)據(jù)分析時(shí)使用的工具將更加細(xì)化,利用垂直創(chuàng)新的工具進(jìn)行非??v深的研究將成為主流。
其次,大數(shù)據(jù)分析技術(shù)成為了決定社會(huì)服務(wù)效率的關(guān)鍵。
有報(bào)道指出,隨著信息技術(shù)的發(fā)展,包括公共服務(wù)、物流等在內(nèi)的人們衣食住行的服務(wù)會(huì)紛紛電子化,虛擬世界和物理世界的邊界將進(jìn)一步模糊。這個(gè)大的產(chǎn)業(yè)背景一旦形成,大數(shù)據(jù)分析能力就將成為整個(gè)產(chǎn)業(yè)服務(wù)最關(guān)鍵的競(jìng)爭(zhēng)力。
這樣就意味著,大數(shù)據(jù)分析工具應(yīng)該越來(lái)越實(shí)用化。汪曉宇博士介紹說(shuō),在面對(duì)新的技術(shù)和工具時(shí),美國(guó)企業(yè)高層都會(huì)迅速做出決斷,考慮怎么把數(shù)據(jù)分析和現(xiàn)有業(yè)務(wù)進(jìn)行快速整合。他舉例說(shuō),在他們和美國(guó)一家大型銀行合作時(shí),對(duì)方的CIO就可以迅速做出反應(yīng),和他們探討應(yīng)該怎么把他們開(kāi)發(fā)的創(chuàng)新型非結(jié)構(gòu)化數(shù)據(jù)分析技術(shù)應(yīng)用到自家銀行某一個(gè)產(chǎn)品中去。
決定下一代大數(shù)據(jù)產(chǎn)業(yè)的新技術(shù):“預(yù)測(cè)分析”
在這樣的數(shù)據(jù)特點(diǎn)和市場(chǎng)要求下,中國(guó)和美國(guó)各大公司和科研中心都在大力投入,研發(fā)下一代數(shù)據(jù)分析技術(shù)。但是,在這方面,美國(guó)還是有著3-5年時(shí)間的領(lǐng)先。
根據(jù)汪曉宇博士的分析,國(guó)內(nèi)在科研上的眼光很高,水平層次力度都在,但是商業(yè)化不行,研發(fā)出來(lái)轉(zhuǎn)到應(yīng)用上和美國(guó)有一定差距。中國(guó)大部分公司對(duì)于大數(shù)據(jù)分析的概念還停留在“輿情分析”的階段,但是美國(guó)已經(jīng)跨越“輿情分析”和“情感分析”,進(jìn)入到了“預(yù)測(cè)分析”階段。
由汪曉宇博士一手打造的Taste Analytics團(tuán)隊(duì),就在進(jìn)行“預(yù)測(cè)分析”技術(shù)的研發(fā)。它擺脫了傳統(tǒng)的“輿情分析”和“情感分析”的框架,更進(jìn)一步,把人們?cè)谏缃痪W(wǎng)站和其他平臺(tái)上產(chǎn)生的數(shù)據(jù)都收集起來(lái),進(jìn)行實(shí)時(shí)、全面地分析,幫助企業(yè)建立用戶的立體形象,了解他們的品味和喜惡,從而提供預(yù)測(cè)性地判斷。這聽(tīng)來(lái)似乎和傳統(tǒng)的“推薦系統(tǒng)”、類(lèi)Clickstream分析有些類(lèi)似,但是實(shí)際上完全不同。
首先,傳統(tǒng)的“推薦系統(tǒng)”會(huì)需要一個(gè)很長(zhǎng)的建立過(guò)程,也就說(shuō),它需要很多強(qiáng)相關(guān)的、相似的歷史數(shù)據(jù),才有可能實(shí)現(xiàn)推薦功能。比如它只能根據(jù)你買(mǎi)電飯鍋的行為,才能向你推薦其他廚具。
但是企業(yè)怎么能在一開(kāi)始就知道,顧客想要買(mǎi)電飯鍋呢?這就是“預(yù)測(cè)分析”的強(qiáng)大之處。它不需要這樣的歷史數(shù)據(jù),而是直接通過(guò)人們?cè)谏缃痪W(wǎng)絡(luò)上的留言和在各大平臺(tái)上留下的信息,來(lái)進(jìn)行預(yù)測(cè)。也就是說(shuō),當(dāng)你在社交網(wǎng)絡(luò)上留下類(lèi)似“好想在家做飯”的狀態(tài),系統(tǒng)就有可能已經(jīng)知道你想買(mǎi)廚具了。
汪曉宇博士舉例說(shuō),“預(yù)測(cè)分析”技術(shù)發(fā)展成熟的話,就會(huì)非常接近美國(guó)科幻電影《少數(shù)派報(bào)告》里的情景——它會(huì)根據(jù)你在網(wǎng)絡(luò)留下的痕跡,來(lái)理解你的性格、行為、情緒,來(lái)建立一個(gè)隨時(shí)更新的、立體的形象。無(wú)論是HR、企業(yè)、客服、公共機(jī)構(gòu),都可以根據(jù)這些信息來(lái)提供真正的前瞻性、個(gè)性化的服務(wù)。
其次,Clickstream無(wú)法解決冷啟動(dòng)的問(wèn)題,而且很難精準(zhǔn)到個(gè)人、到細(xì)節(jié)。Clickstream分析技術(shù)的實(shí)現(xiàn),是通過(guò)不同的cookie,來(lái)追蹤人們的點(diǎn)擊,它無(wú)法解決的是冷啟動(dòng)過(guò)程中數(shù)據(jù)的缺乏。比如你第一次登陸優(yōu)酷,沒(méi)有任何觀看記錄,系統(tǒng)應(yīng)該怎么進(jìn)行推薦呢?而且,人們的誤點(diǎn)擊操作很有可能就被系統(tǒng)追蹤下來(lái),進(jìn)行了錯(cuò)誤的分析。
但是這對(duì)于“預(yù)測(cè)分析”技術(shù)就不是問(wèn)題。通過(guò)對(duì)各大社交平臺(tái)上的多重語(yǔ)義分析和疊加驗(yàn)證,一個(gè)人的具體形象已經(jīng)建立起來(lái):這個(gè)人比較保守,不喜歡暴力,最近正在談戀愛(ài)……那么這時(shí),向他推薦浪漫喜劇就會(huì)非常對(duì)味。
“我們?cè)谧龅?,就是在集合的范圍上進(jìn)行分析。”汪曉宇博士說(shuō),“以前的技術(shù)是告訴你們?nèi)藗冊(cè)?lsquo;說(shuō)什么’,現(xiàn)在我們已經(jīng)進(jìn)化到人們?cè)谛袆?dòng)之前‘有什么感覺(jué)’。這個(gè)核心技術(shù)的突破,就能實(shí)現(xiàn)對(duì)于整個(gè)數(shù)據(jù)分析市場(chǎng)的革新變化。”
再次,“預(yù)測(cè)分析”比起傳統(tǒng)的大數(shù)據(jù)分析方法,可以更好地實(shí)現(xiàn)人機(jī)互動(dòng)。盡管人工智能非常火熱,但是汪曉宇博士仍然指出了這項(xiàng)技術(shù)的局限性:它的可控性很差,沒(méi)有依靠人的能動(dòng)力。在他看來(lái),大數(shù)據(jù)分析應(yīng)該更好地利用人機(jī)互動(dòng)的機(jī)制,來(lái)發(fā)揮最大功用。
汪曉宇博士介紹說(shuō),以前的數(shù)據(jù)分析技術(shù),機(jī)器只能做到一半,到后面的時(shí)候還需要人來(lái)負(fù)責(zé)數(shù)據(jù)輸入。但是現(xiàn)在他們?cè)谘芯康?ldquo;預(yù)測(cè)分析”技術(shù),可以把大范圍的用戶數(shù)據(jù)總結(jié)集成在一起,自動(dòng)給出結(jié)果。人和機(jī)器的互動(dòng),將主要在于洞察內(nèi)涵、提供反饋,讓機(jī)器知道人的傾向。這就是新型的人機(jī)互動(dòng)先進(jìn)所在。
“比如說(shuō),某個(gè)產(chǎn)品本來(lái)定位年輕人,但是機(jī)器通過(guò)收集數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)它在中年人之間更受歡迎,那么人就可以來(lái)調(diào)整產(chǎn)品的市場(chǎng)定位,做出加大在中年人群體中加大宣傳的決策。這就是非常典型的人機(jī)互動(dòng)。” 汪曉宇博士說(shuō)。
中國(guó)為什么沒(méi)有出現(xiàn)“預(yù)測(cè)分析”技術(shù)?
作為美國(guó)最前沿的大數(shù)據(jù)分析技術(shù),“預(yù)測(cè)分析”仍然處在研發(fā)的早期階段,各家公司都在發(fā)力,想要在這個(gè)方向上取得領(lǐng)先地位,技術(shù)挑戰(zhàn)仍然非常大。
預(yù)測(cè)分析最大的難度在于精準(zhǔn)度。汪曉宇博士說(shuō),精準(zhǔn)度越高,系統(tǒng)就越能把人的性格全面呈現(xiàn)出來(lái),而且會(huì)在不同時(shí)間地點(diǎn)下進(jìn)行分析,做出一個(gè)高維的性格理解。要實(shí)現(xiàn)這個(gè)精準(zhǔn)度,光是數(shù)據(jù)挖掘方面就會(huì)有很大挑戰(zhàn),而且在面向不同客戶時(shí),比如企業(yè)、HR、公共服務(wù)等,還要把影響他們的特征分別提取出來(lái),這又把難度上升了一個(gè)層次。
目前,汪曉宇博士已經(jīng)在帶領(lǐng)Taste Analytics團(tuán)隊(duì)在打造這樣的“預(yù)測(cè)分析”系統(tǒng),而且,他透露,目前他們向特定的幾個(gè)企業(yè)提供了試用版本;而他們提供的非結(jié)構(gòu)化數(shù)據(jù)分析服務(wù),也就是“預(yù)測(cè)分析”的基礎(chǔ),已經(jīng)被6家福布斯全球500強(qiáng)公司以及多家美國(guó)主流企業(yè)使用,并通過(guò)實(shí)踐“實(shí)時(shí)分析”、“數(shù)據(jù)驅(qū)動(dòng)”(Data-driven)、“人機(jī)互動(dòng)”等最新的數(shù)據(jù)分析理念,為新的“預(yù)測(cè)分析”系統(tǒng)提供研究基礎(chǔ)和進(jìn)一步的反饋。
“美國(guó)市場(chǎng)上現(xiàn)在領(lǐng)先的數(shù)據(jù)分析公司,都只精專(zhuān)一點(diǎn)。” 汪曉宇博士說(shuō),“這也是行業(yè)進(jìn)化到一定程度的結(jié)果,因?yàn)槠鋵?shí)每一個(gè)環(huán)節(jié)都很難,沒(méi)有一個(gè)數(shù)據(jù)分析公司是可以把所有的都做完;但是反過(guò)來(lái),精細(xì)化研究才可以激發(fā)更多創(chuàng)新。”
反觀中國(guó)市場(chǎng),仍然在流行SAP、SAS這類(lèi)的整體解決方案。雖然這些方案可以覆蓋到數(shù)據(jù)分析的基本方面,但是卻失去了對(duì)數(shù)據(jù)的深入挖掘能力,也就錯(cuò)失了數(shù)據(jù)分析的新機(jī)會(huì),進(jìn)一步來(lái)說(shuō),就很難誕生類(lèi)似“預(yù)測(cè)分析”這樣領(lǐng)先的研究。
“中國(guó)企業(yè)也應(yīng)當(dāng)大膽嘗試新工具。如果總是尋求舊的解決方案,那么企業(yè)將無(wú)法真正挖掘出數(shù)據(jù)的價(jià)值。”汪曉宇博士說(shuō),“到時(shí)候,不僅是預(yù)測(cè)分析,中美在大數(shù)據(jù)分析技術(shù)和商業(yè)應(yīng)用上的整體差異還將進(jìn)一步擴(kuò)大。”