美國數(shù)據(jù)科學(xué)家?guī)憧纯创髷?shù)據(jù)的未來

責(zé)任編輯:editor007

2016-03-21 21:37:49

摘自:大數(shù)據(jù)千人會(huì)

從SGI的首席科學(xué)家John R Masey在1998年提出大數(shù)據(jù)概念,到大數(shù)據(jù)分析技術(shù)廣泛應(yīng)用于社會(huì)的各個(gè)領(lǐng)域,已經(jīng)走過了17年的時(shí)間

從SGI的首席科學(xué)家John R. Masey在1998年提出大數(shù)據(jù)概念,到大數(shù)據(jù)分析技術(shù)廣泛應(yīng)用于社會(huì)的各個(gè)領(lǐng)域,已經(jīng)走過了17年的時(shí)間?,F(xiàn)在再也沒有企業(yè)懷疑大數(shù)據(jù)分析的力量,并且都在競(jìng)相利用大數(shù)據(jù)來增強(qiáng)自己企業(yè)的業(yè)務(wù)競(jìng)爭(zhēng)力。但是,即使17年過去,大數(shù)據(jù)分析行業(yè)仍然處于快速發(fā)展的初期,每時(shí)每刻都在產(chǎn)生新的變化。

從概念到實(shí)用、從結(jié)構(gòu)化數(shù)據(jù)分析到非結(jié)構(gòu)化數(shù)據(jù)分析,大數(shù)據(jù)分析技術(shù)在不斷地進(jìn)化。雖然國內(nèi)仍然在關(guān)注輿情分析,但是記者注意到,在美國,大數(shù)據(jù)分析的研究已經(jīng)進(jìn)入到了一個(gè)全新的階段,“預(yù)測(cè)分析”技術(shù)成為最具有代表性的未來技術(shù)方向。

那么,“預(yù)測(cè)分析”技術(shù)和傳統(tǒng)的大數(shù)據(jù)分析有什么不同?記者就此采訪了美國數(shù)據(jù)科學(xué)家、前北卡大學(xué)夏洛特分校助理敎?zhǔn)凇⑾穆逄匾曈X中心主任以及非結(jié)構(gòu)化數(shù)據(jù)智能分析平臺(tái)Taste Analytics的CEO,Derek Wang(汪曉宇)博士。

大數(shù)據(jù)行業(yè)爆發(fā),現(xiàn)在的技術(shù)不夠用了

汪曉宇博士正好經(jīng)歷了整個(gè)大數(shù)據(jù)產(chǎn)業(yè)爆發(fā)的全過程。他和記者回憶說,在2010年的時(shí)候,來他們夏洛特視覺中心進(jìn)行交流的還僅僅是大公司的數(shù)據(jù)硏究員,2011年已經(jīng)變成了公司的主任,而到了2012年,來的幾乎全是CIO和CTO們了。他們甚至還為企業(yè)開了一門數(shù)據(jù)分析的進(jìn)修課程,講座雖然只有兩天,但注冊(cè)學(xué)費(fèi)幾千美金,學(xué)員們?nèi)际莵碜試鴥?nèi)各大公司的資深高管。

從這可以看出,在這個(gè)數(shù)據(jù)時(shí)代,中美都在用盡一切辦法實(shí)現(xiàn)數(shù)據(jù)上領(lǐng)先的概念和追求。而在這技術(shù)飛速發(fā)展的幾年間,數(shù)據(jù)本身呈現(xiàn)出了不少新的特點(diǎn),市場(chǎng)也相應(yīng)地對(duì)大數(shù)據(jù)分析技術(shù)提出了新要求。

  首先,數(shù)據(jù)點(diǎn)越來越多,也越來越碎片化

在汪曉宇博士看來,大數(shù)據(jù)時(shí)代就是人的時(shí)代,數(shù)據(jù)形態(tài)越來越豐富和多樣。除去社交網(wǎng)站等傳統(tǒng)數(shù)據(jù)點(diǎn)以外,新形態(tài)的數(shù)據(jù)點(diǎn)也已經(jīng)出現(xiàn),比如Airbnb和Uber這種o2o服務(wù)。如果再看遠(yuǎn)一點(diǎn),隨著可穿戴設(shè)備、物聯(lián)網(wǎng)等先進(jìn)設(shè)備和個(gè)人的信息結(jié)合起來,隨時(shí)隨地產(chǎn)生和收集數(shù)據(jù)更加成為可能。在這樣的情況下,每個(gè)人隨時(shí)隨地的“情緒”和“狀態(tài)”這些都會(huì)成為商家必須要重視的數(shù)據(jù)源。

與此相對(duì)應(yīng)的,非結(jié)構(gòu)化數(shù)據(jù)分析將越來越重要。而非結(jié)構(gòu)化數(shù)據(jù)的模塊化更加靈敏,不是傳統(tǒng)的單一解決方案可以做到的。這導(dǎo)致人們?cè)谶M(jìn)行大數(shù)據(jù)分析時(shí)使用的工具將更加細(xì)化,利用垂直創(chuàng)新的工具進(jìn)行非??v深的研究將成為主流。

其次,大數(shù)據(jù)分析技術(shù)成為了決定社會(huì)服務(wù)效率的關(guān)鍵

有報(bào)道指出,隨著信息技術(shù)的發(fā)展,包括公共服務(wù)、物流等在內(nèi)的人們衣食住行的服務(wù)會(huì)紛紛電子化,虛擬世界和物理世界的邊界將進(jìn)一步模糊。這個(gè)大的產(chǎn)業(yè)背景一旦形成,大數(shù)據(jù)分析能力就將成為整個(gè)產(chǎn)業(yè)服務(wù)最關(guān)鍵的競(jìng)爭(zhēng)力。

這樣就意味著,大數(shù)據(jù)分析工具應(yīng)該越來越實(shí)用化。汪曉宇博士介紹說,在面對(duì)新的技術(shù)和工具時(shí),美國企業(yè)高層都會(huì)迅速做出決斷,考慮怎么把數(shù)據(jù)分析和現(xiàn)有業(yè)務(wù)進(jìn)行快速整合。他舉例說,在他們和美國一家大型銀行合作時(shí),對(duì)方的CIO就可以迅速做出反應(yīng),和他們探討應(yīng)該怎么把他們開發(fā)的創(chuàng)新型非結(jié)構(gòu)化數(shù)據(jù)分析技術(shù)應(yīng)用到自家銀行某一個(gè)產(chǎn)品中去。

決定下一代大數(shù)據(jù)產(chǎn)業(yè)的新技術(shù):“預(yù)測(cè)分析”

在這樣的數(shù)據(jù)特點(diǎn)和市場(chǎng)要求下,中國和美國各大公司和科研中心都在大力投入,研發(fā)下一代數(shù)據(jù)分析技術(shù)。但是,在這方面,美國還是有著3-5年時(shí)間的領(lǐng)先。

根據(jù)汪曉宇博士的分析,國內(nèi)在科研上的眼光很高,水平層次力度都在,但是商業(yè)化不行,研發(fā)出來轉(zhuǎn)到應(yīng)用上和美國有一定差距。中國大部分公司對(duì)于大數(shù)據(jù)分析的概念還停留在“輿情分析”的階段,但是美國已經(jīng)跨越“輿情分析”和“情感分析”,進(jìn)入到了“預(yù)測(cè)分析”階段。

由汪曉宇博士一手打造的Taste Analytics團(tuán)隊(duì),就在進(jìn)行“預(yù)測(cè)分析”技術(shù)的研發(fā)。它擺脫了傳統(tǒng)的“輿情分析”和“情感分析”的框架,更進(jìn)一步,把人們?cè)谏缃痪W(wǎng)站和其他平臺(tái)上產(chǎn)生的數(shù)據(jù)都收集起來,進(jìn)行實(shí)時(shí)、全面地分析,幫助企業(yè)建立用戶的立體形象,了解他們的品味和喜惡,從而提供預(yù)測(cè)性地判斷。這聽來似乎和傳統(tǒng)的“推薦系統(tǒng)”、類Clickstream分析有些類似,但是實(shí)際上完全不同。

首先,傳統(tǒng)的“推薦系統(tǒng)”會(huì)需要一個(gè)很長(zhǎng)的建立過程,也就說,它需要很多強(qiáng)相關(guān)的、相似的歷史數(shù)據(jù),才有可能實(shí)現(xiàn)推薦功能。比如它只能根據(jù)你買電飯鍋的行為,才能向你推薦其他廚具。

但是企業(yè)怎么能在一開始就知道,顧客想要買電飯鍋呢?這就是“預(yù)測(cè)分析”的強(qiáng)大之處。它不需要這樣的歷史數(shù)據(jù),而是直接通過人們?cè)谏缃痪W(wǎng)絡(luò)上的留言和在各大平臺(tái)上留下的信息,來進(jìn)行預(yù)測(cè)。也就是說,當(dāng)你在社交網(wǎng)絡(luò)上留下類似“好想在家做飯”的狀態(tài),系統(tǒng)就有可能已經(jīng)知道你想買廚具了。

汪曉宇博士舉例說,“預(yù)測(cè)分析”技術(shù)發(fā)展成熟的話,就會(huì)非常接近美國科幻電影《少數(shù)派報(bào)告》里的情景——它會(huì)根據(jù)你在網(wǎng)絡(luò)留下的痕跡,來理解你的性格、行為、情緒,來建立一個(gè)隨時(shí)更新的、立體的形象。無論是HR、企業(yè)、客服、公共機(jī)構(gòu),都可以根據(jù)這些信息來提供真正的前瞻性、個(gè)性化的服務(wù)。

其次,Clickstream無法解決冷啟動(dòng)的問題,而且很難精準(zhǔn)到個(gè)人、到細(xì)節(jié)。Clickstream分析技術(shù)的實(shí)現(xiàn),是通過不同的cookie,來追蹤人們的點(diǎn)擊,它無法解決的是冷啟動(dòng)過程中數(shù)據(jù)的缺乏。比如你第一次登陸優(yōu)酷,沒有任何觀看記錄,系統(tǒng)應(yīng)該怎么進(jìn)行推薦呢?而且,人們的誤點(diǎn)擊操作很有可能就被系統(tǒng)追蹤下來,進(jìn)行了錯(cuò)誤的分析。

但是這對(duì)于“預(yù)測(cè)分析”技術(shù)就不是問題。通過對(duì)各大社交平臺(tái)上的多重語義分析和疊加驗(yàn)證,一個(gè)人的具體形象已經(jīng)建立起來:這個(gè)人比較保守,不喜歡暴力,最近正在談戀愛……那么這時(shí),向他推薦浪漫喜劇就會(huì)非常對(duì)味。

“我們?cè)谧龅?,就是在集合的范圍上進(jìn)行分析。”汪曉宇博士說,“以前的技術(shù)是告訴你們?nèi)藗冊(cè)?lsquo;說什么’,現(xiàn)在我們已經(jīng)進(jìn)化到人們?cè)谛袆?dòng)之前‘有什么感覺’。這個(gè)核心技術(shù)的突破,就能實(shí)現(xiàn)對(duì)于整個(gè)數(shù)據(jù)分析市場(chǎng)的革新變化。”

再次,“預(yù)測(cè)分析”比起傳統(tǒng)的大數(shù)據(jù)分析方法,可以更好地實(shí)現(xiàn)人機(jī)互動(dòng)。盡管人工智能非?;馃?,但是汪曉宇博士仍然指出了這項(xiàng)技術(shù)的局限性:它的可控性很差,沒有依靠人的能動(dòng)力。在他看來,大數(shù)據(jù)分析應(yīng)該更好地利用人機(jī)互動(dòng)的機(jī)制,來發(fā)揮最大功用。

汪曉宇博士介紹說,以前的數(shù)據(jù)分析技術(shù),機(jī)器只能做到一半,到后面的時(shí)候還需要人來負(fù)責(zé)數(shù)據(jù)輸入。但是現(xiàn)在他們?cè)谘芯康?ldquo;預(yù)測(cè)分析”技術(shù),可以把大范圍的用戶數(shù)據(jù)總結(jié)集成在一起,自動(dòng)給出結(jié)果。人和機(jī)器的互動(dòng),將主要在于洞察內(nèi)涵、提供反饋,讓機(jī)器知道人的傾向。這就是新型的人機(jī)互動(dòng)先進(jìn)所在。

“比如說,某個(gè)產(chǎn)品本來定位年輕人,但是機(jī)器通過收集數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)它在中年人之間更受歡迎,那么人就可以來調(diào)整產(chǎn)品的市場(chǎng)定位,做出加大在中年人群體中加大宣傳的決策。這就是非常典型的人機(jī)互動(dòng)。” 汪曉宇博士說。

  中國為什么沒有出現(xiàn)“預(yù)測(cè)分析”技術(shù)?

作為美國最前沿的大數(shù)據(jù)分析技術(shù),“預(yù)測(cè)分析”仍然處在研發(fā)的早期階段,各家公司都在發(fā)力,想要在這個(gè)方向上取得領(lǐng)先地位,技術(shù)挑戰(zhàn)仍然非常大。

預(yù)測(cè)分析最大的難度在于精準(zhǔn)度。汪曉宇博士說,精準(zhǔn)度越高,系統(tǒng)就越能把人的性格全面呈現(xiàn)出來,而且會(huì)在不同時(shí)間地點(diǎn)下進(jìn)行分析,做出一個(gè)高維的性格理解。要實(shí)現(xiàn)這個(gè)精準(zhǔn)度,光是數(shù)據(jù)挖掘方面就會(huì)有很大挑戰(zhàn),而且在面向不同客戶時(shí),比如企業(yè)、HR、公共服務(wù)等,還要把影響他們的特征分別提取出來,這又把難度上升了一個(gè)層次。

目前,汪曉宇博士已經(jīng)在帶領(lǐng)Taste Analytics團(tuán)隊(duì)在打造這樣的“預(yù)測(cè)分析”系統(tǒng),而且,他透露,目前他們向特定的幾個(gè)企業(yè)提供了試用版本而他們提供的非結(jié)構(gòu)化數(shù)據(jù)分析服務(wù),也就是“預(yù)測(cè)分析”的基礎(chǔ),已經(jīng)被6家福布斯全球500強(qiáng)公司以及多家美國主流企業(yè)使用,并通過實(shí)踐“實(shí)時(shí)分析”、“數(shù)據(jù)驅(qū)動(dòng)”(Data-driven)、“人機(jī)互動(dòng)”等最新的數(shù)據(jù)分析理念,為新的“預(yù)測(cè)分析”系統(tǒng)提供研究基礎(chǔ)和進(jìn)一步的反饋。

“美國市場(chǎng)上現(xiàn)在領(lǐng)先的數(shù)據(jù)分析公司,都只精專一點(diǎn)。” 汪曉宇博士說,“這也是行業(yè)進(jìn)化到一定程度的結(jié)果,因?yàn)槠鋵?shí)每一個(gè)環(huán)節(jié)都很難,沒有一個(gè)數(shù)據(jù)分析公司是可以把所有的都做完但是反過來,精細(xì)化研究才可以激發(fā)更多創(chuàng)新。”

反觀中國市場(chǎng),仍然在流行SAP、SAS這類的整體解決方案。雖然這些方案可以覆蓋到數(shù)據(jù)分析的基本方面,但是卻失去了對(duì)數(shù)據(jù)的深入挖掘能力,也就錯(cuò)失了數(shù)據(jù)分析的新機(jī)會(huì),進(jìn)一步來說,就很難誕生類似“預(yù)測(cè)分析”這樣領(lǐng)先的研究。

“中國企業(yè)也應(yīng)當(dāng)大膽嘗試新工具。如果總是尋求舊的解決方案,那么企業(yè)將無法真正挖掘出數(shù)據(jù)的價(jià)值。”汪曉宇博士說,“到時(shí)候,不僅是預(yù)測(cè)分析,中美在大數(shù)據(jù)分析技術(shù)和商業(yè)應(yīng)用上的整體差異還將進(jìn)一步擴(kuò)大。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)