盡管大數(shù)據(jù)研究越來越成為主流,我們?nèi)阅軓墓韫鹊臄?shù)據(jù)科學(xué)家那里學(xué)到很多經(jīng)驗(yàn)教訓(xùn),因?yàn)樗麄兯鶑氖碌穆殬I(yè)大都依賴大數(shù)據(jù)才得以生存。雖然與更傳統(tǒng)些的商業(yè)模式相比,他們運(yùn)用數(shù)據(jù)的方式存在很大不同,但他們積累了足夠的科學(xué)知識和技術(shù),值得剛剛投身于大數(shù)據(jù)業(yè)務(wù)的后來者學(xué)習(xí)和借鑒,借以盡可能規(guī)避失敗的風(fēng)險(xiǎn)。
那么,公司如何才能圍繞大數(shù)據(jù)重構(gòu)商業(yè)模式,或者如何重新思考商業(yè)經(jīng)營理念?針對這一問題,大數(shù)據(jù)以及數(shù)據(jù)科學(xué)領(lǐng)域的專家持何種觀點(diǎn)?結(jié)合IE Group創(chuàng)新會上的所聞所見,可以歸結(jié)出5大理念,助你運(yùn)用好大數(shù)據(jù)。
一、Hadoop并不意味著一切
雖說這一觀念如今應(yīng)該是業(yè)內(nèi)常識,但仍需不斷重復(fù),以便銘記于心。當(dāng)論及Hadoop最大擁護(hù)者、Fayyad前雇員(時(shí)任首席數(shù)據(jù)官)Yahoo如何在這方面得到慘重教訓(xùn)時(shí),ChoozOn公司的CTO Usama Fayyad深入探討了這一觀點(diǎn)。Yahoo原本試圖借助Hadoop做一些客戶細(xì)分方面的工作,卻發(fā)現(xiàn),相較于采取更傳統(tǒng)的數(shù)據(jù)庫架構(gòu)做同樣的工作,成本竟然高出50倍。認(rèn)識到這點(diǎn)后,這個(gè)項(xiàng)目最終被否決了。后來,數(shù)據(jù)分析初始企業(yè)nPario復(fù)活了此種項(xiàng)目,如今,Yahoo已成為nPario的付費(fèi)用戶。
二、大數(shù)據(jù)使數(shù)據(jù)科學(xué)變得更親和
Sparked.com網(wǎng)站的首席數(shù)據(jù)科學(xué)家Daniel Wiesenthal清晰闡述了大數(shù)據(jù)和數(shù)據(jù)科學(xué)這兩個(gè)不時(shí)會重合的概念,他認(rèn)為,從本質(zhì)上講,諸如支持向量機(jī)(SVM)以及類神經(jīng)網(wǎng)絡(luò)類的技術(shù),都是經(jīng)時(shí)間檢驗(yàn)而且被證實(shí)切實(shí)有效的方法,可用來“從數(shù)據(jù)庫中獲取細(xì)致到最后每一‘盎司’的信息”,即使這些數(shù)據(jù)庫規(guī)模很小。這些技術(shù)非常復(fù)雜,而且很難被口頭解釋,在一定規(guī)模下還會趨于失效。
然而,大數(shù)據(jù)使數(shù)據(jù)科學(xué)家們得以運(yùn)用更簡單的模型技術(shù),比如決策樹或者回歸技術(shù),以便更精確地做大量數(shù)據(jù)賬目管理,使其更具統(tǒng)計(jì)意義,而不是僅為追求超級復(fù)雜的演算系統(tǒng)。Wiesenthal認(rèn)為,運(yùn)用Hadoop之類的通用大數(shù)據(jù)技術(shù),意味著大數(shù)據(jù)科學(xué)家可以更快地開發(fā)和測試模型,因?yàn)檫@種架構(gòu)不需要與特殊的規(guī)則系統(tǒng)或者類型問題相協(xié)調(diào),它只是被設(shè)計(jì)用來更好地處理大數(shù)據(jù)。
三、知道如何做減法有時(shí)更為重要
作為SaaS的市場先鋒,Salesforce.com一直在運(yùn)用自己的大數(shù)據(jù)平臺監(jiān)測各種產(chǎn)品性能付諸實(shí)施的情況,產(chǎn)品管理主管Narayan Bharadwaj認(rèn)為,這么做的目的不僅是希望預(yù)測下一步應(yīng)該添加什么功能,更多則是為利用數(shù)據(jù)來支持決策,那些不能幫助公司有所提升的功能將被鑒別出來,相關(guān)資源被轉(zhuǎn)投到更具價(jià)值的功能上去。“知道如何做減法有時(shí)更為重要。”他說。
下一步該怎么做?依照邏輯,自然是分析鑒別功能特性,包括實(shí)施良好的和實(shí)施效果欠佳的,在布局未來遠(yuǎn)景時(shí),公司因此會獲得一個(gè)基本認(rèn)知,什么樣的設(shè)計(jì)會有成效,什么樣的設(shè)計(jì)反之,由此趨利避害。
四、內(nèi)容決定價(jià)值
簡單來說,如果用戶事先就知道某些內(nèi)容為什么會被展示給他們,或者為什么他們會被作某種推薦,他們或許更有可能為此買單。StumbleUpon麾下的一位高階數(shù)據(jù)科學(xué)家表示,為將相關(guān)度最高的網(wǎng)頁內(nèi)容呈現(xiàn)到每位用戶面前,公司在大數(shù)據(jù)及數(shù)據(jù)科學(xué)技術(shù)方面投入大量人力、物力,但事實(shí)證明,如果寄希望于用戶信任這種服務(wù)決策方式,僅這么做還遠(yuǎn)遠(yuǎn)不夠。Sparked.com的Wiesenthal在其論述中同樣指出了這一點(diǎn),他認(rèn)為諸如Pandora與Netflix這類的服務(wù)之所以流行,原因部分在于,在推薦類似內(nèi)容的時(shí)候,它們實(shí)際上都向客戶傳遞了自己的一些特性。
五、交易數(shù)據(jù)遠(yuǎn)勝研究數(shù)據(jù)
PayPal的首席科學(xué)家Mok Oh論述了從產(chǎn)品研究到購買的產(chǎn)業(yè)鏈,以及從產(chǎn)業(yè)鏈一端努力走向另一端時(shí),決策信號為什么變得越來越難以辨別。PayPal試圖跨越這一障礙,做法如下:首先從交易過程著手,然后綜合其他數(shù)據(jù)(包括內(nèi)部數(shù)據(jù)以及由Facebook以及Gnip等處得來的外部數(shù)據(jù)資源),盡可能鑒別出哪些人是真正的客戶,以及哪些產(chǎn)品或服務(wù)是這些客戶真正需要的。他認(rèn)為,相對于Google努力追蹤客戶購買行為的研究,這樣做更容易些,當(dāng)然,在另一種情況下例外,如果客戶確實(shí)使用像Google Wallet這樣的工具購買了某些商品,后一種研究方式更易操作。
將檸檬汁從檸檬汽水中分離出來,這正是大數(shù)據(jù)研究所要做的。一個(gè)公司所擁有的最有價(jià)值的數(shù)據(jù)資源,就是它針對自身業(yè)務(wù)特別搜集的數(shù)據(jù),大數(shù)據(jù)處理的成功之路在于,從利用這些數(shù)據(jù)開始,探索出一些創(chuàng)新方式,然后深入發(fā)掘出更具洞察力的內(nèi)涵。