在一次互聯(lián)網(wǎng)思維的學(xué)習(xí)討論會(huì)上,大家當(dāng)然討論了大數(shù)據(jù)時(shí)代和大數(shù)據(jù)的思維,當(dāng)然,大數(shù)據(jù)思維是互聯(lián)網(wǎng)思維的特點(diǎn)之一。
“您每天敲擊一次鍵盤,都會(huì)成為這個(gè)時(shí)代的大數(shù)據(jù)的一部分”。
這是“中國(guó)之聲”的廣告詞。
“大數(shù)據(jù)”因互聯(lián)網(wǎng)而成為這個(gè)時(shí)代的一個(gè)顯著特征,并成功的贏取了時(shí)代金礦的美譽(yù)。數(shù)據(jù)的價(jià)值得到空前的重視,“誰(shuí)掌握了數(shù)據(jù),誰(shuí)就掌握了未來(lái)”。“數(shù)據(jù)是重要的資產(chǎn)”。“數(shù)據(jù)只有開放互聯(lián)才能成為大數(shù)據(jù),才能發(fā)掘出價(jià)值”。當(dāng)人們津津樂(lè)道大數(shù)據(jù)是如何成為時(shí)代的新寵時(shí),似乎各行各業(yè)都離不開大數(shù)據(jù)了。
而事實(shí)上,大數(shù)據(jù)給我們到底帶來(lái)了什么呢?我們究竟在大數(shù)據(jù)上獲得了哪些利益呢?未來(lái)又能獲得什么利益呢?盡管全球的IT精英都在絞盡腦汁的發(fā)掘和鼓吹大數(shù)據(jù)的價(jià)值,乃至國(guó)家政策也受此影響。但如果對(duì)上述問(wèn)題沒(méi)有得到清晰的答案,這樣的影響多少存在邏輯上的盲目。
理智地思考:大數(shù)據(jù)為何產(chǎn)生?
因?yàn)橛辛擞?jì)算機(jī),才有數(shù)據(jù)。數(shù)據(jù)是計(jì)算機(jī)的食物和產(chǎn)物。
因?yàn)橛?jì)算機(jī)爆發(fā)式的增長(zhǎng),導(dǎo)致作為其食物和產(chǎn)物的數(shù)據(jù)爆發(fā)式增長(zhǎng)。
計(jì)算機(jī)的聯(lián)網(wǎng),自然帶來(lái)其食物和產(chǎn)物的相互糾連。
計(jì)算機(jī)為什么要吃進(jìn)數(shù)據(jù)和吐出數(shù)據(jù)?因?yàn)閿?shù)據(jù)里面有我們?nèi)祟愋枰男畔ⅰ?/p>
數(shù)據(jù)的糾連,背后是信息的關(guān)聯(lián)。
即使在沒(méi)有計(jì)算機(jī)的年代,信息的關(guān)聯(lián)原本就存在,構(gòu)成我們?nèi)祟惖男畔⑹澜纭?/p>
那時(shí)的信息世界雖然運(yùn)行緩慢,相互阻隔比較嚴(yán)重,但至少是清澈見底,讓我們氣定神閑的。
計(jì)算機(jī)在信息世界的出現(xiàn),相當(dāng)于蒸汽機(jī)在工業(yè)世界中的出現(xiàn)。
工業(yè)革命帶來(lái)的是什么?產(chǎn)品生產(chǎn)效率的大幅提高和自然資源的快速消耗及生態(tài)環(huán)境的劇烈破壞,當(dāng)然,還有科技的進(jìn)步。
那么,信息革命帶來(lái)的是?信息處理效率和范圍不斷提升和數(shù)據(jù)的快速膨脹,有誰(shuí)想到過(guò),和工業(yè)革命之對(duì)生態(tài)環(huán)境的劇烈破壞,信息革命對(duì)應(yīng)的影響是什么?如果是破壞,破壞了什么?如果我們想都沒(méi)想到過(guò)這個(gè)破壞確實(shí)可能存在,如果實(shí)際是存在的,會(huì)意味著什么?意味著人類在未覺(jué)醒的狀態(tài)下,在拼命發(fā)展著一種對(duì)自己的某個(gè)世界可能帶來(lái)巨大影響的技術(shù)。不像工業(yè)革命帶來(lái)對(duì)自然環(huán)境的污染和破壞可以讓人類直接得到相應(yīng)的懲罰而覺(jué)醒。信息革命如果能帶來(lái)破壞,則一定是對(duì)人類信息世界的生態(tài)環(huán)境的劇烈破壞。
信息革命可能如何來(lái)破壞人類信息世界的生態(tài)環(huán)境的呢?
在原來(lái)人類的信息世界的生態(tài)環(huán)境中,雖數(shù)據(jù)量不大,但數(shù)據(jù)的信息密度大。雖數(shù)據(jù)復(fù)制傳輸慢,但垃圾數(shù)據(jù)少。自從有了計(jì)算機(jī),特別是有了互聯(lián)網(wǎng),數(shù)據(jù)對(duì)信息的吞噬是極其野蠻和不受約束的。數(shù)據(jù)量是很大,數(shù)據(jù)的類也很多,關(guān)聯(lián)的范圍也很廣,但信息的密度卻急劇下降。由于數(shù)據(jù)的傳輸和復(fù)制的速度急速提高,垃圾數(shù)據(jù)更是野蠻生長(zhǎng)不受控制。這便是對(duì)大數(shù)據(jù)的來(lái)由的另一種看法。
確實(shí),大數(shù)據(jù)的產(chǎn)生,給我們帶來(lái)了在前所未有的宏觀層次得到數(shù)據(jù)證實(shí)的信息,但是,這些信息,實(shí)際和人類憑直覺(jué)得到的信息也無(wú)太多的差別。相反,龐大的數(shù)據(jù)支撐下的“數(shù)據(jù)說(shuō)話”的思維,讓人類越來(lái)越喪失了宏觀的直覺(jué)和思考的能力。
所以,大數(shù)據(jù)時(shí)代,實(shí)際是個(gè)什么時(shí)代?對(duì)這點(diǎn)的清醒認(rèn)知,對(duì)把控人類技術(shù)發(fā)展的下一個(gè)時(shí)代確實(shí)非常重要。倘若迷糊,下一個(gè)時(shí)代是“大失控”時(shí)代,就不僅僅是科技作品中的預(yù)言了。
倘若我們清醒過(guò)來(lái),認(rèn)識(shí)到大數(shù)據(jù)的危害,我們則可能利用大數(shù)據(jù)帶來(lái)的技術(shù)升級(jí),反過(guò)來(lái)治理大數(shù)據(jù)的危害,正象我們?cè)诤蠊I(yè)革命時(shí)期所做的那樣,環(huán)保和生態(tài)事業(yè)在新的技術(shù)支撐下,得以發(fā)展。
倘若我們做到了后者,那么,大數(shù)據(jù)時(shí)代的下一個(gè)時(shí)代,必然是個(gè)“大整合”的時(shí)代。
[page]2015貴陽(yáng)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)暨全球大數(shù)據(jù)時(shí)代貴陽(yáng)峰會(huì)5月26-29日在貴陽(yáng)舉行,數(shù)據(jù)觀對(duì)該活動(dòng)進(jìn)行全程圖文直播。5月27日,在“城市全域免費(fèi)無(wú)線網(wǎng)絡(luò)與塊數(shù)據(jù)下的產(chǎn)業(yè)創(chuàng)新”分論壇上,中國(guó)科學(xué)院研究員程學(xué)旗發(fā)表了題為《大數(shù)據(jù)智能的研究與應(yīng)用進(jìn)展》的主題演講。
程學(xué)旗在“城市全域免費(fèi)無(wú)線網(wǎng)絡(luò)與塊數(shù)據(jù)下的產(chǎn)業(yè)創(chuàng)新”分論壇上發(fā)表主題演講,以下為演講PPT全文:
[page]如今,我們已經(jīng)進(jìn)入移動(dòng)互聯(lián)網(wǎng)時(shí)代,大數(shù)據(jù)撲面而來(lái)。對(duì)于京東來(lái)說(shuō),大數(shù)據(jù)到底都能夠起到哪些作用?5月26日,老冀在貴陽(yáng)大數(shù)據(jù)博覽會(huì)上見到了京東大數(shù)據(jù)部副總經(jīng)理邢志峰,也就是京東研發(fā)部門內(nèi)部俗稱的“邢捕頭”,向他請(qǐng)教了一下京東大數(shù)據(jù)的一些問(wèn)題。
邢捕頭算是京東大數(shù)據(jù)的資深員工了,他在2009年就加入了京東,一直在京東數(shù)據(jù)部門。當(dāng)時(shí)《武林外傳》挺火的,同事們看他做事認(rèn)真,于是給他起了個(gè)電視劇里面角色的外號(hào)。
(圖:京東大數(shù)據(jù)部副總經(jīng)理邢志峰)
分分合合的大數(shù)據(jù)路線
京東大數(shù)據(jù)說(shuō)來(lái)話長(zhǎng),實(shí)際上,它經(jīng)歷了一個(gè)分分合合的過(guò)程。
2009年7月的時(shí)候,邢捕頭的心情可沒(méi)有現(xiàn)在輕松。那個(gè)時(shí)候,快速增長(zhǎng)的業(yè)務(wù)帶來(lái)了海量的數(shù)據(jù)需求,業(yè)務(wù)部門扔過(guò)來(lái)大量的數(shù)據(jù),幾乎天天到他那里來(lái)“討賬”。于是京東數(shù)據(jù)部在2009年底正式成立。
到了2010年下半年,數(shù)據(jù)部依照服務(wù)職能對(duì)象的不同拆分為兩個(gè)團(tuán)隊(duì),其中一個(gè)主要面向采銷、市場(chǎng)等部門,另一個(gè)數(shù)據(jù)團(tuán)隊(duì)則為倉(cāng)儲(chǔ)、物流等部門提供服務(wù)。
巧合的是,這兩支團(tuán)隊(duì)也選擇了不同的技術(shù)路線。一個(gè)選擇了基于開源的MySQL自建數(shù)據(jù)倉(cāng)庫(kù),自主開發(fā)配套的數(shù)據(jù)調(diào)度生產(chǎn)、數(shù)據(jù)分析提取、數(shù)據(jù)知識(shí)管理、數(shù)據(jù)報(bào)表呈現(xiàn)及數(shù)據(jù)質(zhì)量監(jiān)控的產(chǎn)品體系,并建設(shè)相應(yīng)的數(shù)據(jù)集市與業(yè)務(wù)部門聯(lián)合推廣使用。
另一個(gè)數(shù)據(jù)團(tuán)隊(duì)選擇了購(gòu)買ORACLE RAC小型機(jī)/ORACLE BIEE商業(yè)智能平臺(tái),數(shù)據(jù)處理效率也得到了明顯提高。
但是隨著京東業(yè)務(wù)的不斷擴(kuò)張和高速增長(zhǎng),商業(yè)軟件的局限性就日益顯露出來(lái)了,主要表現(xiàn)在兩個(gè)方面:
一個(gè)是維護(hù)成本高,商業(yè)軟件此后的每一次升級(jí)都要請(qǐng)?jiān)瓘S的專家上門,這個(gè)服務(wù)費(fèi)可是相當(dāng)?shù)母摺?/p>
另一個(gè)更重要的則是快速響應(yīng)能力。電商行業(yè)變化非常快,幾乎每天業(yè)務(wù)部門都要做一些策略調(diào)整,比如增加某些品類,砍掉另一些品類,而商業(yè)軟件都是模塊化的,并沒(méi)有那么強(qiáng)的靈活性,響應(yīng)速度根本跟不上業(yè)務(wù)的發(fā)展。實(shí)際上,我們看到一些使用了商業(yè)軟件的電商在這個(gè)方面吃虧不小。
到了2012年年初,為了更好地應(yīng)對(duì)業(yè)務(wù)的快速增長(zhǎng),京東數(shù)據(jù)部又合在了一起,并且確定了基于Hadoop的分布式開源技術(shù)架構(gòu),原來(lái)的SQL Server和ORACLE數(shù)據(jù)倉(cāng)庫(kù)均退出了歷史舞臺(tái)。在Hadoop的基礎(chǔ)上,京東開發(fā)出了JDW企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù),目前集群的總存儲(chǔ)量已經(jīng)達(dá)到了 50PB以上,是名副其實(shí)的大數(shù)據(jù)。
更加真實(shí)有效的大數(shù)據(jù)
在貴陽(yáng)大數(shù)據(jù)博覽會(huì)上,出任京東集團(tuán)高級(jí)副總裁及京東研發(fā)體系負(fù)責(zé)人的張晨表示:“京東全品類、全價(jià)值鏈的電商數(shù)據(jù)在行業(yè)內(nèi)具有稀缺性,它使得京東大數(shù)據(jù)在數(shù)據(jù)、模型、技術(shù)、工具等多個(gè)層面高度的整合和統(tǒng)一,大大提升了大數(shù)據(jù)在整個(gè)集團(tuán)內(nèi)融合和利用的效率,促進(jìn)大數(shù)據(jù)的深度價(jià)值挖掘。”
簡(jiǎn)單來(lái)講,京東大數(shù)據(jù)的優(yōu)勢(shì)得益于京東電商業(yè)務(wù)的全價(jià)值鏈數(shù)據(jù)。由于京東的主要業(yè)務(wù)是自營(yíng)式電商,而且要求端到端的流程控制,使得京東的大數(shù)據(jù)覆蓋了電商的全部流程,從采購(gòu)、庫(kù)房、銷售、配送到售后、客服,整個(gè)鏈條是完整的。
“數(shù)據(jù)不僅僅大才有價(jià)值,如果不完整或者只是局限于某個(gè)點(diǎn)的話,價(jià)值就小了。京東的數(shù)據(jù)很完整,量又很大,這個(gè)數(shù)據(jù)就很值錢。”邢捕頭認(rèn)為。
而且由于京東對(duì)商品交易過(guò)程實(shí)行嚴(yán)格的管控,在京東平臺(tái)上進(jìn)行代購(gòu)和刷單的行為都是不允許的,這也使得京東的用戶數(shù)據(jù)更加接近真實(shí)用戶的真實(shí)需求。
有了真實(shí)有效的大數(shù)據(jù),京東就可以做很多的事情,比如精準(zhǔn)營(yíng)銷、用戶畫像、C2B定制,等等。
以老冀為例,比如老冀想在京東上買本《從零到一》,結(jié)果正好這本書脫銷,老冀于是點(diǎn)擊了一下“到貨提醒”。過(guò)了幾天,老冀收到一封郵件,告訴老冀這本書已經(jīng)到貨了,并且還推薦了《奇點(diǎn)臨近》、《創(chuàng)業(yè)者的思考》,老冀發(fā)現(xiàn)這兩本也是自己想要的書,于是照單全收。
不過(guò),老冀感覺(jué)京東每次登陸的主頁(yè)面還是非常龐雜,似乎不如美國(guó)亞馬遜那么簡(jiǎn)潔、個(gè)性化和有針對(duì)性。邢捕頭坦誠(chéng),目前京東在A/B 測(cè)試方面還不如亞馬遜成熟。所謂A/B 測(cè)試,就是先建立一個(gè)測(cè)試頁(yè)面,這個(gè)頁(yè)面在呈現(xiàn)邏輯和內(nèi)容上與原有頁(yè)面有所不同,然后將這兩個(gè)頁(yè)面以隨機(jī)的方式同時(shí)推送給所有瀏覽用戶,接下來(lái)分別統(tǒng)計(jì)兩個(gè)頁(yè)面的用戶轉(zhuǎn)化率,即可了解到兩種策略的優(yōu)劣。還有一個(gè)也是跟中國(guó)網(wǎng)民的購(gòu)物習(xí)慣相關(guān):大部分美國(guó)網(wǎng)民購(gòu)物非常直接,而中國(guó)網(wǎng)民則喜歡那種“逛”的感覺(jué)。
大數(shù)據(jù)還有個(gè)很大的作用,就是用戶畫像。前面老冀談到京東有個(gè)很獨(dú)特的優(yōu)勢(shì),就是數(shù)據(jù)更加真實(shí)可靠。而且經(jīng)過(guò)了十多年的發(fā)展,京東的商品品類也已經(jīng)非常豐富,目前已經(jīng)有接近1億SKU。很多商品本身就會(huì)有用戶特征,比如女士的胸罩和內(nèi)衣,男士的刮胡刀,等等。京東根據(jù)這些購(gòu)買行為給用戶打上標(biāo)簽,直至勾畫出一幅清晰的用戶畫像。
有了用戶畫像,京東就可以做很多事情了。舉個(gè)例子,根據(jù)用戶在下單前的瀏覽情況,京東就可以了解用戶的購(gòu)物性格是沖動(dòng)型、理性型還是猶豫型。對(duì)于沖動(dòng)型用戶,京東直接推薦給Ta最暢銷的同類商品,而理性型用戶則推薦給Ta口碑最好的商品。
京東還將用戶畫像數(shù)據(jù)提供給網(wǎng)站智能機(jī)器人JIMI,使得JIMI能夠快速理解用戶意圖、從而對(duì)用戶進(jìn)行個(gè)性化關(guān)懷,從而大幅度提升用戶的滿意度。
而隨著2014年京東收購(gòu)了騰訊的實(shí)物電商部門,并將其數(shù)據(jù)整合進(jìn)來(lái),京東大數(shù)據(jù)的準(zhǔn)確性又得到了提升。此外,京東的大數(shù)據(jù)還能夠與騰訊的QQ/微信大數(shù)據(jù)結(jié)合起來(lái),從而開展更有針對(duì)性的營(yíng)銷活動(dòng)。從過(guò)去一段時(shí)間雙方的聯(lián)合推廣來(lái)看,大數(shù)據(jù)功不可沒(méi)。
幫助業(yè)務(wù)部門決策
其實(shí),大數(shù)據(jù)還能夠做更多的事情。對(duì)于邢捕頭所在的部門來(lái)說(shuō),最重要的還是幫助業(yè)務(wù)部門更好地決策。
比如目前市面上有那么多款手機(jī),京東手機(jī)采銷部門到底應(yīng)該采購(gòu)哪一款手機(jī)?就可以根據(jù)京東大數(shù)據(jù)參考決策。如今,京東更深入了一步,在2013年推出了JDPhone計(jì)劃,與手機(jī)廠商一起打造用戶喜歡的手機(jī)。
舉個(gè)例子:京東大數(shù)據(jù)顯示,近半年來(lái)在京東購(gòu)買過(guò)兩次以上手機(jī)的用戶,其中34%都選擇了更大屏幕,但是5.5寸是他們接受的極限,因此建議手機(jī)廠商選擇4.8-5.5寸屏幕作為最優(yōu)尺寸。最近這幾年,正是基于大數(shù)據(jù)的威力,JDPhone計(jì)劃先后與中興、華為等手機(jī)制造企業(yè)合作,推出了目前市場(chǎng)上很多暢銷的機(jī)型
“我們的數(shù)據(jù)能夠幫助業(yè)務(wù)人員做決策和判斷,能夠利用很多統(tǒng)計(jì)方式展現(xiàn)報(bào)表,以更加形象、實(shí)時(shí)和統(tǒng)一的方式提供給他們,通過(guò)業(yè)務(wù)應(yīng)用服務(wù)于我們的消費(fèi)者。”邢捕頭對(duì)于自己的工作感到非常自豪。
2011年11月,京東準(zhǔn)備對(duì)快遞包裹收費(fèi)。那么,當(dāng)用戶的訂單金額到了多少才能夠不收費(fèi)呢?為此,京東大數(shù)據(jù)部門模擬了一個(gè)場(chǎng)景,分別按照用戶訂單免運(yùn)費(fèi)下限為19元、29元到89元之后,對(duì)京東的整體毛利情況做了一個(gè)詳細(xì)的測(cè)算,然后找到了比較合理的價(jià)格區(qū)間,將報(bào)告提交給了公司高層,對(duì)于配送費(fèi)的合理制定起到了很好的輔助決策作用。
如今,對(duì)于京東高達(dá)上億的SKU,單是補(bǔ)貨就是個(gè)大問(wèn)題,如果只是依靠人工補(bǔ)貨根本就忙不過(guò)來(lái)。京東供應(yīng)鏈研發(fā)團(tuán)隊(duì)自主開發(fā)了一套補(bǔ)貨系統(tǒng),項(xiàng)目上線之后,給圖書部門的采購(gòu)補(bǔ)貨工作帶來(lái)了極大的便利。面對(duì)超過(guò)百萬(wàn)而且不斷增長(zhǎng)的SKU,圖書業(yè)務(wù)部門的采購(gòu)人員并沒(méi)有顯著增加
此外,京東還將自己的大數(shù)據(jù)拿出來(lái),與復(fù)旦大學(xué)聯(lián)合推出了復(fù)旦-京東信息消費(fèi)指數(shù),包括消費(fèi)者行為與信心指數(shù)、電子商務(wù)行業(yè)景氣度指數(shù)、電子商務(wù)便利度指數(shù)三大子指數(shù),共同構(gòu)成了一個(gè)完善的指標(biāo)體系,綜合反映了當(dāng)前信息經(jīng)濟(jì)消費(fèi)情況,能夠?yàn)檎?、行業(yè)發(fā)展、消費(fèi)者行為模式等提供重要的參考價(jià)值。這也是目前我國(guó)首個(gè)用于評(píng)估電子商務(wù)、“互聯(lián)網(wǎng)+”等信息要素集聚程度以及績(jī)效表現(xiàn)的綜合性指數(shù)。