大數(shù)據(jù)主要不作因果判斷,主要適用于關(guān)聯(lián)分析。很多關(guān)聯(lián)分析并不需要復(fù)雜的模型,只需要具有大數(shù)據(jù)的意識。比如,通過對發(fā)薪日、體育項(xiàng)目、降雨天氣和假日等變量和犯罪率進(jìn)行關(guān)聯(lián)分析,從而優(yōu)化警力配置,有效地防止犯罪。賓夕法尼亞州政府分析全州感冒藥品的銷量、對比系統(tǒng)保存的歷史數(shù)據(jù),分析兒童就診率,以確定可能發(fā)生的大面積流感。
很多機(jī)構(gòu)都有數(shù)據(jù)廢氣(Data Exhaust),數(shù)據(jù)不是用完就是被舍棄,它的再利用價(jià)值也許你現(xiàn)在不清楚,但在未來的某一刻,它會(huì)迸發(fā)出來,可以化廢為寶。比如,按照工作性質(zhì)和績效表現(xiàn)對員工進(jìn)行更加精細(xì)區(qū)分,通過合理的編組,既能提高員工滿意度有能提高勞動(dòng)生產(chǎn)力。
黑暗數(shù)據(jù)(dark data)就是那些針對單一目標(biāo)而收集的數(shù)據(jù),通常用過之后就被歸檔閑置,其真正價(jià)值未能被充分挖掘。如果黑暗數(shù)據(jù)用在恰當(dāng)?shù)牡胤?,也能公司的事業(yè)變得光明。
相關(guān)閱讀:
大數(shù)據(jù)企業(yè)應(yīng)用玩法攻略①天然大數(shù)據(jù)公司的各種套餐
大數(shù)據(jù)企業(yè)應(yīng)用玩法攻略②輕公司數(shù)據(jù)創(chuàng)業(yè)狂歡
大數(shù)據(jù)企業(yè)應(yīng)用玩法攻略③數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)廢氣和黑暗數(shù)據(jù)
35 數(shù)據(jù)關(guān)聯(lián)分析
某公司團(tuán)隊(duì)曾經(jīng)使用來自手機(jī)的位置數(shù)據(jù),來推測美國圣誕節(jié)購物季開始那一天有多少人在梅西百貨公司(Mact’s)的停車場停車,進(jìn)而可以預(yù)測其當(dāng)天的銷售額,這遠(yuǎn)早于梅西百貨自己統(tǒng)計(jì)出的銷售記錄。無論是華爾街的分析師或者傳統(tǒng)產(chǎn)業(yè)的高管,都會(huì)因這種敏銳的洞察力獲得極大的競爭優(yōu)勢。
對于稅務(wù)部門來說,稅務(wù)欺騙正在日益的被關(guān)注,這時(shí)大數(shù)據(jù)可以用于增加政府識別詐騙的流程。在隱私允許的地方,政府部門可以綜合各個(gè)方面的數(shù)據(jù)比如車輛的登記,海外旅游的數(shù)據(jù)來發(fā)現(xiàn)個(gè)人的花費(fèi)模式,使稅務(wù)貢獻(xiàn)不被疊加。同時(shí)一個(gè)可疑的問題出現(xiàn)了,這并沒有直接的證據(jù)指向詐騙,這些結(jié)論并不能用來去控告?zhèn)€人。但是他可以幫助政府部門去明確他們的審計(jì)和其他的審核以及一些流程。
36 數(shù)據(jù)廢氣(Data Exhaust)
物流公司的數(shù)據(jù)原來只服務(wù)于運(yùn)營需要(例如內(nèi)部車隊(duì)的優(yōu)化調(diào)度),但一經(jīng)再利用,物流公司就華麗轉(zhuǎn)身為金融公司,數(shù)據(jù)用以評估客戶的信用,提供無抵押貸款,或者拿運(yùn)送途中的貨品作為抵押提供貸款;物流公司甚至可以轉(zhuǎn)變?yōu)榻鹑谛畔⒎?wù)公司來判斷各個(gè)細(xì)分經(jīng)濟(jì)領(lǐng)域的運(yùn)行和走勢。
有公司已經(jīng)在大數(shù)據(jù)中有接近“上帝俯視”的感覺,美國洛杉磯的一家企業(yè)宣稱,他們將全球夜景的歷史數(shù)據(jù)建立模型,在過濾掉波動(dòng)之后,做出了投資房地產(chǎn)和消費(fèi)的研究報(bào)告。麥當(dāng)勞則通過外送服務(wù),在售賣漢堡的同時(shí)獲得了用戶的精準(zhǔn)地址,這些地址數(shù)據(jù)匯集之后,就變成了一份絕妙的房地產(chǎn)業(yè)的內(nèi)部數(shù)據(jù)。
37 黑暗數(shù)據(jù)(Dark Data)
在特定情況下,黑暗數(shù)據(jù)可以用作其他用途。Infinity Property &Casualty公司用累積的理賠師報(bào)告來分析欺詐案例,通過算法挽回了1200萬美元的代位追償金額。一家電氣銷售公司,通過積累10年ERP銷售數(shù)據(jù)分析,按照電氣設(shè)備的生命周期,給5年前的老客戶逐一拜訪,獲得了1000萬元以上電氣設(shè)備維修訂單,順利地進(jìn)入MRO市場。
38 客戶流失分析
美國運(yùn)通 (American Express,AmEx)以前只能實(shí)現(xiàn)事后諸葛亮式的報(bào)告和滯后的預(yù)測,傳統(tǒng)的BI已經(jīng)無法滿足其業(yè)務(wù)發(fā)展的需要。于是,AmEx開始構(gòu)建真正能夠預(yù)測客戶忠誠度的模型,基于歷史交易數(shù)據(jù),用115個(gè)變量來進(jìn)行分析預(yù)測。該公司表示,對于澳大利亞將于之后4個(gè)月中流失的客戶,已經(jīng)能夠識別出其中的24%。這樣的客戶流失分析,當(dāng)然可以用于挽留客戶。酒店業(yè)可以為消費(fèi)者定制相應(yīng)的獨(dú)特的個(gè)性房間,甚至可以在墻紙上放上消費(fèi)者的微博的旅游心情等等。旅游業(yè)可以根據(jù)大數(shù)據(jù)為消費(fèi)者提供其可能會(huì)喜好的本地特色產(chǎn)品、活動(dòng)、小而美的小眾景點(diǎn)等等來挽回游客的心。
39 快餐業(yè)的視頻分析
快餐業(yè)的公司可以通過視頻分析等候隊(duì)列的長度,然后自動(dòng)變化電子菜單顯示的內(nèi)容。如果隊(duì)列較長,則顯示可以快速供給的食物;如果隊(duì)列較短,則顯示那些利潤較高但準(zhǔn)備時(shí)間相對長的食品。
40 大數(shù)據(jù)競選
2012年,參與競選的奧巴馬團(tuán)隊(duì)確定了三個(gè)最根本的目標(biāo):讓更多的人掏更多的錢,讓更多的選民投票給奧巴馬,讓更多的人參與進(jìn)來! 這需要“微觀”層面的認(rèn)知:每個(gè)選民最有可能被什么因素說服?每個(gè)選民在什么情況下最有可能掏腰包?什么樣的廣告投放渠道能夠最高效獲取目標(biāo)選民? 如競選總指揮吉姆·梅西納(Jim Messina)所說,在整個(gè)競選活中,沒有數(shù)據(jù)做支撐的假設(shè)不能存在。
為了籌到 10 億美元的競選款,奧巴馬的數(shù)據(jù)挖掘團(tuán)隊(duì)在過去兩年搜集、存儲和分析了大量數(shù)據(jù)。他們注意到,影星喬治·克魯尼(George Clooney)對美國西海岸40歲至49歲的女性具有非常大的吸引力:她們無疑是最有可能為了在好萊塢與克魯尼和奧巴馬共進(jìn)晚餐而不惜自掏腰包的一個(gè)群體??唆斈嵩谧约液勒e辦的籌款宴會(huì)上,為奧巴馬籌集到數(shù)百萬美元的競選資金。此后,當(dāng)奧巴馬團(tuán)隊(duì)決定在東海岸物色一位對于這個(gè)女性群體具有相同號召力的影星時(shí),數(shù)據(jù)團(tuán)隊(duì)發(fā)現(xiàn)莎拉·杰西卡·帕克(Sarah Jessica Parker,《欲望都市》的女主角)的粉絲們也同樣喜歡競賽、小型宴會(huì)和名人。“克魯尼效應(yīng)”被成功地復(fù)制到了東海岸。
在整個(gè)的競選中,奧巴馬團(tuán)隊(duì)的廣告費(fèi)用花了不到3億美元,而羅姆尼團(tuán)隊(duì)則花了近 4 億美元卻落敗,其中一個(gè)重要的原因在于,奧巴馬的數(shù)據(jù)團(tuán)隊(duì)對于廣告購買的決策,是經(jīng)過縝密的數(shù)據(jù)分析之后才制定的。一項(xiàng)民調(diào)顯示,80%的美國選民認(rèn)為奧巴馬比羅姆尼讓他們感覺更加重視自己。結(jié)果是,奧巴馬團(tuán)隊(duì)籌得的第一個(gè)1億美元中,98%來自于小于250美元的小額捐款,而羅姆尼團(tuán)隊(duì)在籌得相同數(shù)額捐款的情況下,這一比例僅為31%。
41 監(jiān)控非法改建
“私搭亂建”在哪個(gè)國家都是一件鬧心的事,而且容易引起火災(zāi)。 非法在屋內(nèi)打隔斷的建筑物著火的可能性比其他建筑物高很多。紐約市每年接到2.5萬宗有關(guān)房屋住得過于擁擠的投訴,但市里只有200名處理投訴的巡視員。市長辦公室一個(gè)分析專家小組覺得大數(shù)據(jù)可以幫助解決這一需求與資源的落差。該小組建立了一個(gè)市內(nèi)全部90萬座建筑物的數(shù)據(jù)庫,并在其中加入市里19個(gè)部門所收集到的數(shù)據(jù):欠稅扣押記錄、水電使用異常、繳費(fèi)拖欠、服務(wù)切斷、救護(hù)車使用、當(dāng)?shù)胤缸锫?、鼠患投訴等等。接下來,他們將這一數(shù)據(jù)庫與過去5年中按嚴(yán)重程度排列的建筑物著火記錄進(jìn)行比較,希望找出相關(guān)性。果然,建筑物類型和建造年份是與火災(zāi)相關(guān)的因素。不過,一個(gè)沒怎么預(yù)料到的結(jié)果是,獲得外磚墻施工許可的建筑物與較低的嚴(yán)重火災(zāi)發(fā)生率之間存在相關(guān)性。
利用所有這些數(shù)據(jù),該小組建立了一個(gè)可以幫助他們確定哪些住房擁擠投訴需要緊急處理的系統(tǒng)。他們所記錄的建筑物的各種特征數(shù)據(jù)都不是導(dǎo)致火災(zāi)的原因,但這些數(shù)據(jù)與火災(zāi)隱患的增加或降低存在相關(guān)性。這種知識被證明是極具價(jià)值的:過去房屋巡視員出現(xiàn)場時(shí)簽發(fā)房屋騰空令的比例只有13%,在采用新辦法之后,這個(gè)比例上升到了70%。
42 榨菜指數(shù)
負(fù)責(zé)起草《全國促進(jìn)城鎮(zhèn)化健康發(fā)展規(guī)劃(2011-2020年)》(以下簡稱“城鎮(zhèn)化規(guī)劃”)的國家發(fā)改委規(guī)劃司官員需要精確知道人口的流動(dòng),怎么統(tǒng)計(jì)出這些流動(dòng)人口成為難題。
榨菜,屬于低質(zhì)易耗品,收入增長對于榨菜的消費(fèi)幾乎沒有影響。一般情況下,城市常住人口對于方便面和榨菜等方便食品的消費(fèi)量,基本上是恒定的。銷量的變化,主要由流動(dòng)人口造成。
據(jù)國家發(fā)改委官員的說法,涪陵榨菜(002507,股吧)這幾年在全國各地區(qū)銷售份額變化,能夠反映人口流動(dòng)趨勢,一個(gè)被稱為“榨菜指數(shù)”的宏觀經(jīng)濟(jì)指標(biāo)就誕生了。國家發(fā)改委規(guī)劃司官員發(fā)現(xiàn),涪陵榨菜在華南地區(qū)銷售份額由2007年的49%、2008年的48%、2009年的47.58%、2010年的38.50%下滑到2011年的29.99%。這個(gè)數(shù)據(jù)表明,華南地區(qū)人口流出速度非??臁K麄円罁?jù)“榨菜指標(biāo)”,將全國分為人口流入?yún)^(qū)和人口流出區(qū)兩部分,針對兩個(gè)區(qū)的不同人口結(jié)構(gòu),在政策制定上將會(huì)有所不同。
43 天氣賬單
常言道,“天有不測之風(fēng)云”,遇到過出門旅游、重要戶外路演、舉辦婚禮等重要時(shí)刻卻被糟糕的天氣弄壞心情甚至造成經(jīng)濟(jì)損失的情況嗎?全球第一家氣象保險(xiǎn)(放心保)公司“天氣賬單”能為用戶提供各類氣候擔(dān)保??蛻舻卿?ldquo;天氣賬單”公司網(wǎng)站,然后給出在某個(gè)特定時(shí)間段里不希望遇到的溫度或雨量范圍。“天氣賬單”網(wǎng)站會(huì)在100毫秒內(nèi)查詢出客戶指定地區(qū)的天氣預(yù)報(bào),以及美國國家氣象局記載的該地區(qū)以往30 年的天氣數(shù)據(jù)。通過計(jì)算分析天氣數(shù)據(jù),網(wǎng)站會(huì)以承保人的身份給出保單的價(jià)格。這項(xiàng)服務(wù)不僅個(gè)人用戶需要,一些公司,比如旅行社也很樂意參與。
一家全球性飲料企業(yè)將外部合作伙伴的每日天氣預(yù)報(bào)信息集成,錄入其需求和存貨規(guī)劃流程。通過分析特定日子的溫度、降水和日照時(shí)間等3個(gè)數(shù)據(jù)點(diǎn),該公司減少了在歐洲一個(gè)關(guān)鍵市場的存貨量,同時(shí)使預(yù)測準(zhǔn)確度提高了大約5%。
44 歷史情景再現(xiàn)
微軟和以色列理工學(xué)院的研究人員已開發(fā)出一款軟件,能根據(jù)過去20年《紐約時(shí)報(bào)》的文章以及其他在線數(shù)據(jù)預(yù)測傳染病或者其他社會(huì)問題可能會(huì)于何時(shí)何地爆發(fā)。
在利用歷史數(shù)據(jù)進(jìn)行測試時(shí),該系統(tǒng)的表現(xiàn)十分驚人。例如,根據(jù)2006年對安哥拉干旱的報(bào)道,該系統(tǒng)預(yù)測安哥拉很可能發(fā)生霍亂。這是由于,通過此前發(fā)生的多起事件,該系統(tǒng)了解到在干旱出現(xiàn)的幾年后霍亂爆發(fā)的可能性將上升。此外,該系統(tǒng)根據(jù)對2007年初非洲大型颶風(fēng)的報(bào)道,再次對安哥拉發(fā)生霍亂做出預(yù)警。而在不到一周之后,報(bào)道顯示安哥拉確實(shí)發(fā)生了霍亂。在其他測試,例如對疾病、暴力事件及傷亡人數(shù)的預(yù)測中,該系統(tǒng)的準(zhǔn)確率達(dá)到70%至90%。
該系統(tǒng)的信息來自過去22年中《紐約時(shí)報(bào)》的報(bào)道存檔,具體時(shí)間為1986年至2007年。不過,該系統(tǒng)也利用了網(wǎng)絡(luò)上的其他一些數(shù)據(jù),了解什么樣的事件會(huì)帶來特定的社會(huì)問題。這些信息來源提供了不存在于新聞文章但卻有價(jià)值的內(nèi)容,有助于確定不同事件之間的因果關(guān)系或前后關(guān)系。例如,該系統(tǒng)能夠推斷盧旺達(dá)和安哥拉城市之間所發(fā)生事件的關(guān)系,因?yàn)檫@兩個(gè)國家都位于非洲,有著類似的GDP,其他一些因素也很相似。根據(jù)這種方法,該系統(tǒng)認(rèn)為,在預(yù)測霍亂爆發(fā)方面,應(yīng)當(dāng)考慮國家或城市的位置,國土面積有多少是水域,人口密度和GDP是多少,以及近幾年是否發(fā)生過干旱。
負(fù)責(zé)此項(xiàng)研發(fā)工作的Horvitz表示,近幾十年來,世界的許多方面都發(fā)生了改變,不過人類的本性和環(huán)境的許多方面仍然未變,因此軟件可以從以往的數(shù)據(jù)中了解事情發(fā)生的模式,從而預(yù)測未來會(huì)發(fā)生什么。他表示:“對于回溯更久之前的數(shù)據(jù),我個(gè)人很感興趣。”
此類預(yù)測工具的市場正在形成。例如,一家名為Recorded Future的創(chuàng)業(yè)公司根據(jù)網(wǎng)上的前瞻性報(bào)道和其他信息來源預(yù)測未來事件,該公司的客戶包括政府情報(bào)部門。該公司CEO Christopher Ahlberg表示,利用“硬數(shù)據(jù)”來進(jìn)行預(yù)測是可行的,但從原型系統(tǒng)到商用產(chǎn)品還有很長的路要走。
45 Nike+傳感鞋
耐克憑借一種名為Nike+的新產(chǎn)品變身為大數(shù)據(jù)營銷的創(chuàng)新公司。所謂Nike+,是一種以“Nike跑鞋或腕帶+傳感器”的產(chǎn)品,只要運(yùn)動(dòng)者穿著Nike+的跑鞋運(yùn)動(dòng),iPod就可以存儲并顯示運(yùn)動(dòng)日期,時(shí)間、距離、熱量消耗值等數(shù)據(jù)。用戶上傳數(shù)據(jù)到耐克社區(qū),就能和同好分享討論。耐克和Facebook達(dá)成協(xié)議,用戶上傳的跑步狀態(tài)會(huì)實(shí)時(shí)更新到賬戶里,朋友可以評論并點(diǎn)擊一個(gè)“鼓掌”按鈕——神奇的是,這樣你在跑步的時(shí)候便能夠在音樂中聽到朋友們的鼓掌聲。隨著跑步者不斷上傳自己的跑步路線,耐克由此掌握了主要城市里最佳跑步路線的數(shù)據(jù)庫。有了Nike+,耐克組織的城市跑步活動(dòng)效果更好。參賽者在規(guī)定時(shí)間內(nèi)將自己的跑步數(shù)據(jù)上傳,看哪個(gè)城市累積的距離長。憑借運(yùn)動(dòng)者上傳的數(shù)據(jù),耐克公司已經(jīng)成功建立了全球最大的運(yùn)動(dòng)網(wǎng)上社區(qū),超過500萬活躍的用戶,每天不停地上傳數(shù)據(jù),耐克借此與消費(fèi)者建立前所未有的牢固關(guān)系。海量的數(shù)據(jù)對于耐克了解用戶習(xí)慣、改進(jìn)產(chǎn)品、精準(zhǔn)投放和精準(zhǔn)營銷又起到了不可替代的作用。
46 沃爾沃的工業(yè)互聯(lián)網(wǎng)
在沃爾沃集團(tuán),通過在卡車產(chǎn)品中安裝傳感器和嵌入式CPU,從剎車到中央門鎖系統(tǒng)等形形色色的車輛使用信息,正源源不斷地傳輸?shù)轿譅栁旨瘓F(tuán)總部。“對這些數(shù)據(jù)進(jìn)行分析,不僅可以幫助我們制造更好的汽車,還可以幫助客戶們獲取更好體驗(yàn)。”沃爾沃集團(tuán)CIO Rich Strader說。這些數(shù)據(jù)正在被用來優(yōu)化生產(chǎn)流程,以提升客戶體驗(yàn)和提升安全性。將來自不同客戶的使用數(shù)據(jù)進(jìn)行分析,可以讓產(chǎn)品部門提早發(fā)現(xiàn)產(chǎn)品潛在的問題,并在這些問題發(fā)生之前提前向客戶預(yù)警。“產(chǎn)品設(shè)計(jì)方面的缺陷,此前可能需要有50萬臺銷量的時(shí)候才能暴露出來,而現(xiàn)在只需要1000臺,我們就能發(fā)現(xiàn)潛在的缺陷。”
47 McKesson的動(dòng)態(tài)供應(yīng)鏈
在美國最大的醫(yī)藥貿(mào)易商McKesson公司,對大數(shù)據(jù)的應(yīng)用也已經(jīng)遠(yuǎn)遠(yuǎn)領(lǐng)先于大多數(shù)企業(yè),將先進(jìn)的分析能力融合到每天處理200萬個(gè)訂單的供應(yīng)鏈業(yè)務(wù)中,并且監(jiān)督超過80億美元的存貨。對于在途存貨的管理,McKesson開發(fā)了一種供應(yīng)鏈模型,它根據(jù)產(chǎn)品線、運(yùn)輸費(fèi)用甚至碳排放量而提供了極為準(zhǔn)確的維護(hù)成本視圖。據(jù)公司流程改造副總裁Robert Gooby說,這些詳細(xì)信息使公司能夠更加真實(shí)地了解任意時(shí)間點(diǎn)的運(yùn)營情況。McKesson利用先進(jìn)分析技術(shù)的另一個(gè)領(lǐng)域是對配送中心內(nèi)的物理存貨配置進(jìn)行模擬和自動(dòng)化處理。評估政策和供應(yīng)鏈變化的能力幫助公司增強(qiáng)了對客戶的響應(yīng)能力,同時(shí)減少了流動(dòng)資金??傮w來講,McKesson的供應(yīng)鏈轉(zhuǎn)型使公司節(jié)省了超過1億美元的流動(dòng)資金。
48 紙牌屋與電影業(yè)
《紙牌屋》最大的特點(diǎn)在于,與以往電視劇的制作流程不同,這是一部“網(wǎng)絡(luò)劇”。簡而言之,不僅傳播渠道是互聯(lián)網(wǎng)觀看,這部劇從誕生之初就是一部根據(jù)“大數(shù)據(jù)”,即互聯(lián)網(wǎng)觀眾欣賞口味來設(shè)計(jì)的產(chǎn)品。Netflix成功之處在于其強(qiáng)大的推薦系統(tǒng)Cinematch,該系統(tǒng)基于用戶視頻點(diǎn)播的基礎(chǔ)數(shù)據(jù)如評分、播放、快進(jìn)、時(shí)間、地點(diǎn)、終端等,儲存在數(shù)據(jù)庫后通過數(shù)據(jù)分析,計(jì)算出用戶可能喜愛的影片,并為他提供定制化的推薦。 為此他們開設(shè)了年Netflix大獎(jiǎng)(點(diǎn)擊查看獲獎(jiǎng)算法),用百萬美元懸賞,獎(jiǎng)勵(lì)能夠?qū)⑵潆娪巴扑]算法準(zhǔn)確性提高至少10%的人。
未來的電影制作成本將大幅降低,一千粉絲足以使電影成功。還是像《技術(shù)元素》里說:“目光聚集的地方,金錢必將追隨。”
49 點(diǎn)評與餐飲業(yè)
美國很多州政府在與餐飲點(diǎn)評網(wǎng)lep展開合作,監(jiān)督餐飲行業(yè)的衛(wèi)生情況,效果非常好。人們不再像以前那樣從窗口去看餐館里的情況,而是從手機(jī)APP里的評論!在中國的本地化O2O點(diǎn)評比如大眾點(diǎn)評、番茄點(diǎn)等等,消費(fèi)者可以對任何商家進(jìn)行評判,同時(shí)商家也可以通過這些評判來提升自己的服務(wù)能力,在環(huán)節(jié)上進(jìn)行更大力度的效率優(yōu)化。
未來的餐飲行業(yè)將會(huì)由互聯(lián)網(wǎng)和社會(huì)化媒體上所產(chǎn)生和承載的數(shù)據(jù)徹底帶動(dòng)起來,會(huì)有越來越多的人加入點(diǎn)評中,餐館優(yōu)勝劣汰的速度將會(huì)大幅加快。