大數(shù)據(jù)是今天的IT領域最受關注的熱門詞匯之一。公司里開發(fā)新產(chǎn)品,有意無意總想跟大數(shù)據(jù)拉上關系,以顯得自己走在技術的最前沿;同事們在一起聊天,也總愛把大數(shù)據(jù)這個詞掛在嘴邊,以顯示自己學識淵博,與時俱進。即使是狐朋狗友在微信群里瞎聊,“大數(shù)據(jù)”這個詞也時不時地蹦出來:“大數(shù)據(jù)表明,不要瞎折騰減肥,微胖才是真健康”,“四月是春心蕩漾的季節(jié)。根據(jù)大數(shù)據(jù),30%的戀情在四月會升溫急劇。“
其實,通過大量數(shù)據(jù)來發(fā)現(xiàn)事物背后的規(guī)律不是什么新鮮事,只是現(xiàn)在技術發(fā)展了,數(shù)據(jù)的搜集和儲存變得越來越便宜和方便,數(shù)據(jù)的種類和數(shù)量都達到了從前沒有的高度,而很多適合處理海量數(shù)據(jù)的工具也應運而生,為人們分析和利用這些數(shù)據(jù)提供了方便。所以這個大數(shù)據(jù)的說法,只是技術的逐漸進步和升級,并不是什么革命性的新概念,基本上是新瓶裝舊酒。但必須承認的是,現(xiàn)在大數(shù)據(jù)在社會上的影響已經(jīng)不能跟過去同日而語,量變已經(jīng)快要引起質變。以前只有幾個做數(shù)據(jù)分析的人對這個東西感興趣,現(xiàn)在街頭巷尾的販夫走卒全在談論它;過去做夢也想不到數(shù)據(jù)分析會影響我們的衣食住行,現(xiàn)在卻發(fā)現(xiàn)跟大數(shù)據(jù)有關的經(jīng)歷在日常生活中俯拾皆是。
上周末我就親身經(jīng)歷了一個大數(shù)據(jù)的小故事。最近舊金山藝術博物館在展出一些蘇格蘭國家藝術畫廊的名畫,我們附庸風雅,到藝術博物館看了畫展,然后又到漁人碼頭吃了一頓豐盛的海鮮大餐,度過了愉快的一天。但這近乎完美的一天最后卻出了一個小小的瑕疵:為晚餐付賬時,我們的信用卡被刷卡機拒收。我們在錢包里搜羅半天,才湊出足夠的現(xiàn)金付了賬。
但賬雖付了,信用卡遭拒畢竟有些蹊蹺,因此我們一回家就給信用卡公司打電話,詢問到底是什么情況。結果信用卡公司告訴我們,我們的信用卡目前確實不能使用。他們注意到這張卡上有幾樁可疑的交易,因此把卡暫時鎖住了。我們問都有些什么可疑交易,信用卡公司的客服人員細細地數(shù)給我們聽,還果真都不是我們經(jīng)手的。看來這張信用卡已經(jīng)被人盜用。而讓人佩服的是,這幾樁交易都是當天發(fā)生的。我們自己還渾然不覺,信用卡公司就已經(jīng)第一時間發(fā)現(xiàn)了情況有異。
信用卡公司的神奇武功,當然是以大數(shù)據(jù)為基礎的。信用卡公司擁有消費者行為的大量數(shù)據(jù)。他們對這些數(shù)據(jù)進行分析,找出關聯(lián),建立模型,然后又實時追蹤信用卡持有者的行為,一旦發(fā)現(xiàn)異常,就會發(fā)出警報,采取行動。在我們的例子中,這個異常就是在很短的時間里,在相隔一定距離的好幾個地方都發(fā)生了信用卡交易。因為信用卡失竊造成的損失通常都由信用卡公司負擔,信用卡公司有足夠的動力來進行風險管理,以及時發(fā)現(xiàn)盜竊行為,降低損失。資本的趨利本能和高科技結合,造就了一流的以大數(shù)據(jù)為基礎的信用卡防盜機制。
還有一個關于大數(shù)據(jù)的故事也很有意思,因為和我們最關注的高中生申請大學的過程有關。大家都知道,大學尤其是名牌大學的錄取過程在外人看來很像黑箱作業(yè)。看上去很相似的兩個申請人,可能一個被收一個被拒;一個各方面都很優(yōu)秀的申請人可能屢戰(zhàn)屢敗,而一個條件明明一般的申請人,卻可能所向無敵,大獲全勝。
但有人聲稱他破解了名校錄取學生的秘密,這個人就是升學輔導公司智勝的創(chuàng)始人馬振翼。因為這些年里升學輔導公司都生意興隆,智勝也輔導了不少學生,積累了一些學生的數(shù)據(jù)資料。馬振翼聲稱,根據(jù)這些數(shù)據(jù),智勝已經(jīng)建立了模型,可以用學生檔案中的12個變量——從高中成績和考試分數(shù)到課外活動及移民背景 ——來計算學生被各個頂尖大學錄取的概率。比如說,他的算法預測,一名在美國出生的高中畢業(yè)生,GPA成績3.8,SAT考試分數(shù)2000,有適當?shù)念I導力,從事過800小時的課外活動,那么他被紐約大學錄取的概率為20.4%,被南加州大學錄取的概率為28.1%。馬振翼說,“我們的模型比很多大學招生辦的人更清楚如何才能進入他們學校。”
馬振翼推銷他的升學指導服務時,使用了“大數(shù)據(jù)”這個詞。其實,他的數(shù)據(jù)庫充其量有幾千個學生的數(shù)據(jù),實在是小得不能再小。稱之為大數(shù)據(jù),顯然是想搭炙手可熱的大數(shù)據(jù)的順風車,有嘩眾取寵之嫌。而且,他的模型是否準確,到底有多準確,只聽馬振翼的一家之言當然遠遠不夠。美國大學招生辦的人員和其他教育工作者對馬振翼的模型就嗤之以鼻。他們說,沒人可以預測頂尖大學的錄取結果,因為成績和分數(shù)只是非常主觀的錄取過程中的一部分。馬振翼反駁說,任何事情都可以量化。 “有了足夠的數(shù)據(jù),”他說,“沒有任何東西是主觀性的。”聽起來也有點道理。當然,馬振翼提供的升學服務中包括一種“擔保服務”:保證學生可以進入某些大學,否則給家長退款。這種服務的收費是根據(jù)學生的條件和他想申請的學校名單來計算的,要定價合理,保證不虧錢,當然最好有一個可以計算錄取概率的模型,所以說他有這樣一個模型,我是完全相信的。但對我們外人來說,這還是一個道聽途說、死無對證的模型,所以這個大數(shù)據(jù)的故事,只能算是半個。
還有一個關于大數(shù)據(jù)的故事名氣更大,我在不止一個地方讀到過,聽說的人肯定也很多。但我實在是喜歡這個故事,所以還是把它作為這篇文章要講的三個故事的最后一個。美國連鎖零售商店Target這些年生意很紅火,不但店越開越多,而且店面明亮整潔,店里的東西價廉物美,一看就管理有方。而這個管理有方的特征之一,就是他們的大數(shù)據(jù)分析做得不錯。Target顧客的購物行為的數(shù)據(jù),是個取之不盡、用之不竭的金礦。如果對這些數(shù)據(jù)妥善地加以利用,可以讓它們發(fā)揮極大的作用。比如說,如果仔細研究顧客的購物行為之間的關聯(lián),建立統(tǒng)計模型,從顧客的某些購物行為,推斷出顧客可能會有某些其他購物行為,因而有針對性地向顧客發(fā)送廣告,以影響和指導顧客的消費,對促進銷售,增加贏利,當然可以有所幫助。
Target確實這么做了,于是便有了下面的小故事。有一天,一位父親走進住家附近的一間Target,憤怒地揮舞著Target寄給她女兒的減價券,要求見經(jīng)理。
“我女兒收到了這個!”他說。“她還在念高中,你們就給她寄嬰兒衣服嬰兒床的減價券!你們是想鼓勵她懷孕嗎?”
經(jīng)理問明情況,覺得很不好意思,誠懇地向父親道了歉。而且,這個經(jīng)理大概是個非常細心負責的人,幾天之后,他又再次給這位父親打了電話。
但父親不再像前幾天那么氣勢洶洶,事實上他甚至有點局促不安。最后他終于說,“我跟我女兒談過了??磥砦壹依锎_實發(fā)生了一些我不知道的事情。她的預產(chǎn)期在八月,我應該向你們道歉。”
原來,Target的統(tǒng)計模型能夠根據(jù)顧客的一些購買細節(jié),推斷這家人是否正在期待一個嬰兒的降生。跟女兒住在一個屋檐下的父親還一無所知,Target就已經(jīng)從女兒的一些行為中知道了女兒的秘密。
Target這種窺探我們的生活隱私的本領,當然是讓人感到有些不安的,事實上很多以大數(shù)據(jù)為基礎的分析工具都會讓我們感到自己的空間受到了侵犯。但不去談其中的法律和倫理問題,“窺探”確實是大數(shù)據(jù)的特點。運用得當?shù)臅r候,心理學、經(jīng)濟學原理不能解釋的或者還沒有發(fā)現(xiàn)的規(guī)律,卻可以從大量的數(shù)據(jù)中凸顯出來,而很多現(xiàn)象和行為之間的聯(lián)系,不要說身邊的人不知道,就連被研究對象本身都根本沒有覺察。但這也正是大數(shù)據(jù)的價值所在。因為這些信息中包含著巨大的商業(yè)價值,新興的技術又讓大數(shù)據(jù)分析成為可能,一定會有越來越多的人想要得到它們,并運用它們來獲利。所以,不管我們喜歡還是不喜歡,關于大數(shù)據(jù)的小故事,以后在生活中只會更加頻繁地出現(xiàn)。