18岁禁止网站,成人黄色大片一级片,1024手机看片基地

硅谷觀察之大數(shù)據(jù)篇【下】：硅谷巨頭們的大數(shù)據(jù)玩法

責(zé)任編輯：editor004

2014-12-08 10:52:28

摘自：36氪

在硅谷觀察之大數(shù)據(jù)篇的【上】篇中，我把硅谷地區(qū)大數(shù)據(jù)生長狀況基本梳理了一個(gè)相對(duì)完整的形狀出來。BigQuery 和 GAE（Google App Engine）等 Google 自有業(yè)務(wù)服務(wù)器構(gòu)建了一個(gè)大數(shù)據(jù)生態(tài)圈，程序創(chuàng)建，數(shù)據(jù)收集，數(shù)據(jù)處理和數(shù)據(jù)分析等形成了閉環(huán)。

在硅谷觀察之大數(shù)據(jù)篇的【上】篇中，我把硅谷地區(qū)大數(shù)據(jù)生長狀況基本梳理了一個(gè)相對(duì)完整的形狀出來。有朋友看了【下】的預(yù)告后在微博上給我留言說，聽說下篇要介紹一些公司的大數(shù)據(jù)部門情況，問能不能點(diǎn)名加個(gè) Google 尤其是 Google Maps，因?yàn)樘貏e想知道這個(gè)世界上最大的搜索引擎以及每天必不可少的出行神器是怎么當(dāng)一個(gè)挖掘機(jī)的。

于是，上周我又去了 Google 采訪。本篇將一共呈現(xiàn)硅谷四大不同類型的公司如何玩轉(zhuǎn)大數(shù)據(jù)，其中包括了著名 FLAG 中的三家（Apple 在大數(shù)據(jù)這塊來說表現(xiàn)并不突出）。

本篇內(nèi)容來自對(duì) Evernote AI 負(fù)責(zé)人 Zeesha Currimbhoy、LinkedIn 大數(shù)據(jù)部門資深總監(jiān) Simon Zhang、前 Facebook 基礎(chǔ)架構(gòu)工程師 Ashish Thusoo 和 Google 大數(shù)據(jù)部門一線工程師及 Google Maps 相關(guān)負(fù)責(zé)人的專訪。Enjoy~~

Evernote：今年新建AI部門劍指深度學(xué)習(xí)

Evernote 的全球大會(huì)上，CEO Phil Libin 提到，Evernote 的一個(gè)重要方向就是“讓 Evernote 變成一個(gè)強(qiáng)大的大腦”。要實(shí)現(xiàn)這個(gè)目標(biāo)，就不得不提他們剛剛整合改組的 Augmented Intelligence 團(tuán)隊(duì)（以下簡稱 AI team）。我在斯坦福約到 AI team 的 manager Zeesha Currimbhoy，在此分析一下從她那里得到的一手資料。

是什么

今年早些時(shí)候，這個(gè) 2 歲的數(shù)據(jù)處理團(tuán)隊(duì)改組為由 Zeesha 帶領(lǐng)的 Augmented Intelligence team，總共十人不到，很低調(diào)，平日幾乎聽不到聲響。他們究竟在做什么？

與我們常說的 AI（artificial Intelligence）不同，Evernote 的團(tuán)隊(duì)名叫做 Augmented Intelligence，通常情況下簡稱為 IA。

Zeesha 顯然是這個(gè)團(tuán)隊(duì)里元老級(jí)的人物：“我是在 2012 年加入 Evernote 的，直接加入到了當(dāng)時(shí)剛剛建立的數(shù)據(jù)處理團(tuán)隊(duì)，這也就是現(xiàn)在 AI team 的雛形。我們最開始的項(xiàng)目都是簡單易行的小項(xiàng)目，比如按照你的個(gè)人打字方式來優(yōu)化用戶的輸入體驗(yàn)。”

傳統(tǒng)意義上的 AI 指的是通過大量數(shù)據(jù)和算法讓機(jī)器學(xué)會(huì)分析并作出決定。而這里講到 IA 則是讓電腦進(jìn)行一定量的運(yùn)算，而終極目的是以之武裝人腦，讓人來更好的做決定。這兩個(gè)概念在具體實(shí)施中自然有不少相通之處，但是其出發(fā)點(diǎn)卻是完全不同的。

這個(gè)區(qū)別也是 Evernote AI team 的亮點(diǎn)所在。作為一個(gè)筆記記錄工具，Evernote 與 Google 之類的搜索引擎相比，最大的區(qū)別就是它非常的個(gè)人化。用戶所儲(chǔ)存的筆記、網(wǎng)站鏈接、照片、視頻等都是他思維方式和關(guān)注點(diǎn)的體現(xiàn)。

從哪來

Zeesha 小組的初衷便是，通過分析用戶儲(chǔ)存的筆記來學(xué)習(xí)其思維方式，然后以相同的模式從第三方數(shù)據(jù)庫（也就是互聯(lián)網(wǎng)上的各種開源信息）抽取信息推送給用戶，從而達(dá) 到幫助用戶思考的過程。從這個(gè)意義上講，Zeesha 版的未來 Evernote 更像是一個(gè)大腦的超級(jí)外掛，為人腦提供各種強(qiáng)大的可理解的數(shù)據(jù)支持。

目前整個(gè)團(tuán)隊(duì)的切入點(diǎn)是很小而專注的。

“我們不僅僅是幫助用戶做搜索，更重要的是在正確的時(shí)間給用戶推送正確的信息。”

實(shí)現(xiàn)這個(gè)目標(biāo)的第一步就是給用戶自己的筆記分類，找到關(guān)聯(lián)點(diǎn)。今年早些時(shí)候，Evernote 已經(jīng)在 Mac 的英文版上實(shí)行了一項(xiàng)叫做“Descriptive Search”的功能。用戶可以直接描述想要搜索的條目，Evernote 就會(huì)自動(dòng)返回所有相關(guān)信息。

例如，用戶可以直接搜索“2012 后在布拉格的所有圖片”，或者“所有素食菜單”。不管用戶的筆記是怎樣分類的，Decriptive Search 都可以搜索到相關(guān)的信息并且避免返回過大范圍的數(shù)據(jù)。而這還僅僅是 AI team 長期目標(biāo)的開始，這個(gè)團(tuán)隊(duì)將在此基礎(chǔ)上開發(fā)一系列智能化的產(chǎn)品。

到哪去

不用說，這樣一個(gè)新創(chuàng)團(tuán)隊(duì)自然也面臨這諸多方面的挑戰(zhàn)。當(dāng)下一個(gè)比較重要的技術(shù)難點(diǎn)就是 Evernote 用戶的數(shù)據(jù)量。雖然 Evernote 的用戶量已經(jīng)達(dá)到了一億，但是由于整個(gè)團(tuán)隊(duì)的關(guān)注點(diǎn)在個(gè)人化分析，外加隱私保護(hù)等諸多原因，AI team 并沒有做跨用戶的數(shù)據(jù)分析。

這樣做的結(jié)果就是團(tuán)隊(duì)需要分析一億組各不相同的小數(shù)據(jù)組。比如，假設(shè)我只在 Evernote 上面存了 10 個(gè)筆記，那 Evernote 也應(yīng)該能夠通過這些少量的數(shù)據(jù)來分析出有效結(jié)果。當(dāng)然，這些技術(shù)的直接結(jié)果是用戶用 Evernote 越多，得到的個(gè)性化用戶體驗(yàn)就越好。長期來講，也是一個(gè)可以增加用戶黏性的特點(diǎn)。

不過 Zeesha 也坦言：“的確，我們都知道沒有大數(shù)據(jù)就沒有所謂的智能分析。但是我們現(xiàn)在所做的正是在這樣的前提下來找到新的合適的算法。”她并沒有深入去講目前團(tuán)隊(duì)所用的是什么思路，但是考慮到這個(gè)領(lǐng)域一時(shí)還沒有很成功的先例，我們有理由期待在 Zeesha 帶領(lǐng)下的 Evernote AI team 在近期做出一些有意思的成果。

Facebook：大數(shù)據(jù)主要用于外部廣告精準(zhǔn)投放和內(nèi)部交流

Facebook 有一個(gè)超過 30 人的團(tuán)隊(duì)花了近 4 年的時(shí)間才建立了 Facebook 的數(shù)據(jù)處理平臺(tái)。如今，F(xiàn)acebook 仍需要超過 100 名工程師來支持這個(gè)平臺(tái)的日常運(yùn)行?？上攵?，光是大數(shù)據(jù)分析的基礎(chǔ)設(shè)施就已經(jīng)是一個(gè)耗時(shí)耗力的項(xiàng)目了。

Facebook 的一大價(jià)值就在于其超過 13.5 億活躍用戶每天發(fā)布的數(shù)據(jù)。而其大數(shù)據(jù)部門經(jīng)過七八年的摸索，才在 2013 年把部門的 key foundation 定位成廣告的精準(zhǔn)投放，開始建了一整套自己的數(shù)據(jù)處理系統(tǒng)和團(tuán)隊(duì)。并進(jìn)行了一系列配套的收購活動(dòng)，比如買下世界第二大廣告平臺(tái) Atlas。

據(jù)前 Facebook Data Infrastructure Manager Ashish Thusoo 介紹，F(xiàn)acebook 的數(shù)據(jù)處理平臺(tái)是一個(gè) self-service, self-managing 的平臺(tái)，管理著超過 1 Exabyte 的數(shù)據(jù)。公司內(nèi)部的各個(gè)部門可以直接看到處理過的實(shí)時(shí)數(shù)據(jù)，并根據(jù)需求進(jìn)一步分析。

目前公司超過 30% 的團(tuán)隊(duì)，包括工程師、Product Managers、Business Analysts 等多個(gè)職位人群每個(gè)月都一定會(huì)使用這項(xiàng)服務(wù)。這個(gè)數(shù)據(jù)處理平臺(tái)的建立讓各個(gè)不同部門之間可以通過數(shù)據(jù)容易地交流，明顯改變了公司的運(yùn)行方式。

追溯歷史，F(xiàn)acebook 最早有大數(shù)據(jù)的雛形是在 2005 年，當(dāng)時(shí)是小扎克親自做的。方法很簡單：用 Memcache 和 MySQL 進(jìn)行數(shù)據(jù)存儲(chǔ)和管理。

很快 bug 就顯現(xiàn)了，用戶量帶來數(shù)據(jù)的急速增大，使用 Memcache 和 MySQL 對(duì) Facebook 的快速開發(fā)生命周期（改變 - 修復(fù) - 發(fā)布）帶來了阻礙，系統(tǒng)同步不一致的情況經(jīng)常發(fā)生?；谶@個(gè)問題的解決方案是每秒 100 萬讀操作和幾百萬寫操作的 TAO(“The Associations and Objects”) 分布式數(shù)據(jù)庫，主要解決特定資源過量訪問時(shí)服務(wù)器掛掉的 bug。

小扎克在 2013 年第一季度戰(zhàn)略時(shí)提到的最重點(diǎn)就是公司的大數(shù)據(jù)方向，還特別提出不對(duì)盈利做過多需求，而是要求基于大數(shù)據(jù)來做好以下三個(gè)功能：

發(fā)布新的廣告產(chǎn)品。比如類似好友，管理特定好友和可以提升廣告商精確投放的功能。除與Datalogix, Epsilon,Acxiom和BlueKai合作外，以加強(qiáng)廣告商定向投放廣告的能力。通過收購Atlas Advertising Suite，加強(qiáng)廣告商判斷數(shù)字媒體廣告投資回報(bào)率（ROI）。

LinkedIn 大數(shù)據(jù)部門的一個(gè)重要功用是分析挖掘網(wǎng)站上巨大的用戶和雇主信息，并直接用來支持銷售并變現(xiàn)。其最核心團(tuán)隊(duì)商業(yè)分析團(tuán)隊(duì)的總監(jiān) Simon Zhang 說，現(xiàn)在國內(nèi)大家都在討論云，討論云計(jì)算，討論大數(shù)據(jù)，討論大數(shù)據(jù)平臺(tái)，但很少有人講：我如何用數(shù)據(jù)產(chǎn)生更多價(jià)值，通俗點(diǎn)講，直接賺到錢。

但這個(gè)問題很重要，因?yàn)殛P(guān)系到直接收入。四年半前 LinkedIn 內(nèi)所有用戶的簡歷里抽取出來大概有 300 萬公司信息，作為銷售人員不可能給每個(gè)公司都打電話，所以問題來了：哪家公司應(yīng)該打？打了后會(huì)是個(gè)有用的 call？

銷售們?nèi)?Simon，他說只有通過數(shù)據(jù)分析。而這個(gè)問題的答案在沒有大數(shù)據(jù)部門之前這些決策都是拍腦袋想象的。

Simon 和當(dāng)時(shí)部門僅有的另外三個(gè)同事寫出了一個(gè)模型后發(fā)現(xiàn)：真正買 LinkedIn 服務(wù)的人，在決定的那個(gè)環(huán)節(jié)上，其實(shí)是一線的產(chǎn)品經(jīng)理，和用 LinkedIn 在上面獵聘的那些人。但他們做決策后是上面的老板簽字，這是一個(gè)迷惑項(xiàng)。數(shù)據(jù)分析結(jié)果出來后，他們銷售人員改變投放策略，把目標(biāo)群體放在這些中層的管理人身上，銷售轉(zhuǎn)化率瞬間增加了三倍。

那時(shí) LinkedIn 才 500 個(gè)人，Simon 一個(gè)人支持 200 名銷售人員。他當(dāng)時(shí)預(yù)測(cè)谷歌要花 10 個(gè) Million 美金在獵聘這一塊上，銷售人員說，Simon，這是不可能的事。

“但是數(shù)據(jù)就是這么顯示的，只有可能多不會(huì)少。我意識(shí)到，一定要流程化這個(gè)步驟。”

今天 LinkedIn 的“獵頭”這塊業(yè)務(wù)占據(jù)了總收入的 60%。是怎么在四年里發(fā)展起來的，他透露當(dāng)時(shí)建造這個(gè)模型有以下這么幾個(gè)步驟：

分析每個(gè)公司它有多少員工。分析這個(gè)公司它招了多少人。分析人的位置功能職位級(jí)別一切參數(shù)，這些都是我們模型里面的各種功能。然后去分析，他們內(nèi)部有多少HR 員工，有多少負(fù)責(zé)獵頭的人，他們獵頭的流失率，他們每天在Linkedin的活動(dòng)時(shí)間是多少。

這是 LinkedIn 大數(shù)據(jù)部門最早做的事情。

Simon 告訴36氪，公司內(nèi)部從大數(shù)據(jù)分析這一個(gè)基本項(xiàng)上，可以不斷迭代出新產(chǎn)品線 LinkedIn 的三大商業(yè)模型是人才解決方案、市場(chǎng)營銷解決方案和付費(fèi)訂閱，也是我們傳統(tǒng)的三大收入支柱。事實(shí)上我們還有一個(gè)，也就是第四個(gè)商業(yè)模型，叫“銷售解決方案”，已經(jīng)在今年 7 月底上線。

這是賣給企業(yè)級(jí)用戶的?；氐絼偛配N售例子，LinkedIn 大數(shù)據(jù)系統(tǒng)是一個(gè)牛逼的模型，只需要改動(dòng)里面一下關(guān)鍵字，或者一個(gè)參數(shù)，就可以變成另一個(gè)產(chǎn)品。“我們希望能幫到企業(yè)級(jí)用戶，讓他們?cè)谧羁斓乃俣壤镏勒l會(huì)想買你的東西。”

雖然這第四個(gè)商業(yè)模式目前看來對(duì)收入的貢獻(xiàn)還不多，只占 1%，但 anyway 有著無限的想象空間，公司內(nèi)部對(duì)這個(gè)產(chǎn)品期待很高。“我還不能告訴你它的增長率，但這方向代表的是趨勢(shì)，Linkedin 的 B2B 是一個(gè)不用懷疑的大的趨勢(shì)。”Simon 說。

Google：一個(gè)閉環(huán)的大數(shù)據(jù)生態(tài)圈

作為世界上最大的搜索引擎，Google 和大數(shù)據(jù)的關(guān)系又是怎樣的呢？感謝微博上留言的朋友，這可確實(shí)是一個(gè)很有意思的議題。

Google 在大數(shù)據(jù)方面的基礎(chǔ)產(chǎn)品最早是 2003 年發(fā)布的第一個(gè)大規(guī)模商用分布式文件系統(tǒng) GFS（Google File System），主要由 MapReduce 和 Big Table 這兩部分組成。前者是用于大數(shù)據(jù)并行計(jì)算的軟件架構(gòu)，后者則被認(rèn)為是現(xiàn)代 NOSQL 數(shù)據(jù)庫的鼻祖。

GFS 為大數(shù)據(jù)的計(jì)算實(shí)現(xiàn)提供了可能，現(xiàn)在涌現(xiàn)出的各種文件系統(tǒng)和 NOSQL 數(shù)據(jù)庫不可否認(rèn)的都受到 Google 這些早期項(xiàng)目的影響。

隨后 2004 和 2006 年分別發(fā)布的 Map Reduce 和 BigTable，奠定了 Google 三大大數(shù)據(jù)產(chǎn)品基石。這三個(gè)產(chǎn)品的發(fā)布都是創(chuàng)始人謝爾蓋 - 布林和拉里 - 佩奇主導(dǎo)的，這兩人都是斯坦福大學(xué)的博士，科研的力量滲透到工業(yè)界，總是一件很美妙的事。

2011 年，Google 推出了基于 Google 基礎(chǔ)架構(gòu)為客戶提供大數(shù)據(jù)的查詢服務(wù)和存儲(chǔ)服務(wù)的 BigQuery，有點(diǎn)類似于 Amazon 的 AWS，雖然目前從市場(chǎng)占有率上看與 AWS 還不在一個(gè)數(shù)量級(jí)，但價(jià)格體系更有優(yōu)勢(shì)。Google 通過這個(gè)迎上了互聯(lián)網(wǎng)公司拼服務(wù)的風(fēng)潮，讓多家第三方服務(wù)中集成了 BigQuery 可視化查詢工具。搶占了大數(shù)據(jù)存儲(chǔ)和分析的市場(chǎng)。

BigQuery 和 GAE（Google App Engine）等 Google 自有業(yè)務(wù)服務(wù)器構(gòu)建了一個(gè)大數(shù)據(jù)生態(tài)圈，程序創(chuàng)建，數(shù)據(jù)收集，數(shù)據(jù)處理和數(shù)據(jù)分析等形成了閉環(huán)。

再來看 Google 的產(chǎn)品線，搜索，廣告，地圖，圖像，音樂，視頻這些，都是要靠大數(shù)據(jù)來支撐，根據(jù)不同種類數(shù)據(jù)建立模型進(jìn)行優(yōu)化來提升用戶體驗(yàn)提升市場(chǎng)占有率的。

單獨(dú)說一下 Google maps，這個(gè)全球在移動(dòng)地圖市場(chǎng)擁有超過 40% 的市場(chǎng)占有率的產(chǎn)品，也是美國這邊的出行神器。它幾乎標(biāo)示了全球有互聯(lián)網(wǎng)覆蓋的每個(gè)角落，對(duì)建筑物的 3D 視覺處理也早在去年就完成，這個(gè)數(shù)據(jù)處理的工作量可能是目前最大的了，但這也僅限于數(shù)據(jù)集中的層面。真正的數(shù)據(jù)分析和挖掘體現(xiàn)在：輸入一個(gè)地點(diǎn)時(shí)，最近被最多用戶采用的路徑會(huì)被最先推薦給用戶。

Google 還把 Google+，Panoramio 和其他 Google 云平臺(tái)的圖片進(jìn)行了標(biāo)記和處理，將圖片內(nèi)容和地理位置信息地結(jié)合在一起，圖像識(shí)別和社交系統(tǒng)評(píng)分處理后，Google 能夠把質(zhì)量比較高的的圖片推送給用戶，優(yōu)化了用戶看地圖時(shí)的視覺感受。

大數(shù)據(jù)為 Google 帶來了豐厚的利潤，比如在美國你一旦上網(wǎng)就能感覺到時(shí)無處不在的 Google 廣告（AdSense）。當(dāng)然，它是一把雙刃劍，給站長們帶來收入的同時(shí)，但如何平衡用戶隱私的問題，是大數(shù)據(jù)處理需要克服的又一個(gè)技術(shù)難關(guān)，或許還需要互聯(lián)網(wǎng)秩序的進(jìn)一步完善去支持。

像在【上】中所說，除 Facebook 等幾個(gè)很領(lǐng)先的公司外，大部分公司要么還沒有能力自行處理數(shù)據(jù)的能力。最后附上兩個(gè)例子，想說這邊的大公司沒有獨(dú)立大數(shù)據(jù)部門也是正常的，采取外包合作是普遍現(xiàn)象：

Pinterest：

Pinterest 曾嘗試自行通過 Amazon EMR 建立數(shù)據(jù)處理平臺(tái)，但是因?yàn)槠浞€(wěn)定性無法控制和數(shù)據(jù)量增長過快的原因，最終決定改為使用 Qubole 提供的服務(wù)。在 Qubole 這個(gè)第三方平臺(tái)上，Pinterest 有能力處理其 0.7 億用戶每天所產(chǎn)生的海量數(shù)據(jù)，并且能夠完成包括 ETL、搜索、adhoc query 等不同種類的數(shù)據(jù)處理方式。盡管 Pinterest 也是一個(gè)技術(shù)性公司，也有足夠優(yōu)秀的工程師來建立數(shù)據(jù)處理團(tuán)隊(duì)，他們依然選擇了 Qubole 這樣的專業(yè)團(tuán)隊(duì)來完成數(shù)據(jù)處理服務(wù)。

Nike:

不僅僅硅谷的互聯(lián)網(wǎng)公司，眾多傳統(tǒng)企業(yè)也逐漸開始使用大數(shù)據(jù)相關(guān)技術(shù)。一個(gè)典型的例子就是 Nike。Nike 從 2012 年起與 API 服務(wù)公司 Apigee 合作，一方面，他們通過 Apigee 的 API 完善公司內(nèi)部的數(shù)據(jù)管理系統(tǒng)，讓各個(gè)部門的數(shù)據(jù)進(jìn)行整合，使得公司內(nèi)部運(yùn)行更加順暢、有效率。另一方面，他們也通過 API 開發(fā) Nike Fuel Band 相關(guān)的移動(dòng)產(chǎn)品。更是在 2014 年開啟了 Nike+FuelLab 項(xiàng)目，開放了相關(guān) API，使得眾多的開放者可以利用 Nike 所收集的大量數(shù)據(jù)開發(fā)數(shù)據(jù)分析產(chǎn)品，成功地連接了 Nike 傳統(tǒng)的零售業(yè)務(wù)，新的科技開發(fā)，和大數(shù)據(jù)價(jià)值。

數(shù)據(jù)并行 Google BlueKai