Facebook 建立的根基就是了解用戶一舉一動并將它們掌握的各種數(shù)據(jù)打包賣給廣告商,隨后它們會將掙來的錢用于研發(fā),為用戶提供更多新鮮有用的功能,如視頻和購物,而通過這些新功能,它就能繼續(xù)加深對用戶的了解。
Facebook搭建的這套網(wǎng)絡(luò)實現(xiàn)了雙贏,用戶可以盡享交流和對話的便利,F(xiàn)acebook 也能借此發(fā)展壯大。當然,用戶獲得良好體驗的背景下,是 Facebook 數(shù)據(jù)工程師辛勤的勞動,因為我們是誰,喜歡什么,時間都花在哪這些數(shù)據(jù)非常繁雜,它們根本沒有結(jié)構(gòu)。
那么數(shù)據(jù)工程師面對的是多浩大的工程呢?雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))了解到,每分鐘全世界會有 12 億人在 Facebook 上上傳 13.6 萬張照片,更新 29.3 萬次狀態(tài)。因此,即使是 Facebook 的技術(shù)大牛,也只能從這些無結(jié)構(gòu)的數(shù)據(jù)中截取一些有價值的部分,而這部分通常是最難量化和處理的。
不過,現(xiàn)在數(shù)據(jù)工程師們有了強援——深度學習。深度學習技術(shù)讓機器能學著自己對數(shù)據(jù)進行分類。最典型的例子就是深度學習圖像分析工具,無需人類專門教導,機器就能識別出哪些圖片包含有貓咪,而這一“神技”背后,是機器對大量圖片的分析。“書讀百遍,其義自現(xiàn)”,機器通過讀圖看出了圖片包含的信息,懂得了到底哪類圖片會包含貓咪。
通過對數(shù)據(jù)的量化,分析工具能洞察出所需信息,并完成對非結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)化工作。在此過程中,分析工具會試圖回答類似包含貓咪的圖片中某家公司產(chǎn)品出現(xiàn)的頻率如何?我們應(yīng)該專門針對愛貓人士推出這款產(chǎn)品的廣告嗎的問題。
隨著深度學習算法變得越來越復(fù)雜,它們能處理的數(shù)據(jù)也越來越多,文字、圖片甚至視頻都不在話下。
下面,我們就來共同盤點幾種深度學習的特定用例,利用該技術(shù),F(xiàn)acebook 不但為用戶提供了方便,還完成了對我們的深入了解。
1. 文本分析
如今,F(xiàn)acebook 上用戶分享的大多數(shù)數(shù)據(jù)依然是文本化的。雖然視頻和圖片可能包含千言萬語,但回答簡單問題時你根本用不上那么多單詞,那些用不到的數(shù)據(jù)就會成為噪聲,如果不加區(qū)分的對其進行精細化處理,就是在浪費 Facebook 的存儲和分析能力。
為了讓機器更好的理解文本,F(xiàn)acebook 開發(fā)了名為 DeepText 的工具,它能自動學習并通過分析上下文來理解文本大意。同時,神經(jīng)網(wǎng)絡(luò)這可分析單詞之間的關(guān)系并以此理解不同單詞組合會產(chǎn)生什么語義的變化。由于這屬于半自動的無監(jiān)督學習,因此算法無需始終參考數(shù)據(jù)。
這就意味著在學習過程中 DeepText 不會被拼寫、俚語或語言風格所困。事實上,F(xiàn)acebook 稱這項技術(shù)“與語言本身無關(guān)”,因為它已經(jīng)給單詞貼了標簽,因此可以輕松的在不同的語境間進行切換。
眼下,該工具已經(jīng)可以根據(jù)用戶的言語直接找出他們的“愿望清單”并智能的進行推薦了。
2. 面部識別
除了 DeepText ,F(xiàn)acebook 還有一個名為 DeepFace 的應(yīng)用,這次它要識別的可不是貓咪,而是人臉了。Facebook 對該應(yīng)用信心滿滿,它們聲稱 DeepFace 絕對沒有臉盲癥,它認人的能力早已超越人類,準確度高達 97%(最強的人類只有 96%)。
不過,此類技術(shù)的應(yīng)用也遭到了隱私保護人士的反對,他們認為 Facebook 做的太過了,這種在照片上給人臉貼標簽的行為是人們通向自由的阻礙。歐盟立法者同意該觀點,為了保護歐盟公民,2013 年時它們就要求 Facebook 在歐盟禁用此類工具。而在當時,F(xiàn)acebook 使用的面部識別工具還只是初期產(chǎn)品,深度學習技術(shù)并未介入。
對于該技術(shù)帶來的隱私困擾,F(xiàn)acebook 也相當小心,它們的研發(fā)一直處于秘密狀態(tài),直到此類案子有了結(jié)果才敢放出自己的研究成果。
3. 定向廣告
與谷歌類似,F(xiàn)acebook 也要靠廣告來掙錢,因此如何精準的進行定向廣告投送就成了社交網(wǎng)絡(luò)巨頭的頭等大事。在廣告推送問題上,F(xiàn)acebook 則用到了深度學習的基石——深度神經(jīng)網(wǎng)絡(luò)。通過該技術(shù),機器在了解用戶行為習慣的基礎(chǔ)上,就能將他們進行精確分類,然后再定向發(fā)送適合用戶的廣告。
4. 設(shè)計 AI 應(yīng)用
為了找出最有效的深度學習應(yīng)用,F(xiàn)acebook 還用到了名為 Flow 的超級系統(tǒng),該系統(tǒng)每個月會利用深度學習分析法模擬運行 30 萬個機器學習模型,這樣以來工程師就能找出最有效的模型并從中發(fā)現(xiàn)商機。
開源
Facebook 是開源計劃的有力支持者之一,因此 Facebook 人工智能研究所的大部分工作成果對全世界都是透明的。眼下,社交網(wǎng)絡(luò)巨頭的深度學習研究都集中在 Torch 平臺,該平臺主要注重深度學習和神經(jīng)網(wǎng)絡(luò)技術(shù)的研發(fā)。
展望未來
深度學習在 Facebook 的未來發(fā)展中必然會扮演重要角色。雖然 Facebook 依然謹守自己對深度學習未來應(yīng)用愿景的秘密,但外界早已看出些許端倪。未來,深度學習能讓盲人擁有識圖的能力,因為它可以自動生成圖片的文字描述。同時,該技術(shù)還能預(yù)測貧困地區(qū)對于網(wǎng)絡(luò)的需要,幫助 Facebook 推進自己的免費網(wǎng)絡(luò)計劃。從長遠來看,F(xiàn)acebook 在 AI 上的努力能讓全社會受益。