在人人必談互聯(lián)網(wǎng)和大數(shù)據(jù)的時(shí)代,作為國內(nèi)互聯(lián)網(wǎng)三大巨頭之一的百度公司,擁有國內(nèi)第一大搜索引擎,其如何利用“先天優(yōu)勢(shì)”布局謀篇大數(shù)據(jù)是業(yè)界十分關(guān)注的話題。
此前曾有多位專家對(duì)百度大數(shù)據(jù)引擎進(jìn)行解析,在近日舉行的中關(guān)村大數(shù)據(jù)日上,百度大數(shù)據(jù)部總監(jiān)薛正華從百度人的視角對(duì)其大數(shù)據(jù)業(yè)務(wù)進(jìn)行了一次全面介紹,展望了大數(shù)據(jù)的未來。
揭秘大數(shù)據(jù)引擎
雖然百度積累大數(shù)據(jù)的時(shí)間已久,但真正向公眾提出“大數(shù)據(jù)引擎(BIG ENGINE)”的概念還是在2014年4月第四屆“技術(shù)開放日”上。
當(dāng)時(shí),百度高級(jí)副總裁王勁宣布正式推出“大數(shù)據(jù)引擎”,通過三大組件—開放云、數(shù)據(jù)工廠、百度大腦,希冀將其大數(shù)據(jù)能力開放給社會(huì)。
最底層的開放云是信息化的基礎(chǔ)設(shè)施,中間層的數(shù)據(jù)工廠對(duì)大數(shù)據(jù)進(jìn)行存儲(chǔ)管理,再上升到百度大腦。這是一個(gè)基于人工智能的系統(tǒng),利用語音識(shí)別技術(shù)、大數(shù)據(jù)技術(shù)等挖掘分析數(shù)據(jù)價(jià)值。
百度創(chuàng)始人李彥宏曾對(duì)“百度大腦”表示出這樣的期待:“相信隨著硬件成本越來越低,計(jì)算能力越來越提升,計(jì)算機(jī)的能力將非常接近人的能力。”
現(xiàn)在,百度的服務(wù)器已經(jīng)達(dá)到幾十萬臺(tái),分布在全國多個(gè)數(shù)據(jù)中心,同時(shí)還有一個(gè)分布全國的內(nèi)容分發(fā)網(wǎng)絡(luò)(CDN)保障其應(yīng)用性能。在硬件方面,他們也作了很多嘗試及創(chuàng)新,包括自研的核心萬兆交換機(jī),以及輸入和輸出設(shè)備(IO)瓶頸的突破。其在固態(tài)硬盤(SSD)也進(jìn)行了研發(fā),讓數(shù)據(jù)能夠更快地加載到大數(shù)據(jù)計(jì)算系統(tǒng)中來。
“眾所周知,獲取大數(shù)據(jù)的核心問題之一就是IO瓶頸,即數(shù)據(jù)"吃不到嘴里"。”薛正華表達(dá)了在硬件上進(jìn)行探索的初衷。雖然去年才正式提出大數(shù)據(jù)引擎的概念,但據(jù)薛正華介紹,其大數(shù)據(jù)引擎各層早已具備服務(wù)能力,且應(yīng)用在各個(gè)產(chǎn)品線上。
據(jù)了解,百度目前在基礎(chǔ)設(shè)施這一層所開放出來的服務(wù)包括服務(wù)器、CDN、基于位置的服務(wù)(LBS)、緩存服務(wù)等。數(shù)據(jù)工廠則主要對(duì)大數(shù)據(jù)進(jìn)行存儲(chǔ),現(xiàn)在每天處理的數(shù)據(jù)量已經(jīng)超過50Pb(拍字節(jié)),且數(shù)量還在不斷增長。
薛正華表示,如何在高數(shù)據(jù)級(jí)別中進(jìn)行快速查找、定位等具有技術(shù)挑戰(zhàn)。
而在引擎最頂層的百度大腦,則依賴于產(chǎn)品線數(shù)據(jù)以及第三方合作伙伴的數(shù)據(jù)。薛正華介紹,百度大腦對(duì)這些數(shù)據(jù)進(jìn)行深度學(xué)習(xí),利用數(shù)據(jù)檢索語言(DRL)深度學(xué)習(xí)架構(gòu)計(jì)算系統(tǒng)挖掘數(shù)據(jù)價(jià)值,這些價(jià)值再應(yīng)用于搜索引擎的廣告服務(wù)、在研的機(jī)器人及無人駕駛系統(tǒng)等。
大數(shù)據(jù)“落地”
2014年,李彥宏曾表示,希望大數(shù)據(jù)引擎對(duì)外開放,不僅能服務(wù)百度,也能服務(wù)更多企業(yè)、政府機(jī)構(gòu)和其他直接用戶。技術(shù)的開放將帶來更低的成本、更可靠和更安全的系統(tǒng)。
但是,大數(shù)據(jù)到底能幫助人們做什么呢?
薛正華說:“我認(rèn)為大數(shù)據(jù)可以運(yùn)用到感知、認(rèn)知、分析、決策、發(fā)現(xiàn)和創(chuàng)造等層面。”
他介紹了其大數(shù)據(jù)引擎和一家民營醫(yī)院合作的案例:年輕家長對(duì)孩子的皮膚狀況擔(dān)憂,但她不知道有什么問題。因此,百度開發(fā)了一款A(yù)pp,只要拿手機(jī)對(duì)著患者皮膚拍照,傳輸?shù)桨俣却竽X,這里有100萬個(gè)病例分析,通過比對(duì)和分析能知道病種。接下來,則能從知識(shí)庫中將相關(guān)疾病的詳細(xì)信息及重要解決辦法等轉(zhuǎn)化成語音,最后發(fā)送到App上,同時(shí)提供文字和語音供家長參考。
“BaiduEye則利用前端攝像頭把人們看到的東西拍下來,傳送到百度大腦進(jìn)行處理,處理完成后以語音形式傳回來,整個(gè)過程可以在極短時(shí)間內(nèi)完成。”薛正華說。
據(jù)介紹,百度大腦目前在視覺、聽覺、位置等方面都進(jìn)行了嘗試,取得了一定進(jìn)展,下一步可能在味覺、嗅覺等方面進(jìn)一步探索。
薛正華認(rèn)為,其大數(shù)據(jù)除了對(duì)感知、認(rèn)知有幫助,對(duì)決策也有不可爭議的意義。
“百度現(xiàn)在全網(wǎng)有億級(jí)的數(shù)據(jù),用 DSL(數(shù)字用戶線路)計(jì)算分析和處理,能夠挖掘出很多隱藏在數(shù)據(jù)背后的真相。”薛正華說。
例如,百度司南可以幫助分析競(jìng)爭對(duì)手的定位、客戶在哪兒等。
據(jù)介紹,百度司南曾與馬自達(dá)公司合作,通過分析馬自達(dá)6的競(jìng)爭對(duì)手等相關(guān)情況,建立數(shù)據(jù)模型,找出和馬自達(dá)6相關(guān)以及最接近的產(chǎn)品。接下來,百度司南根據(jù)IP地址,發(fā)現(xiàn)華北地區(qū)搜索馬自達(dá)6的用戶很多,從而判斷這將是個(gè)新的重點(diǎn)銷售區(qū)域。
薛正華認(rèn)為,此前,這些工作應(yīng)該由第三方調(diào)研機(jī)構(gòu)完成,但是通過數(shù)十億級(jí)的數(shù)據(jù)分析,結(jié)果將更準(zhǔn)確。
通過大數(shù)據(jù),還能研究國家經(jīng)濟(jì)指數(shù)的變化,特別是中小企業(yè)景氣指數(shù),可預(yù)知經(jīng)濟(jì)變化趨勢(shì)。其主要原理是,利用海量的網(wǎng)民行為進(jìn)行數(shù)據(jù)分析。比如,對(duì)行業(yè)的產(chǎn)品搜索熱度以及幾十萬家的企業(yè)客戶在一段時(shí)間內(nèi)的廣告投放量進(jìn)行分析,結(jié)合其他一切數(shù)據(jù),能提前3個(gè)月知道各行業(yè)的經(jīng)濟(jì)指數(shù),甚至能細(xì)化到某個(gè)地區(qū)各行業(yè)的熱度。最終結(jié)果證明,其和國家統(tǒng)計(jì)局公布的數(shù)據(jù)契合度非常高,結(jié)合度達(dá)到95%。
通過大數(shù)據(jù)也能監(jiān)測(cè)疾病的傳播。傳染病一般暴發(fā)后再做流行病調(diào)查,耗時(shí)很長。而當(dāng)某地暴發(fā)傳染病危機(jī)時(shí),疫情的搜索會(huì)呈現(xiàn)爆發(fā)式增長。
“通過搜索行為分析在第一時(shí)間快速挖掘情況,對(duì)大量數(shù)據(jù)實(shí)時(shí)分析和處理,這就是大數(shù)據(jù)的價(jià)值所在。”薛正華說。