2014中國大數(shù)據(jù)技術(shù)大會在12月14日正式落下帷幕,近百位技術(shù)專家在這里分享了他們的最新研究與實踐成果,本文來自中國經(jīng)濟(jì)網(wǎng)經(jīng)營顧問楊靜,主要解讀了大數(shù)據(jù)與深度學(xué)習(xí)之間的聯(lián)系,以及未來行業(yè)技術(shù)的發(fā)展。
以下是作者原文:
2014年12月12-14日,由中國計算機(jī)學(xué)會(CCF)主辦,CCF大數(shù)據(jù)專家委員會承辦,中科院計算所與CSDN共同協(xié)辦,以推進(jìn)大數(shù)據(jù)科研、應(yīng)用與產(chǎn)業(yè)發(fā)展為主旨的2014中國大數(shù)據(jù)技術(shù)大會(Big Data Technology Conference 2014,BDTC 2014)暨第二屆CCF大數(shù)據(jù)學(xué)術(shù)會議在北京新云南皇冠假日酒店盛大開幕。
近年來,國內(nèi)外互聯(lián)網(wǎng)公司和傳統(tǒng)企業(yè)大都已經(jīng)意識到數(shù)據(jù)資產(chǎn)化和規(guī)?;瘞淼臐撛趦r值,如何低成本且高效率地存儲和處理數(shù)百TB乃至EB量級的數(shù)據(jù)成為極大挑戰(zhàn)。“向數(shù)據(jù)要價值”使得幾乎每個行業(yè)都面臨著大數(shù)據(jù)問題。“大數(shù)據(jù)”引發(fā)了新一輪IT“工業(yè)革命”。
程學(xué)旗發(fā)布2015年大數(shù)據(jù)發(fā)展趨勢預(yù)測
中科院計算所研究員,CCF大數(shù)據(jù)專家委員會秘書長程學(xué)旗在會上發(fā)表了大數(shù)據(jù)白皮書與發(fā)展趨勢報告?!吨袊髷?shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展白皮書(2014年)》主要介紹了大數(shù)據(jù)的背景與動態(tài),大數(shù)據(jù)典型應(yīng)用,大數(shù)據(jù)技術(shù)進(jìn)展,大數(shù)據(jù)IT產(chǎn)業(yè)鏈與生態(tài)環(huán)境,以及大數(shù)據(jù)發(fā)展趨勢與建議等內(nèi)容。同時對于2015年大數(shù)據(jù)發(fā)展趨勢預(yù)測,程學(xué)旗總結(jié)為這幾個詞:融合、跨界、基礎(chǔ)、突破。
一、結(jié)合智能計算的大數(shù)據(jù)分析成為熱點,包括大數(shù)據(jù)與神經(jīng)計算、深度學(xué)習(xí)、語義計算以及人工智能其他相關(guān)技術(shù)結(jié)合,成為大數(shù)據(jù)分析領(lǐng)域的熱點。
二、數(shù)據(jù)科學(xué)帶動多學(xué)科融合,隨著社會的數(shù)字化程度逐步加深,越來越來多的學(xué)科在數(shù)據(jù)層面趨于一致??梢圆捎孟嗨频乃枷雭磉M(jìn)行的統(tǒng)一的研究。
三、跨學(xué)科領(lǐng)域交叉的數(shù)據(jù)融合分析與應(yīng)用將成為今后大數(shù)據(jù)分析應(yīng)用發(fā)展的重大趨勢。
四、大數(shù)據(jù)將與物聯(lián)網(wǎng)、移動互聯(lián)、云計算、社會計算、等熱點技術(shù)領(lǐng)域相互交叉融合,產(chǎn)生很多綜合性應(yīng)用。物聯(lián)網(wǎng)與移動計算加強(qiáng)了與物理世界和人的融合,大數(shù)據(jù)和云計算加強(qiáng)了后端的數(shù)據(jù)存儲管理和計算能力。
五、大數(shù)據(jù)多樣化處理模式與軟硬件基礎(chǔ)設(shè)施逐步夯實。內(nèi)存計算將繼續(xù)成為提高大數(shù)據(jù)處理性能的主要手段。以Spark為代表的內(nèi)存計算逐步走向商用,并與Hadoop融合共存,專為大數(shù)據(jù)處理優(yōu)化的系統(tǒng)和硬件出現(xiàn),大數(shù)據(jù)處理多樣化模式并存融合,一體化融合的大數(shù)據(jù)處理平臺逐漸成為趨勢。其中有一個觀點這種多元化一定程度上成為一體化,未來大數(shù)據(jù)多樣化處理模式并存并且有可能成為一體化的平臺。
六、大數(shù)據(jù)安全和隱私持續(xù)令人擔(dān)憂。
七、新的計算模式將取得突破,眾包技術(shù),可能未來不光是大數(shù)據(jù)講深度學(xué)習(xí)。
八、各種可視化技術(shù)和工具提升大數(shù)據(jù)分析。進(jìn)行分析之前,需要對數(shù)據(jù)進(jìn)行探索式地考察。在此過程中,可視化將發(fā)揮很大的作用。
九、大數(shù)據(jù)技術(shù)課程體系建設(shè)和人才培養(yǎng)是需要高度關(guān)注的問題。
十、開源系統(tǒng)將成為大數(shù)據(jù)領(lǐng)域的主流技術(shù)和系統(tǒng)選擇。
邢波分享大數(shù)據(jù)分布式機(jī)器學(xué)習(xí)平臺
2014中國大數(shù)據(jù)技術(shù)大會首日的全體會議上,卡耐基梅隆大學(xué)教授邢波、ICML 2014程序主席邢波(Eric P. Xing)表示,著眼當(dāng)下大數(shù)據(jù)處理平臺,大量資源都都浪費在集群的通訊上。即使比較優(yōu)秀的平臺,計算時間也只有20%,通訊時間占到80%,就比如Hadoop的通訊時間占到90%。
而他的研究小組研發(fā)出的Petuum則是一種新型的大數(shù)據(jù)分布式機(jī)器學(xué)習(xí)平臺,包含數(shù)據(jù)和程序并行兩套功能,也對機(jī)器學(xué)習(xí)的特點做了比較好的研究和針對性的使用。大致結(jié)構(gòu)是包含一個參數(shù)服務(wù)器,提供編程的一個虛擬并行內(nèi)存,在編程的時候不用對每個機(jī)器進(jìn)行單獨通訊,還有一個叫做調(diào)度器,能夠?qū)δP瓦M(jìn)行有效的分割,甚至是動態(tài)分割,然后做分布化。
這個參數(shù)服務(wù)器有一個編程界面,在寫內(nèi)存讀取不需要對每一個機(jī)器做特殊的指令,使用了比較巧妙的所謂半同步的協(xié)調(diào)機(jī)制,這樣可以顯著降低使用在通訊上的時間,而加強(qiáng)在計算上的時間,所以隨著半同步參數(shù)的調(diào)整,通訊時間會顯著下降,降到了甚至比計算時間還要少,這樣使計算機(jī)的資源得到最大量的利用。
Petuum也是開源項目,目前的觀察不光可以達(dá)到很大量,基本上等價于現(xiàn)在最好的系統(tǒng)。根據(jù)邢波教授剛剛收到學(xué)生最新送來的結(jié)果,很讓人驚訝,還有一個組用這個系統(tǒng)跟Spark和Hadoop做了獨立比較。Petuum系統(tǒng)的愿景既包含軟件和底層軟件的支持,目前也是在Hadoop生態(tài)系統(tǒng)里的一個分子,這個系統(tǒng)可以開放給大家下載以后做自己的開發(fā)。
余凱:深度學(xué)習(xí)將扮演人工智能時代關(guān)鍵角色
百度研究院副院長,深度學(xué)習(xí)實驗室主任,圖片搜索部高級總監(jiān)余凱介紹了百度在人工智能方面的發(fā)展。對于互聯(lián)網(wǎng)公司來說最重要的技術(shù)是基于大數(shù)據(jù)的人工智能。什么是人工智能?感知、思考和控制是人工智能的幾個重要方面。真正智能的系統(tǒng),是隨著經(jīng)驗的演化,越變越聰明!而經(jīng)驗就是數(shù)據(jù)。
余凱在演講中認(rèn)為:人工智能的本質(zhì)特征之一是學(xué)習(xí)的能力,也就是說系統(tǒng)的能力能否隨著經(jīng)驗數(shù)據(jù)的積累而不斷演化和提升。所以大數(shù)據(jù)時代的到來給人工智能的發(fā)展提供前所未有的機(jī)遇。在這個時代背景下,深度學(xué)習(xí)在各個方面所取得的突破性進(jìn)展并非偶然,因為從統(tǒng)計和計算的角度來說,深度學(xué)習(xí)可能是目前我們能找到的最好的方法,用于在海量數(shù)據(jù)中尋找復(fù)雜的規(guī)律。
除此以外,他認(rèn)為深度學(xué)習(xí)還有兩個顯著優(yōu)點:首先,它是一套豐富的建模語言,或者說是建??蚣埽覀兛梢杂眠@套語言系統(tǒng)來表達(dá)數(shù)據(jù)內(nèi)在的豐富關(guān)系和結(jié)構(gòu),比如圖像中的2D空間結(jié)構(gòu),自然語言的時序結(jié)構(gòu);其次,深度學(xué)習(xí)是幾乎唯一的end-to-end的機(jī)器學(xué)習(xí)系統(tǒng),它的目標(biāo)是直接作用于原始數(shù)據(jù),自動逐層做數(shù)據(jù)特征變換,整個學(xué)習(xí)過程直接優(yōu)化某個問題相關(guān)的目標(biāo)函數(shù),而傳統(tǒng)的機(jī)器學(xué)習(xí)往往被分解為幾個不連貫的步驟,并非一致優(yōu)化某個整體的目標(biāo)。所以,萬物互聯(lián)的時代,數(shù)據(jù)暴增,也意味著人工智能時代的來臨,深度學(xué)習(xí)將扮演關(guān)鍵性角色。從現(xiàn)在到2020年,我們將看到人工智能在語音識別,計算機(jī)視覺,自然語言理解,機(jī)器人,自動駕駛等領(lǐng)域的持續(xù)突破性進(jìn)展。
智能化時代:大數(shù)據(jù)會與深度學(xué)習(xí)劃等號么?
本次會議的組織者安排了媒體對幾位專家的群訪。我向李國杰院士等專家提出了一個問題:“剛剛程學(xué)旗秘書長說大數(shù)據(jù)專委會的專家們投票選擇明年的大數(shù)據(jù)技術(shù)趨勢是說大數(shù)據(jù)跟神經(jīng)計算和人工智能相結(jié)合,有一些委員說明年首先是對國內(nèi)大型互聯(lián)網(wǎng)公司在推動大數(shù)據(jù)發(fā)展方面有更多期待,這是否意味著2015年大數(shù)據(jù)跟人工智能劃等號,或者是跟深度學(xué)習(xí)劃等號了呢?”
【李國杰】那么多專家把大數(shù)據(jù)和人工智能劃等號,但不僅是大數(shù)據(jù),整個智能化技術(shù),是中國未來一段時間很重要的方向。過去幾十年是數(shù)字化,接下來是自動化,然后是網(wǎng)絡(luò)化,智能化也做過,但是相對來說不是那么看重,但是越到后來,現(xiàn)在發(fā)現(xiàn)智能化的要求越來越高,希望它對產(chǎn)業(yè)方面貢獻(xiàn)越來越大。所以智能化一定是很重要的一個主題詞。但是智能化沒有止境,打個比方,好象人的影子似的,太陽在那邊照著,老想踩著影子,永遠(yuǎn)是個邊界。原來認(rèn)為是智能的東西現(xiàn)在認(rèn)為不智能了。
現(xiàn)在智能化跟我們大家關(guān)心的經(jīng)濟(jì)新常態(tài)都扯了一點邊。因為中國經(jīng)濟(jì)以前是靠要素驅(qū)動,現(xiàn)在GDP增長變慢了,下一步要提高GDP,靠人腦的創(chuàng)新。以前這么多年搞來搞去,是靠“筋肉”延伸,靠汗水。而未來人工智能靠創(chuàng)新,靠腦筋。
這是一個新時代的開始,所以所謂新常態(tài)不是往下降了,我覺得是往上升了,提升成大家更往智力上想辦法。環(huán)境污染,資源耗盡的矛盾會降低一些。因為消耗腦子和消耗資源是兩種問題,但是消耗腦子可能會引起世界上兩極社會非常嚴(yán)重,收入等可能差幾倍,聰明的人與不聰明的人將來在社會上的差距,更有所體現(xiàn)。怎么讓全社會更加公平,更加普惠大眾,這是一個新的課題。
【邢波】您剛才那個問題是說大數(shù)據(jù)跟人工智能和深度學(xué)習(xí)怎么劃等號?是這么一個關(guān)系,大數(shù)據(jù)是一個研究對象,人工智能是一個目標(biāo),我們要達(dá)到人工智能的目標(biāo),要理解數(shù)據(jù),方法論是機(jī)器學(xué)習(xí)或者是智能計算。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)里面十個手指頭里面的一個指頭。比如剛剛這位老師講到的網(wǎng)絡(luò)安全,要對加密數(shù)據(jù)做一個分類,就無法用深度學(xué)習(xí)去解決。所以三者的關(guān)系不是等號的關(guān)系,甚至沒有互相包容的關(guān)系,還是不同層面的說法。像深度學(xué)習(xí)在人工智能、機(jī)器學(xué)習(xí)里面什么地方可以用,什么地方不可以用,在學(xué)業(yè)界和工業(yè)界大家都是非常清楚的。不太成熟的我們就慢慢去研究,但是這并不代表深度學(xué)習(xí)就是包羅萬象。
最近有一些社會人士,比如像霍金,像特斯拉CEO,他們說人工智能將導(dǎo)致革命,或者是人工智能將比人類更加強(qiáng)大,這應(yīng)該是科普和娛樂性的話題,不應(yīng)該當(dāng)真。人工智能不是取代人類的課題,它要做的事情應(yīng)該是人不能做的。比如人工智能,沒有哪個科學(xué)家有極大的興趣做仿生機(jī)器人。所以仿生和人工智能是兩件事,工程層面和技術(shù)成功仿生的例子并不是很多,大家是通過仿生做一些科普宣傳,比如說飛機(jī)。飛機(jī)原理和鳥的飛翔原理完全不一樣,機(jī)器學(xué)習(xí)跟大腦運行原理完全不一樣,他們講的只是普及工作。對人工智能我們不能把它與深度學(xué)習(xí)劃等號,就像說研究人腦就能達(dá)到人工智能。
【程學(xué)旗】我比較贊同邢波教授的觀點,即肯定不能把大數(shù)據(jù)和人工智能劃等號,大數(shù)據(jù)本身未來也可以作為學(xué)科,但是它目前還是一個現(xiàn)象。但是另外一方面看,大家討論的結(jié)論里面,我們叫智能計算,也就是說大數(shù)據(jù)計算里面怎么體現(xiàn)它的智能,或者解決智能方面的問題,這可能是我們未來一段時間內(nèi)學(xué)術(shù)界和工業(yè)界關(guān)心的問題,包括機(jī)器智能,人工智能,各種智能。
人工智能到底解決什么問題?解決人的思考?還是解決人的預(yù)測,還是解決現(xiàn)象?人工智能它的機(jī)理是什么,簡單來講至少大數(shù)據(jù)可以在人工智能做預(yù)測決策的范疇起到促進(jìn)作用。