2015年4月9日,第三屆中國(guó)電子信息博覽會(huì)在深圳召開(kāi)。工業(yè)和信息化部電子信息司司長(zhǎng)刁石京主持開(kāi)展了新一代信息技術(shù)產(chǎn)業(yè)發(fā)展高峰論壇。中國(guó)工程院院士李德毅發(fā)表了主題為“大數(shù)據(jù)認(rèn)知”的演講,對(duì)大數(shù)據(jù)的發(fā)展前景做出了展望。
人類社會(huì)文明已經(jīng)進(jìn)入到了數(shù)據(jù)密集型的新時(shí)代,大數(shù)據(jù)已經(jīng)成為重要的資產(chǎn)。在李德毅看來(lái),大數(shù)據(jù)本身既不是科學(xué),也不是技術(shù),它反映的是網(wǎng)絡(luò)時(shí)代的一種客觀存在。而數(shù)據(jù)數(shù)量巨大,價(jià)值密度低,實(shí)時(shí)在線,多源異構(gòu),給人們的認(rèn)知造成了很大的困擾。
李德毅認(rèn)為, 人類的認(rèn)知科學(xué)要想有所突破,首先就要在大數(shù)據(jù)聚類上去的突破,聚類是挖掘大數(shù)據(jù)資產(chǎn)價(jià)值的第一步。這種聚類是跨學(xué)科、跨領(lǐng)域、跨媒體的,并且已經(jīng)成為許多行業(yè)的核心競(jìng)爭(zhēng)力。人腦的認(rèn)知能力不能夠全部、完整、統(tǒng)一地形式化,但特定的情境下的認(rèn)知能力是否可以先局部地形式化。
智能機(jī)器人是物聯(lián)網(wǎng)不可或缺的端設(shè)備,一直以來(lái)都是人類關(guān)注的重點(diǎn)。李德毅認(rèn)為,機(jī)器人既使用大數(shù)據(jù)也產(chǎn)生大數(shù)據(jù),既是大數(shù)據(jù)的產(chǎn)物,也是大數(shù)據(jù)的推動(dòng)者,機(jī)器人是大數(shù)據(jù)的認(rèn)知的典型代表。人腦的認(rèn)知能力不能夠全部、完整、統(tǒng)一地形式化,但特定的情境下的認(rèn)知能力是否可以先局部地形式化,而機(jī)器人就是人類的思維移植。
以下為李德毅演講全文:
尊敬的懷部長(zhǎng),各位來(lái)賓,女士們,先生們,我匯報(bào)的主題是大數(shù)據(jù)認(rèn)知,云計(jì)算、大數(shù)據(jù)、認(rèn)知,大家知道認(rèn)知是現(xiàn)在全球都感興趣的話題。所謂認(rèn)知,就是怎么樣獲取知識(shí)和技能的能力,所以我的第一個(gè)小標(biāo)題是講一下認(rèn)知。
大數(shù)據(jù)標(biāo)志著一個(gè)新時(shí)代的到來(lái),這個(gè)時(shí)代的特征不只是追求豐富的物質(zhì)資源,也不只是無(wú)所不在的互聯(lián)網(wǎng)帶來(lái)的方便的多樣化信息服務(wù),同時(shí)還包含區(qū)別于物質(zhì)的數(shù)據(jù)資源的價(jià)值發(fā)現(xiàn)和價(jià)值轉(zhuǎn)換,以及由大數(shù)據(jù)帶來(lái)的精神和文化方面的嶄新現(xiàn)象。
大數(shù)據(jù)來(lái)源于人類的測(cè)量、記錄和分析世界的渴望和無(wú)盡的追求。隨著信息技術(shù),尤其是傳感器、通信、計(jì)算機(jī)和互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展和廣泛應(yīng)用,人類獲取數(shù)據(jù)的手段越來(lái)越多,速度大大加快、成本急劇降低,層次和尺度更為精細(xì),揭示自然現(xiàn)象和社會(huì)現(xiàn)象更加深刻,人聯(lián)網(wǎng)和物聯(lián)網(wǎng)又使得人人物物都成為數(shù)據(jù)源,這樣一來(lái),大數(shù)據(jù)成為網(wǎng)絡(luò)時(shí)代人類社會(huì)的重要資產(chǎn)。
我想說(shuō)一個(gè)觀點(diǎn),大數(shù)據(jù)本身既不是科學(xué),也不是技術(shù),我個(gè)人認(rèn)為,它反映的是網(wǎng)絡(luò)時(shí)代的一種客觀存在,各行各業(yè)的大數(shù)據(jù),規(guī)模從TB到PB到EB到ZB,都是以三個(gè)數(shù)量級(jí)的階梯迅速增長(zhǎng),是用傳統(tǒng)工具難以認(rèn)知的,具有更大挑戰(zhàn)的數(shù)據(jù)。
數(shù)據(jù)量巨大,價(jià)值密度低,實(shí)時(shí)在線,多源異構(gòu),怎么辦?舉個(gè)例子吧!聚類,物以類聚,人以群分,這是人類幾千年來(lái)認(rèn)識(shí)世界和社會(huì)的基本能力,是從大數(shù)據(jù)中發(fā)現(xiàn)價(jià)值必須面對(duì)的一個(gè)普遍性、基礎(chǔ)性問(wèn)題,是認(rèn)知科學(xué)作為學(xué)科的學(xué)科,要解決的首要問(wèn)題。無(wú)論是政治、經(jīng)濟(jì)、文學(xué)、歷史、社會(huì)、文化、還是數(shù)理、化工、醫(yī)農(nóng)、交通、地理、各行各業(yè)的大數(shù)據(jù)或宏觀或微觀的任何價(jià)值發(fā)現(xiàn)。
2008年XX??橇艘黄恼拢藗儗?duì)小標(biāo)題關(guān)注不夠,這個(gè)小標(biāo)題講的PB時(shí)代的科學(xué)怎么做。大數(shù)據(jù)分析和挖掘的首要任務(wù)是聚類,這種聚類是跨學(xué)科、跨領(lǐng)域、跨媒體的。
聚類的挑戰(zhàn)性很多,有人是并行計(jì)算等等,我不細(xì)講了。我想說(shuō)的是大數(shù)據(jù)聚類表現(xiàn)形態(tài)。
我想用幾個(gè)例子來(lái)講一講,人類走過(guò)了幾千年的實(shí)驗(yàn)科學(xué)、幾百年的理論科學(xué),保險(xiǎn)是一個(gè)很傳統(tǒng)的行業(yè),基于概念評(píng)估的生意,保險(xiǎn)公司對(duì)車險(xiǎn)客戶是這樣聚類的:A類連續(xù)兩年沒(méi)有出車禍的,B類,最近一年沒(méi)有出車禍的,C類過(guò)去一年出了一次車禍的,D類過(guò)去一年出了兩此及以上車禍的。我從機(jī)場(chǎng)到深圳來(lái),你坐飛機(jī)從北京到深圳,保險(xiǎn)公司給你付了,我一了解,這個(gè)保險(xiǎn)是20塊錢,這個(gè)保險(xiǎn)公司買了你三個(gè)大數(shù)據(jù),身份證,還有你的手機(jī)號(hào),各位企業(yè)、各位領(lǐng)導(dǎo),各位老百姓,你們想一想。
物聯(lián)網(wǎng)時(shí)代,當(dāng)汽車成為輪式機(jī)器人,成為大數(shù)據(jù)發(fā)生器以后,就是一個(gè)大數(shù)據(jù)發(fā)生體,每一次駕駛,每一次維修,每一次行駛,甚至每一次剎車,都會(huì)記錄在岸,利用大數(shù)據(jù)聚類,保險(xiǎn)公司可對(duì)一個(gè)車況好、駕駛習(xí)慣好、常走線路事故率低,不勤開(kāi)車的特定客戶,給予更大的優(yōu)惠,而對(duì)風(fēng)險(xiǎn)太高的客戶報(bào)高價(jià)甚至拒絕,例如出租車司機(jī)跑的比老百姓多得多,總之能夠給出包括保險(xiǎn)費(fèi)支付方式在內(nèi)的個(gè)性化解決方案,這就顛覆了保險(xiǎn)公司的傳統(tǒng)商業(yè)模式。這就是大數(shù)據(jù)聚類成為保險(xiǎn)公司的核心競(jìng)爭(zhēng)力,我擴(kuò)張一下,就是大數(shù)據(jù)聚類成為很多行業(yè)的核心競(jìng)爭(zhēng)力。
非大數(shù)據(jù)時(shí)代,做一個(gè)人臉的識(shí)別,我們可以提取它十個(gè)特征,第二類先結(jié)構(gòu)化存起來(lái),你想一想,如果十個(gè)特征都一樣的話,兩個(gè)人是不是同一個(gè)人呢?當(dāng)然,這也是不可能的,但是我們?cè)傧胍幌?,人類智能?lái)看,它忽略了什么呢?我認(rèn)為它忽略了太多,這種人臉識(shí)別僅僅是幾何結(jié)構(gòu)的聚類,落入集合學(xué)框架,忽略了聚類的不確定性,忽略了聚類的多樣性等等。
再舉個(gè)例子,大數(shù)據(jù)寫(xiě)詩(shī),人們熟讀眾多詩(shī)詞,記住了針對(duì)各種意境的大量字串。例如說(shuō)李白一生寫(xiě)詩(shī)1010首,把他所有詩(shī)句進(jìn)行機(jī)械切割。李白給毛主席誕辰100周年寫(xiě)一首詩(shī),就是這樣。
大數(shù)據(jù)對(duì)形式化方法的挑戰(zhàn)是非常嚴(yán)峻的,在數(shù)據(jù)密集型的網(wǎng)絡(luò)時(shí)代,任何傳統(tǒng)學(xué)科,或者傳統(tǒng)的行業(yè),它的公理、原理和定理組成的語(yǔ)境,遇到互聯(lián)網(wǎng)+的挑戰(zhàn)之后,這樣一來(lái),傳統(tǒng)的學(xué)科行業(yè),或者是交叉學(xué)科,成為一個(gè)大數(shù)據(jù)、小模型、小定律、交叉學(xué)科的時(shí)代,模型和程序要圍繞數(shù)據(jù)轉(zhuǎn)。
創(chuàng)新,表示在創(chuàng)造一個(gè)新的語(yǔ)境,新的坐標(biāo)系,在這個(gè)坐標(biāo)系下研究大數(shù)據(jù),在互聯(lián)網(wǎng)情況下,如何創(chuàng)造你新的坐標(biāo)系,新的語(yǔ)境,否則難以有新的發(fā)現(xiàn)。
實(shí)踐中的研究,由下而上要深入,數(shù)據(jù)要?jiǎng)龠^(guò)程序,價(jià)值要?jiǎng)龠^(guò)知識(shí),關(guān)聯(lián)要?jiǎng)龠^(guò)因果,更多要關(guān)注有意義的小眾,把這些小眾累積起來(lái)才成為大眾。
通過(guò)大數(shù)據(jù)聚類即時(shí)發(fā)現(xiàn)價(jià)值,要充分認(rèn)識(shí)大數(shù)據(jù)中的不確定性和價(jià)值的隱蔽性。
機(jī)器人如何認(rèn)知是我講的第二個(gè)問(wèn)題,這七個(gè)字,可以有兩種劃分,一種是機(jī)器人如何認(rèn)知,你要把這個(gè)弄清楚,我覺(jué)得實(shí)際上是在弄這個(gè),機(jī)器人在想,人如何認(rèn)知,智能機(jī)器人是集新材料、新工藝、新能源、機(jī)械、電子、移動(dòng)通信、全球定位導(dǎo)航、移動(dòng)互聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)、自動(dòng)化、人工智能、認(rèn)知科學(xué)、乃至人文藝術(shù)等多個(gè)學(xué)科、多種技術(shù)于一身的人造精靈,是人聯(lián)網(wǎng)、物聯(lián)網(wǎng)不可或缺的端設(shè)備,是人類社會(huì)走向智慧生活的重要伴侶。
機(jī)器人既是使用大數(shù)據(jù)也產(chǎn)生大數(shù)據(jù),既是大數(shù)據(jù)的產(chǎn)物,也是大數(shù)據(jù)的推動(dòng)者,機(jī)器人是大數(shù)據(jù)的認(rèn)知的典型代表,機(jī)器人時(shí)代真的來(lái)了,我們希望我們以后的黃牛退休、鐵牛耕地,這個(gè)鐵牛就是機(jī)器人,農(nóng)民進(jìn)城,機(jī)器人耕地,醫(yī)療與健康機(jī)器人,服務(wù)機(jī)器人更是上上下下,當(dāng)然還有太空機(jī)器人等。
我先講一下服務(wù)機(jī)器人,高考機(jī)器人,就是由知識(shí)的碎片化,大數(shù)據(jù)來(lái)認(rèn)知,就說(shuō)明我們的教育不能光是填知識(shí),我們現(xiàn)在做一個(gè)報(bào)告,我們可以用機(jī)器人來(lái)撰稿,機(jī)器人導(dǎo)航,機(jī)器人手術(shù)等。
如果語(yǔ)言、文本、歌曲、劇本,都可以用虛擬機(jī)器人,訓(xùn)練他的形象、情感、動(dòng)作、語(yǔ)音、語(yǔ)調(diào)、風(fēng)格,利用大數(shù)據(jù),發(fā)出新的歌聲。
機(jī)器人革命是世界性的、時(shí)代性的,機(jī)器人換人首先不是換掉理發(fā)師之類的勞動(dòng)者,而可能是產(chǎn)業(yè)工人、文秘人員、醫(yī)生、服務(wù)員、甚至士兵,他們將升級(jí)轉(zhuǎn)型成為機(jī)器人的創(chuàng)造者和使用者,成為懂得集成、維修、管理機(jī)器人的專業(yè)人才??缃鐫B透和跨界創(chuàng)新誕生的智能制造也是我國(guó)抓住歷史機(jī)遇的又一次崛起。
我想做一個(gè)可穿戴設(shè)備的案例,如果你能做一個(gè)人和人的衣服,動(dòng)力驅(qū)動(dòng),研制一個(gè)可穿戴的機(jī)械,幫助負(fù)重、助行、轉(zhuǎn)體、條約的話,不僅可以讓機(jī)器人站起來(lái)走路,還可以讓特種兵成為飛人、超人。
這就是這樣一些機(jī)器人,可穿戴的外部增強(qiáng)的機(jī)器人,這是我想做的家庭服務(wù)機(jī)器人,今天企業(yè)家很多,我在這投一個(gè)標(biāo),我想做這邊這一個(gè)機(jī)器人,誰(shuí)能做下面的輪子,從餐廳到臥室,從臥室到書(shū)房,希望大家有興趣能夠談一談。
機(jī)器人還將進(jìn)一步刮起穿戴風(fēng),蘋(píng)果做了手表,這個(gè)手表里面有一個(gè)檢查老年癡呆的,蘋(píng)果發(fā)表了5個(gè)APP商家,啟動(dòng)全新醫(yī)療應(yīng)用,我們想一想,如果有一天讓手機(jī)或者手表成為醫(yī)療診斷的工具,成為用于慢性管理的醫(yī)患視頻互動(dòng)平臺(tái),成為醫(yī)療互聯(lián)網(wǎng)個(gè)人健康與醫(yī)療的數(shù)據(jù)發(fā)生器,成為遠(yuǎn)程診療的開(kāi)始,成為某種流行病的社會(huì)調(diào)查,成為病友社交網(wǎng)絡(luò),甚至?xí)嵏矀鹘y(tǒng)看病模式,顛覆傳統(tǒng)醫(yī)學(xué)研究。
生物機(jī)器人遐想,我們?nèi)说南胂笾?,生命的多種形象,如果器官移植越來(lái)越發(fā)達(dá),那么移花接木就屢見(jiàn)不鮮。將來(lái),誰(shuí)是誰(shuí)搞不清楚了,如果這個(gè)人的臉換到另一個(gè)人的身上去,怎么界定?從定制治療到定制嬰兒,改造人類胚胎DNA,會(huì)不會(huì)避免遺傳性疾???如果將人的思維移植到機(jī)器人,那么思想是不是不朽的呢?
我現(xiàn)在想做一個(gè)東西,我想做一個(gè)機(jī)器駕駛腦。在腦科學(xué)取得重大突破前,能不能做得出來(lái)?人腦很復(fù)雜,我跟一個(gè)美國(guó)科學(xué)院士,是個(gè)華人,在科技部開(kāi)的咨詢會(huì)上,他告訴我一句話,讓我很吃驚,他回答我的問(wèn)題,腦里要花一個(gè)腦袋功能結(jié)構(gòu)圖,100年都畫(huà)不出,他說(shuō)你看一看生命科學(xué)的書(shū),那叫人腦的組織結(jié)構(gòu)圖,全球已經(jīng)發(fā)現(xiàn)500多種腦部疾病。
科學(xué)界正把腦科學(xué)和認(rèn)知科學(xué)作為當(dāng)前的重大研究領(lǐng)域,我們熱切期待生物腦的出現(xiàn)。
難道認(rèn)知科學(xué)就是研究生物腦的自然屬性嗎?怎樣把社會(huì)屬性研究進(jìn)去呢?我提出來(lái)要研究文字、文明和傳承,我們各種高端生物都會(huì)有語(yǔ)言、文字的,因?yàn)橛辛宋淖?,才有了文明。要研究腦認(rèn)知的后天屬性,研究腦發(fā)育、可塑性與自然環(huán)境的關(guān)系,認(rèn)知也是后天學(xué)習(xí)和積累的結(jié)果,是與社會(huì)環(huán)境、社會(huì)實(shí)踐、群體交互等密切相關(guān)的,要建立人腦認(rèn)知的成長(zhǎng)機(jī)制:如何創(chuàng)建神經(jīng)元之間新的連接和新的認(rèn)知。
我們想一下,人的智能,除了記憶之外,在學(xué)習(xí)和思維上,到底有什么能耐?客觀地說(shuō),或者概括地說(shuō),一個(gè)是邏輯思維,一個(gè)是形象思維,形象思維最主要的是兩個(gè),一個(gè)是類比,一個(gè)是聯(lián)想,主要解決的是圖象。
因此我的技術(shù)觀點(diǎn)是如果人腦的認(rèn)知能力不能夠全部、完整、統(tǒng)一地形式化、但特定的情境下的認(rèn)知能力是否可以先局部地形式化,例如算術(shù)運(yùn)算、簡(jiǎn)單游戲、博弈、定點(diǎn)開(kāi)車等。
就在此時(shí)此刻,美國(guó)的一個(gè)汽車公司,真的從洛杉磯往紐約開(kāi),他要開(kāi)5000多公里。我們有很多攝像頭,還有汽車本身的運(yùn)動(dòng)參數(shù),再一個(gè)就是我們的導(dǎo)航地圖,還有雷達(dá)傳感器,我們利用一次規(guī)劃,和駕駛地圖,形成一個(gè)初位化。我們認(rèn)為,我們的駕駛腦主要涵蓋了人腦關(guān)于駕駛行為的主要功能,長(zhǎng)期記憶、短期記憶,還有瞬間記憶,就是感覺(jué)記憶,從感知到認(rèn)知,到行動(dòng)。我今天在博覽會(huì)上找了好幾個(gè)廠家,希望跟他們合作,X1芯片,我們能不能做出我們自己的XPA,讓我們的汽車工業(yè)在智能時(shí)代到來(lái)中不錯(cuò)失又一次機(jī)遇。謝謝大家!
中國(guó)腦計(jì)劃馬上要啟動(dòng)了,我個(gè)人認(rèn)為是要將三項(xiàng)研究同步進(jìn)行,因?yàn)榇髷?shù)據(jù)三化來(lái)認(rèn)識(shí)腦袋,保護(hù)腦,模擬腦,謝謝!