文| 騰訊杰出科學(xué)家、騰訊優(yōu)圖實(shí)驗(yàn)室負(fù)責(zé)人 賈佳亞;騰訊優(yōu)圖實(shí)驗(yàn)室總監(jiān) 戴宇榮博士、鄭冶楓博士
“在數(shù)不清的視覺AI應(yīng)用中,我們認(rèn)為未來技術(shù)的爆發(fā)點(diǎn)可能來自三個(gè)方面:信息的整合和提取、醫(yī)療和自動(dòng)駕駛。”
在迷霧重重、混沌不明的當(dāng)下,市場(chǎng)中的每一個(gè)理性人都需要放長(zhǎng)眼量,將錨拋在時(shí)間之河中較遠(yuǎn)的地方,以未來丈量現(xiàn)在,才能站立得更堅(jiān)實(shí)安穩(wěn)?!吨袊?guó)企業(yè)家》組織9位企業(yè)家、科學(xué)家、經(jīng)濟(jì)學(xué)家及藝術(shù)家,請(qǐng)他們每人寫下一封給2029年的信,預(yù)測(cè)他們眼中10年后的世界,希望能對(duì)讀者有所裨益。
(圖片來源:中企圖庫(kù))
近年來,計(jì)算機(jī)視覺AI技術(shù)發(fā)展迅速,尤其是人工智能的引入大大提升了算法的能力和實(shí)用性。在數(shù)不清的視覺AI應(yīng)用中,我們認(rèn)為未來技術(shù)的爆發(fā)點(diǎn)可能來自三個(gè)方面:信息的整合和提取、醫(yī)療和自動(dòng)駕駛。騰訊優(yōu)圖實(shí)驗(yàn)室的AI技術(shù)布局也可大致分為上述的三個(gè)模塊。
信息的整合和提取,主要指內(nèi)容分析,包括人物識(shí)別、行為分析、場(chǎng)景識(shí)別、物體檢測(cè)、語(yǔ)義分割等能夠從豐富的圖像或視頻中提取有意義和結(jié)構(gòu)化的信息,結(jié)合落地場(chǎng)景的應(yīng)用,產(chǎn)生有價(jià)值的數(shù)據(jù),給予用戶或消費(fèi)者精準(zhǔn)的建議。這個(gè)領(lǐng)域在近幾年進(jìn)展迅速。舉例來說,通過分析用戶的點(diǎn)擊或搜索行為,建立用戶畫像,讓內(nèi)容服務(wù)平臺(tái)能夠更精準(zhǔn)地推薦用戶感興趣的內(nèi)容。這是Google、Facebook等大公司正在做的事情。在視覺AI技術(shù)成熟前,他們的用戶畫像主要以文字搜索記錄的分析為主。但隨著視覺AI技術(shù)的發(fā)展,往后將會(huì)有更多的用戶行為是從多媒體內(nèi)容直接提取。并且,信息的整合和提取不會(huì)只局限于線上的行為。在大數(shù)據(jù)和5G普及的未來,將會(huì)產(chǎn)生大量的線下數(shù)據(jù)。通過提煉線下的數(shù)據(jù),能夠更有效地分析人們的行為,小至商品推薦,大至城市規(guī)劃,均會(huì)使用視覺AI技術(shù),讓人們的生活更方便、舒適和安全。
醫(yī)療AI的宗旨在于輔助診斷,在人口眾多、醫(yī)師資源分配不均的時(shí)代,減少醫(yī)生的重復(fù)性勞動(dòng),幫助基層疾病篩查的覆蓋。臨床上,疾病治療秉持的觀點(diǎn)是:早診斷、早治療、疾病篩查、及時(shí)就醫(yī)以及精準(zhǔn)微創(chuàng)型治療對(duì)整個(gè)社會(huì)以及人類醫(yī)療水平的提高有著前所未有的重大意義。未來十年,智能問診、智能掛號(hào)指引、醫(yī)療影像上的自動(dòng)篩查,如X光肺炎自動(dòng)檢測(cè)、心臟影像結(jié)構(gòu)自動(dòng)分析等將會(huì)大量減少醫(yī)生的工作,讓醫(yī)生更專注解決和處理危疾病人的需求。并且,醫(yī)療AI有望實(shí)現(xiàn)大部分疾病初篩普及,大數(shù)據(jù)化以及智能分析有望改變傳統(tǒng)就醫(yī)繁雜的過程,虛擬手術(shù)的發(fā)展增加醫(yī)師手術(shù)經(jīng)驗(yàn),智能手術(shù)機(jī)器人實(shí)現(xiàn)更多疾病的精準(zhǔn)微創(chuàng)手術(shù)治療。
自動(dòng)駕駛是在未來十年必定會(huì)到來的技術(shù)。當(dāng)中核心需要解決的問題在于環(huán)境識(shí)別。目前,在自動(dòng)駕駛的落地測(cè)試中,因?yàn)榄h(huán)境識(shí)別的錯(cuò)誤產(chǎn)生的交通意外,占了90%以上。簡(jiǎn)單地解釋一下,如果自動(dòng)駕駛是發(fā)生在游戲世界,所有環(huán)境的數(shù)據(jù)都能夠精準(zhǔn)地反饋到負(fù)責(zé)車控的AI,而AI只需要做決策,那么在這個(gè)問題之上,AI的決策能力絕對(duì)在人類之上。這個(gè)從AlphaGo戰(zhàn)勝人類的案例中可以看出,在完全的封閉環(huán)境之下,AI的決策能力已經(jīng)超越人類。而自動(dòng)駕駛目前還處于測(cè)試階段的原因,是因?yàn)閷?duì)環(huán)境信息的不完全理解,因而做成決策錯(cuò)誤。而解決這個(gè)環(huán)境識(shí)別的問題,是會(huì)隨著在路上行車測(cè)試數(shù)據(jù)的不斷增加而趨于完美的。這樣考慮下來,自動(dòng)駕駛就是一個(gè)必定會(huì)到來的技術(shù)。同時(shí),基于自動(dòng)駕駛所產(chǎn)生的應(yīng)用,為人們帶來生活的便利,將會(huì)越來越多。
未來十年,首先確定無疑的是,AI算法的各項(xiàng)指標(biāo)會(huì)越來越高,計(jì)算機(jī)視覺的算法也會(huì)在實(shí)用的道路上越走越深入:更貼近使用場(chǎng)景、效果更精準(zhǔn)。軟硬件的進(jìn)步讓基于AI的視覺算法不再受限于特定的計(jì)算硬件,而且將成為計(jì)算設(shè)備看懂世界的常用工具。如今的“多媒體計(jì)算機(jī)”能夠記錄并播放多種媒體,未來的計(jì)算機(jī)將能夠讀懂多種媒體信息的含義。
計(jì)算機(jī)視覺AI技術(shù)的發(fā)展也勢(shì)必會(huì)直接影響我們衣食住行的方方面面。
暢想一下,2029年,商店自動(dòng)推斷出顧客的體型、膚色、年齡,進(jìn)而推薦合適的穿衣搭配;吃東西之前,自動(dòng)幫你判斷新鮮程度、營(yíng)養(yǎng)成分、推薦健康的膳食搭配;智能家居進(jìn)入千家萬戶,語(yǔ)音、手勢(shì)可以自由地控制家電,智能安防攝像頭幫你照料家中小孩的活動(dòng);在醫(yī)療方面,疾病檢查過程簡(jiǎn)便化,基層醫(yī)療設(shè)備更加完善,少數(shù)醫(yī)護(hù)人員就可建立疾病篩查點(diǎn);對(duì)某些疾病,便攜式的成像設(shè)備涌現(xiàn),傻瓜式的操作、篩查過程進(jìn)入尋常百姓家,讓患者實(shí)現(xiàn)自我篩查。十年后的就醫(yī),我們不用再為“肚子疼”應(yīng)該掛哪個(gè)科室而煩惱,智能對(duì)話分析助手可以通過簡(jiǎn)單的對(duì)話幫患者確定疾病范圍、選擇科室、做出最佳的檢查時(shí)間、就醫(yī)時(shí)間安排,簡(jiǎn)化就醫(yī)流程。智能手術(shù)機(jī)器人變得更加智能化、微細(xì)化,術(shù)后愈合快,減少手術(shù)帶來的痛苦。
無人駕駛汽車的普及,將會(huì)大量釋放物流業(yè)的人力成本,讓BtoC的生意更容易和快捷,物價(jià)將會(huì)因?yàn)槿肆Τ杀镜臏p少變得更合理。泊車時(shí)將不再需要忙于尋找車位,長(zhǎng)途汽車旅游將會(huì)有更多的休息時(shí)間,無人計(jì)程車讓人們能夠即叫即走,女士晚上叫車將會(huì)更安全,城市交通也會(huì)因?yàn)楦玫穆肪€規(guī)劃而減少阻塞。
AI將賦予計(jì)算機(jī)理解世界的能力,計(jì)算機(jī)能更好地幫助人類分析規(guī)劃,作出決策。當(dāng)然,計(jì)算機(jī)視覺AI技術(shù)的想象空間無限大。但是從技術(shù)研究到實(shí)際落地應(yīng)用還有很長(zhǎng)的路要走,這也是所有相關(guān)研究人員努力的方向和愿景。