一、 AI的核心基礎(chǔ)
1.專用AI算法
深度學(xué)習(xí)本質(zhì)上是一個(gè)自主學(xué)習(xí)系統(tǒng),是從傳統(tǒng)的模式識(shí)別衍生而來(lái)。通過(guò)大量數(shù)據(jù)進(jìn)行訓(xùn)練,深度學(xué)習(xí)網(wǎng)絡(luò)會(huì)自動(dòng)找到這些數(shù)據(jù)的模式,然后通過(guò)這些模式來(lái)對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè)。以Kaggle大賽中的貓狗分類為例,具體步驟是:(1)讓計(jì)算機(jī)“看”數(shù)以萬(wàn)計(jì)包含貓和狗的圖像;(2)程序通過(guò)對(duì)圖像數(shù)據(jù)進(jìn)行分類和聚類(例如:邊緣、形狀、顏色、形狀之間的距離等)來(lái)建立模式,足夠多的的模式可以得到最終的預(yù)測(cè)模型;(3)運(yùn)行程序通過(guò)預(yù)測(cè)模型來(lái)查看新的圖像集,之后與預(yù)測(cè)模型比對(duì),確定圖像中是貓還是狗。
深度學(xué)習(xí)算法通過(guò)模擬我們大腦神經(jīng)元網(wǎng)絡(luò)的人工神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)類似人類大腦的功能。算法在運(yùn)行中會(huì)執(zhí)行各種循環(huán),通過(guò)縮小模式與實(shí)際的差距來(lái)改進(jìn)每個(gè)循環(huán)的預(yù)測(cè),最終建立一個(gè)預(yù)測(cè)模型。
安防行業(yè)中人臉識(shí)別應(yīng)用是一個(gè)很好的關(guān)于深度學(xué)習(xí)的工業(yè)應(yīng)用案例。人臉識(shí)別算法通過(guò)大量帶有標(biāo)簽的人臉數(shù)據(jù)來(lái)訓(xùn)練模型,算法會(huì)自動(dòng)識(shí)別出人臉的關(guān)鍵點(diǎn)。通過(guò)調(diào)用算法,設(shè)備會(huì)捕獲到多個(gè)關(guān)鍵點(diǎn),這些關(guān)鍵點(diǎn)會(huì)送到深度學(xué)習(xí)模型中,通過(guò)內(nèi)置引擎和執(zhí)行預(yù)測(cè)模型判斷是誰(shuí)。
強(qiáng)化學(xué)習(xí)也是一種自主學(xué)習(xí)系統(tǒng),但它主要是通過(guò)反復(fù)試驗(yàn)來(lái)學(xué)習(xí)的。通過(guò)有限次執(zhí)行行動(dòng)以得到最大化獎(jiǎng)勵(lì)從而確定答案,換句話說(shuō),它是通過(guò)實(shí)踐來(lái)學(xué)習(xí),從實(shí)踐中找到結(jié)果。這就好比小時(shí)候?qū)W習(xí)騎自行車,剛開(kāi)始的時(shí)候會(huì)經(jīng)常摔倒,但隨著摔的次數(shù)多了,慢慢就掌握竅門了,這個(gè)學(xué)習(xí)的過(guò)程就是強(qiáng)化學(xué)習(xí)。當(dāng)計(jì)算機(jī)使用強(qiáng)化學(xué)習(xí)時(shí),它們會(huì)嘗試不同的行為,從反饋中學(xué)習(xí)該行為是否能夠得到更好的結(jié)果,然后將能得到好結(jié)果的行為記住,規(guī)范點(diǎn)說(shuō)就是計(jì)算機(jī)在多次迭代中進(jìn)行自主重新修正算法,直到能做出正確的判斷為止。
使用強(qiáng)化學(xué)習(xí)一個(gè)很好的例子是讓機(jī)器人學(xué)習(xí)走路。首先機(jī)器人向前邁出一大步然后跌倒,這一大步和摔倒是強(qiáng)化學(xué)習(xí)系統(tǒng)關(guān)注的響應(yīng)點(diǎn)。由于反饋是負(fù)面的,所以繼續(xù)調(diào)整,系統(tǒng)會(huì)根據(jù)多個(gè)負(fù)反饋進(jìn)行調(diào)整,最終確定機(jī)器人應(yīng)該把步子邁小一點(diǎn),不停地小,直到機(jī)器人走路不會(huì)摔倒為止。
深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)首先都是自主學(xué)習(xí)系統(tǒng)。它們之間的區(qū)別在于,深度學(xué)習(xí)是從訓(xùn)練集中學(xué)習(xí),然后將學(xué)習(xí)到的知識(shí)應(yīng)用于新數(shù)據(jù)集,這是一種靜態(tài)學(xué)習(xí)。而強(qiáng)化學(xué)習(xí)是通過(guò)連續(xù)的反饋來(lái)調(diào)整自身的動(dòng)作以獲得理想結(jié)果,是一種不斷試錯(cuò)的過(guò)程,這是動(dòng)態(tài)學(xué)習(xí)。另外現(xiàn)階段投入市場(chǎng)應(yīng)用的深度學(xué)習(xí)算法和強(qiáng)化學(xué)習(xí)算法都屬于有監(jiān)督學(xué)習(xí),不同于無(wú)監(jiān)督學(xué)習(xí)在數(shù)據(jù)集中自動(dòng)尋找規(guī)律,有監(jiān)督學(xué)習(xí)需要大量已標(biāo)注的訓(xùn)練數(shù)據(jù)作為訓(xùn)練集,在訓(xùn)練集中尋找規(guī)律。
深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)都屬于專用AI算法,在面向特定任務(wù)(比如下圍棋、分類、檢測(cè))時(shí),由于任務(wù)單一、需求明確、應(yīng)用邊界清晰、領(lǐng)域知識(shí)豐富、模型相對(duì)簡(jiǎn)單,形成了AI的單項(xiàng)突破,在單項(xiàng)測(cè)試中可以超過(guò)人類智能。AlphaGo在圍棋比賽中戰(zhàn)勝人類獲得冠軍,AI程序在大規(guī)模圖像識(shí)別和人臉識(shí)別中超過(guò)了人類水平,AI系統(tǒng)診斷皮膚癌達(dá)到專業(yè)醫(yī)生的水平。
2.算力
除了專用AI算法,近些年計(jì)算機(jī)硬件的發(fā)展構(gòu)成了AI發(fā)展的基礎(chǔ)。AI早期進(jìn)入第一個(gè)發(fā)展低谷的原因之一正是因?yàn)橛?jì)算機(jī)計(jì)算能力不足。深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練本質(zhì)就是矩陣運(yùn)算,反向傳播尋找整個(gè)網(wǎng)絡(luò)的損失最小值,使得訓(xùn)練很容易并行化。使用英偉達(dá)的GPU可以大大加快深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度,越來(lái)越多傳統(tǒng)的信息廠商都在利用英偉達(dá)的GPU構(gòu)建GPU集群。Intel的Xeon芯片提供了強(qiáng)大的多核計(jì)算能力,而且可以在服務(wù)器上組成多路,以及通過(guò)多節(jié)點(diǎn)集群進(jìn)行并行優(yōu)化計(jì)算。對(duì)于負(fù)載不是特別大的任務(wù)可以直接用cpu完成,目前Intel正在開(kāi)發(fā)將cpu和FPGA計(jì)算能力整合的芯片。
專用的神經(jīng)網(wǎng)絡(luò)芯片發(fā)展迅速,主要有FPGA、DSP、ASIC、ARM擴(kuò)展模塊等技術(shù)路線,具有速度快、帶寬高、功耗低等特點(diǎn),主要面向移動(dòng)和嵌入式系統(tǒng)。很多廠家在芯片里已經(jīng)固化的圖像處理、目標(biāo)識(shí)別等基礎(chǔ)模型和算法,快速集成到嵌入式設(shè)備中,目前主要功能以人臉識(shí)別、照片分類、圖像處理、圖像風(fēng)格遷移、圖像超分辨率重建、車牌識(shí)別、智能安防、自動(dòng)駕駛、無(wú)人機(jī)姿態(tài)保持與位置追蹤等領(lǐng)域?yàn)橹鳌?/div>
3.數(shù)據(jù)
當(dāng)前正處于數(shù)據(jù)爆發(fā)的時(shí)代。根據(jù)希捷科技贊助、國(guó)際數(shù)據(jù)公司(IDC)發(fā)布的白皮書《數(shù)據(jù)時(shí)代2025》預(yù)測(cè):到2025年,全球數(shù)據(jù)圈將擴(kuò)展至163ZB,相當(dāng)于2016年所產(chǎn)生16.1ZB數(shù)據(jù)的十倍;屬于數(shù)據(jù)分析的全球數(shù)據(jù)總量將增長(zhǎng)至原來(lái)的50倍,達(dá)到5.2ZB;而認(rèn)知系統(tǒng)“觸及”的分析數(shù)據(jù)總量將增長(zhǎng)至原來(lái)的100倍,達(dá)到1.4ZB。大量涌現(xiàn)的數(shù)據(jù)催生出了一系列全新的技術(shù),AI將數(shù)據(jù)分析從不常見(jiàn)的、追溯式的實(shí)踐轉(zhuǎn)變?yōu)閼?zhàn)略決策和行動(dòng)的推動(dòng)因素。
二、存在的一些問(wèn)題
1.數(shù)據(jù)成本
前面提到過(guò),在工業(yè)領(lǐng)域廣泛應(yīng)用深度學(xué)習(xí)網(wǎng)絡(luò)需要大量的已經(jīng)標(biāo)注的數(shù)據(jù)進(jìn)行訓(xùn)練才有可能達(dá)到預(yù)期的效果,這些訓(xùn)練數(shù)據(jù)的標(biāo)注需要人為進(jìn)行,這造成巨大的人力成本。雖然互聯(lián)網(wǎng)有著取之不盡的海量數(shù)據(jù),但是絕大部分都是未進(jìn)行標(biāo)注的數(shù)據(jù)。為了解決這個(gè)問(wèn)題,可以從以下兩方面嘗試解決:
(1)無(wú)監(jiān)督學(xué)習(xí)
相對(duì)于監(jiān)督學(xué)習(xí),無(wú)監(jiān)督學(xué)習(xí)能夠充分利用這些數(shù)據(jù),不需要花費(fèi)大量的人力物力去標(biāo)注訓(xùn)練數(shù)據(jù),這樣就大大減少了訓(xùn)練模型的成本。另一方面,目前的深度學(xué)習(xí)模型的訓(xùn)練需要使用大量的數(shù)據(jù)。
(2)小樣本學(xué)習(xí)
機(jī)器學(xué)習(xí)能力與人的學(xué)習(xí)能力相差甚遠(yuǎn),比如小孩只需要幾張貓的照片就能準(zhǔn)確的識(shí)別貓,但是深度學(xué)習(xí)的模型需要幾百萬(wàn)張圖像,目前很熱門的自動(dòng)駕駛技術(shù),需要幾百萬(wàn)公里才能訓(xùn)練到令人滿意的效果,但是人只需要幾千公里就可以成為老司機(jī)。事實(shí)上,小樣本學(xué)習(xí)更接近人的智能模型,小樣本學(xué)習(xí)能力的發(fā)展能夠?qū)I技術(shù)應(yīng)用到更多更廣泛的領(lǐng)域。小樣本學(xué)習(xí)研究的一個(gè)重大突破是三名分別來(lái)自麻省理工學(xué)院、紐約大學(xué)和多倫多大學(xué)的研究者在2015年提出的“Bayesian Program Learning”方法,并利用它解決 “看一眼就會(huì)寫字”的問(wèn)題。
2.模型可解釋性
AI另一個(gè)難題就是機(jī)器學(xué)習(xí)模型的可解釋性和穩(wěn)定性。目前大部分機(jī)器學(xué)習(xí)模型都是“黑盒”模型,很難讓人理解。而且模型穩(wěn)定性也一直是個(gè)問(wèn)題,例如給圖片加些白噪音,深度學(xué)習(xí)模型會(huì)給出令人大跌眼鏡的預(yù)測(cè)結(jié)果。
3.模型大小限制
目前的計(jì)算能力難以訓(xùn)練大型的深度學(xué)習(xí)模型,比如GB級(jí)的模型訓(xùn)練過(guò)程對(duì)帶寬要求很高。GPU比CPU更適合訓(xùn)練深度學(xué)習(xí)模型的原因之一是,相對(duì)于內(nèi)存來(lái)說(shuō)顯存的帶寬更大。另外模型很大往往會(huì)過(guò)度擬合基準(zhǔn)數(shù)據(jù),并不會(huì)從樣本中提取更抽象的特征,在實(shí)際應(yīng)用中,如果深度網(wǎng)絡(luò)有偏差將會(huì)帶來(lái)非常嚴(yán)重的后果。比如在訓(xùn)練自動(dòng)駕駛的數(shù)據(jù)集中,不會(huì)有嬰兒坐在馬路中間。深度神經(jīng)網(wǎng)絡(luò)對(duì)標(biāo)準(zhǔn)的對(duì)抗性攻擊很敏感,這些攻擊會(huì)對(duì)圖像造成人類難以察覺(jué)的變化,但會(huì)改變神經(jīng)網(wǎng)絡(luò)對(duì)物體的認(rèn)知。Alan Yuille說(shuō)這些問(wèn)題的背后都是組合爆炸導(dǎo)致的,真實(shí)世界的圖像利用組合觀點(diǎn)來(lái)看數(shù)量太大了,從一定程度上說(shuō)是無(wú)限的。任何一個(gè)數(shù)據(jù)集,不管多大,都很難表達(dá)出現(xiàn)實(shí)的復(fù)雜程度。
4.泛化性能
從專用智能算法到通用智能算法是下一代AI發(fā)展的必然趨勢(shì),也是研究與應(yīng)用領(lǐng)域需要挑戰(zhàn)的問(wèn)題。通用智能被認(rèn)為是AI皇冠上的明珠,從目標(biāo)來(lái)看,通用智能意味著神經(jīng)網(wǎng)絡(luò)泛化能力的提高,為了解決這個(gè)問(wèn)題,科研人員進(jìn)行了各種努力。從正則化技術(shù)到dropout技術(shù)再到BN技術(shù),這些技巧從一定程度上減緩了神經(jīng)網(wǎng)絡(luò)過(guò)度擬合的問(wèn)題,提高了泛化能力。但是這些只是技巧,并不能從根本上解決問(wèn)題。目前解決這個(gè)問(wèn)題的方法是遷移學(xué)習(xí),遷移學(xué)習(xí)是將一個(gè)場(chǎng)景中學(xué)到的知識(shí)遷移到另一個(gè)場(chǎng)景中。比如我們可以將利用貓和狗圖像訓(xùn)練的分類模型遷移到其他相似的任務(wù),用來(lái)分別鷹和布谷鳥。利用遷移學(xué)習(xí),在一個(gè)模型訓(xùn)練任務(wù)中針對(duì)某種類型數(shù)據(jù)獲得的關(guān)系也可以輕松地應(yīng)用于同一領(lǐng)域的不同問(wèn)題。遷移學(xué)習(xí)一定程度上緩解了標(biāo)記數(shù)據(jù)的壓力,對(duì)于我們接近通用AI邁進(jìn)了一步。
三、發(fā)展趨勢(shì)
雖然深度學(xué)習(xí)在某些方面還是存在一些不足,但是目前科學(xué)界已經(jīng)有了一些可喜的突破,并且基于深度學(xué)習(xí)的AI深刻地改變了人們的生活,未來(lái)AI將會(huì)更加快速地發(fā)展,本文認(rèn)為有以下四個(gè)發(fā)展趨勢(shì):
1.AI芯片加速發(fā)展
即使是快和先進(jìn)的CPU也無(wú)法提高AI模型的速度,在AI模型運(yùn)行的時(shí)候,需要額外的硬件來(lái)進(jìn)行復(fù)雜的數(shù)學(xué)計(jì)算。尤其是前端設(shè)備,在安防行業(yè)中的應(yīng)用,需要體積更小,功能更加強(qiáng)大的嵌入式芯片來(lái)運(yùn)行性能更好的算法,用于實(shí)時(shí)跟蹤、面部識(shí)別等應(yīng)用。
2.AI邊緣計(jì)算以及物聯(lián)網(wǎng)融合開(kāi)發(fā)
目前AI在邊緣側(cè)不斷發(fā)展是駕馭數(shù)據(jù)洪流的關(guān)鍵之一,也是物聯(lián)網(wǎng)未來(lái)發(fā)展的重要趨勢(shì)。隨著AI技術(shù)如火如荼地發(fā)展,海量數(shù)據(jù)需要快速有效的提取和分析,這大大加強(qiáng)了對(duì)于邊緣計(jì)算的需求。未來(lái)AI技術(shù)、邊緣計(jì)算和物聯(lián)網(wǎng)將更加密切進(jìn)行融合發(fā)展,尤其在安防行業(yè)視頻監(jiān)控領(lǐng)域的應(yīng)用。
(1)神經(jīng)網(wǎng)絡(luò)之間的互操作性
神經(jīng)網(wǎng)絡(luò)的訓(xùn)練是基于框架的,一旦模型在特定的框架中完成了訓(xùn)練和評(píng)估就很難移植到另一個(gè)框架,這阻礙了AI的發(fā)展,未來(lái)神經(jīng)網(wǎng)絡(luò)之間的互操作性將成為AI行業(yè)的重要技術(shù)。
(2)自動(dòng)化AI將會(huì)更加突出
從根本上改變AI解決方案的一個(gè)趨勢(shì)是自動(dòng)化AI,它使業(yè)務(wù)分析師和開(kāi)發(fā)人員能夠高效發(fā)掘出可以解決復(fù)雜場(chǎng)景的機(jī)器學(xué)習(xí)模型,而無(wú)需經(jīng)過(guò)機(jī)器學(xué)習(xí)模型的典型培訓(xùn),業(yè)務(wù)分析師可以更加專注于業(yè)務(wù)問(wèn)題。
四、結(jié)語(yǔ)
AI技術(shù)一直處于計(jì)算機(jī)技術(shù)的前沿,其研究的理論和發(fā)展在很大程度上將決定計(jì)算機(jī)技術(shù)的發(fā)展方向。目前很多AI的研究成果深刻地改變著人們的生活,將來(lái),AI的發(fā)展將會(huì)更加快速,會(huì)給人們的生活工作和教育帶來(lái)更大的影響。