構(gòu)建從數(shù)據(jù)中學(xué)習(xí)的系統(tǒng)是解決復(fù)雜問(wèn)題的更好方法,可以提供足夠的有意義的數(shù)據(jù)來(lái)學(xué)習(xí)。
也許人們可能不只一次聽(tīng)說(shuō)過(guò)“機(jī)器學(xué)習(xí)”這個(gè)術(shù)語(yǔ)。機(jī)器學(xué)習(xí)通常與人工智能互換使用,實(shí)際上是人工智能的一個(gè)子集,二者誕生于20世紀(jì)50年代后期的麻省理工學(xué)院。
不管人們知道與否,機(jī)器學(xué)習(xí)都是人們每天都可能遇到的事情。Siri和Alexa是語(yǔ)音助手,F(xiàn)acebook和微軟公司的面部識(shí)別,亞馬遜和Netflix的建議,讓自主駕駛汽車(chē)不會(huì)崩潰的技術(shù)都是機(jī)器學(xué)習(xí)進(jìn)步的結(jié)果。
雖然仍然沒(méi)有像人腦一樣復(fù)雜,但基于機(jī)器學(xué)習(xí)的系統(tǒng)已經(jīng)取得了一些令人印象深刻的專(zhuān)長(zhǎng),比如擊敗國(guó)際象棋,智力競(jìng)賽Jeopardy,圍棋和德州撲克的人類(lèi)挑戰(zhàn)者。
幾十年來(lái),由于過(guò)度炒作并且不切實(shí)際的發(fā)展,使得人工智能發(fā)展處于低潮。近年來(lái)由于一系列的技術(shù)突破,成本低廉的計(jì)算能力爆炸式增長(zhǎng),人工智能和機(jī)器學(xué)習(xí)在過(guò)去幾年中已經(jīng)有了巨大的復(fù)蘇,大量的機(jī)器學(xué)習(xí)模型用于處理數(shù)據(jù)。
自學(xué)習(xí)軟件
那么什么是機(jī)器學(xué)習(xí)呢?先來(lái)看一下它不是什么:一個(gè)傳統(tǒng)的手工編碼的人工編程計(jì)算應(yīng)用程序。
與傳統(tǒng)的軟件不同,傳統(tǒng)的軟件在遵循指令的同時(shí)也很可怕,但機(jī)器學(xué)習(xí)系統(tǒng)本身就是自己編寫(xiě)的,通過(guò)實(shí)例進(jìn)行泛化來(lái)開(kāi)發(fā)自己的指令。
典型的例子是圖像識(shí)別。向機(jī)器學(xué)習(xí)系統(tǒng)展示足夠狗的照片(標(biāo)記為“狗”),以及貓,樹(shù),嬰兒,香蕉或任何其他物體(標(biāo)記為“不是狗”)的圖片,如果系統(tǒng)進(jìn)行正確訓(xùn)練,最終將會(huì)擅長(zhǎng)識(shí)別狗,而并沒(méi)有人曾經(jīng)告訴它,狗應(yīng)該是什么樣子的。
電子郵件程序中的垃圾郵件過(guò)濾器普是機(jī)器學(xué)習(xí)中的一個(gè)很好的例子。在接觸了數(shù)以百萬(wàn)計(jì)的垃圾郵件樣本以及非垃圾郵件之后,它學(xué)會(huì)了識(shí)別那些令人討厭的有害信息的關(guān)鍵特征。雖然它并不完美,但它通常是相當(dāng)準(zhǔn)確的。
監(jiān)督與無(wú)監(jiān)督學(xué)習(xí)
這種機(jī)器學(xué)習(xí)被稱(chēng)為監(jiān)督學(xué)習(xí),這意味著有人將機(jī)器學(xué)習(xí)算法暴露于一組龐大的訓(xùn)練數(shù)據(jù),研究其輸出,然后不斷調(diào)整其設(shè)置,直到產(chǎn)生預(yù)期結(jié)果(這類(lèi)似于當(dāng)過(guò)濾器意外收集合法郵件時(shí),單擊收件箱中的“不是垃圾郵件”按鈕。人們所做的越多,過(guò)濾器的準(zhǔn)確性越高)。
最常見(jiàn)的監(jiān)督學(xué)習(xí)任務(wù)涉及分類(lèi)和預(yù)測(cè)(即“回歸”)。垃圾郵件檢測(cè)和圖像識(shí)別都是分類(lèi)問(wèn)題。預(yù)測(cè)股價(jià)則是回歸問(wèn)題的典型例子。
第二種機(jī)器學(xué)習(xí)叫做無(wú)監(jiān)督學(xué)習(xí)。這就是系統(tǒng)通過(guò)大量數(shù)據(jù)來(lái)了解“正常”數(shù)據(jù)的樣子,因此它可以檢測(cè)異常和隱藏模式。無(wú)監(jiān)督的機(jī)器學(xué)習(xí)在你不知道你在尋找什么的時(shí)候是有用的,所以人們不能訓(xùn)練系統(tǒng)找到它。
無(wú)監(jiān)督的機(jī)器學(xué)習(xí)系統(tǒng)可以識(shí)別大量數(shù)據(jù)的模式比人類(lèi)的速度要快許多倍,這就是為什么銀行使用它們來(lái)標(biāo)記欺詐性交易,營(yíng)銷(xiāo)人員部署它們來(lái)識(shí)別具有相似屬性的客戶(hù),安全軟件使用它們來(lái)檢測(cè)網(wǎng)絡(luò)上的惡意活動(dòng)的原因。
聚類(lèi)和關(guān)聯(lián)規(guī)則學(xué)習(xí)是無(wú)監(jiān)督學(xué)習(xí)算法的兩個(gè)例子。聚類(lèi)是客戶(hù)細(xì)分背后的秘密規(guī)則,例如,關(guān)聯(lián)規(guī)則學(xué)習(xí)用于推薦引擎。
機(jī)器學(xué)習(xí)的局限性
因?yàn)槊總€(gè)機(jī)器學(xué)習(xí)系統(tǒng)創(chuàng)建自己的連接,所以一個(gè)特定的實(shí)際工作可以是一個(gè)黑盒子。人們不能總是逆向工程來(lái)發(fā)現(xiàn)為什么系統(tǒng)可以區(qū)分哈巴狗和波斯狗。只要它有效,這并不重要。
但是,機(jī)器學(xué)習(xí)系統(tǒng)只能與其暴露的數(shù)據(jù)一樣好,而這是一個(gè)“垃圾輸入,垃圾輸出”的典型例子。當(dāng)訓(xùn)練不足或暴露于不足的數(shù)據(jù)集時(shí),機(jī)器學(xué)習(xí)算法會(huì)產(chǎn)生的結(jié)果不僅是錯(cuò)誤的,而且是歧視性的。
惠普公司在2009年面臨麻煩,當(dāng)時(shí)惠普公司生產(chǎn)的MediaSmart筆記本電腦上的網(wǎng)絡(luò)攝像機(jī)內(nèi)置的面部識(shí)別技術(shù)無(wú)法識(shí)別非裔美國(guó)人的臉。2015年6月,Google相冊(cè)應(yīng)用程式中的錯(cuò)誤算法將兩名黑人錯(cuò)誤地標(biāo)記為大猩猩。
另一個(gè)戲劇性的例子:微軟公司失敗的Taybot在2016年3月的一個(gè)實(shí)驗(yàn)中,試驗(yàn)人工智能系統(tǒng)是否可以通過(guò)學(xué)習(xí)Twitter的言論來(lái)模擬人類(lèi)的對(duì)話。在不到一天的時(shí)間里,Twitter將Tay變成了一個(gè)充滿(mǎn)了憎恨言論的聊天機(jī)器人。而這就是糟糕的培訓(xùn)數(shù)據(jù)。
機(jī)器學(xué)習(xí)詞典
但是機(jī)器學(xué)習(xí)確實(shí)是人工智能的尖端。與機(jī)器學(xué)習(xí)密切相關(guān)的其他術(shù)語(yǔ)是神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)和認(rèn)知計(jì)算。
神經(jīng)網(wǎng)絡(luò)。是一種旨在模擬人類(lèi)大腦神經(jīng)元結(jié)構(gòu)的計(jì)算機(jī)架構(gòu),每個(gè)人造神經(jīng)元(微電路)連接到系統(tǒng)內(nèi)的其他神經(jīng)元。神經(jīng)網(wǎng)絡(luò)分層布置,一層神經(jīng)元將數(shù)據(jù)傳遞到下一層的多個(gè)神經(jīng)元,依此類(lèi)推,直到最終達(dá)到輸出層。這個(gè)最后一層是神經(jīng)網(wǎng)絡(luò)給出最好的猜測(cè),也就是說(shuō),這個(gè)狗一樣形狀的物體是什么,以及一個(gè)置信度分?jǐn)?shù)。
有多種類(lèi)型的神經(jīng)網(wǎng)絡(luò)來(lái)解決不同類(lèi)型的問(wèn)題。具有大量層次的網(wǎng)絡(luò)稱(chēng)為“深層神經(jīng)網(wǎng)絡(luò)”。神經(jīng)網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)場(chǎng)景中使用的最重要的工具,但不是唯一的工具。
深度學(xué)習(xí)本質(zhì)上是一種機(jī)器學(xué)習(xí),使用多層(深層)神經(jīng)網(wǎng)絡(luò)基于“不完美”或不完整的信息來(lái)作出決定。深度學(xué)習(xí)系統(tǒng)DeepStack去年12月打敗了11名職業(yè)撲克玩家,其在每場(chǎng)投注后不斷重新計(jì)算其戰(zhàn)略。
認(rèn)知計(jì)算。沃森的創(chuàng)造者IBM公司了解計(jì)算機(jī)與人工智能的區(qū)別,IBM公司認(rèn)為認(rèn)知計(jì)算可以代替人類(lèi)智能,認(rèn)知計(jì)算旨在增強(qiáng)認(rèn)知計(jì)算能力,可以使醫(yī)生更準(zhǔn)確地診斷疾病,財(cái)務(wù)經(jīng)理做出更明智的建議,律師更快地搜索法律案例等。
這當(dāng)然是一個(gè)非常膚淺的概述。那些想要更深入地學(xué)習(xí)人工智能和機(jī)器學(xué)習(xí)的復(fù)雜性的人可以從專(zhuān)門(mén)的培訓(xùn)機(jī)構(gòu)學(xué)習(xí)。
盡管如今人工智能有一些炒作的成分,但人們知道機(jī)器學(xué)習(xí)和與之相關(guān)的技術(shù)正在改變世界,這并不夸張。人們?cè)谄浼夹g(shù)應(yīng)用爆發(fā)之前,最好先了解一下。