機(jī)器學(xué)習(xí)被證明是非常有用的,人們很容易假設(shè)它可以解決所有問題并適用于所有情況。和其它工具一樣,機(jī)器學(xué)習(xí)在特定領(lǐng)域也很有用,特別是對于一直困擾著你,但你永遠(yuǎn)不會雇用足夠的人來解決的問題,或者對于有明確目標(biāo),但沒有明顯的實(shí)現(xiàn)方法的問題。
盡管如此,每個組織都有可能以這樣或那樣的方式利用機(jī)器學(xué)習(xí),因?yàn)?2%的高管最近告訴埃森哲,他們預(yù)計(jì)人工智能將在2021年之前成為他們的創(chuàng)新的后盾。但是,只要你的視野能繞過炒作,并避免下面這些常見的誤解你會得到更好的成果——通過了解機(jī)器學(xué)習(xí)可以實(shí)現(xiàn)和不能實(shí)現(xiàn)的機(jī)制。
迷思:機(jī)器學(xué)習(xí)就是人工智能
機(jī)器學(xué)習(xí)和人工智能經(jīng)常被用作同義詞,但機(jī)器學(xué)習(xí)是最成功地從研究實(shí)驗(yàn)室走出來,邁向現(xiàn)實(shí)世界的技術(shù),而人工智能則是一個廣泛的領(lǐng)域,它涵蓋計(jì)算機(jī)視覺、機(jī)器人技術(shù)和自然語言處理等領(lǐng)域,以及不涉及機(jī)器學(xué)習(xí)的約束滿足等方法。不妨把它看成是使機(jī)器變得智能的一切東西。這些都不是那種一般人所害怕的通用“人工智能”——可以與人競爭甚至攻擊人類的東西。
留意這些流行語并做到準(zhǔn)確無誤。機(jī)器學(xué)習(xí)是關(guān)于學(xué)習(xí)模式和預(yù)測大數(shù)據(jù)集的結(jié)果;結(jié)果可能看起來很“智能”,但其本質(zhì)事關(guān)以前所未有的速度和規(guī)模應(yīng)用統(tǒng)計(jì)數(shù)據(jù)。
迷思:是數(shù)據(jù)就有用
機(jī)器學(xué)習(xí)需要數(shù)據(jù),但并非所有的數(shù)據(jù)都可用于機(jī)器學(xué)習(xí)。為了訓(xùn)練你的系統(tǒng),你需要有代表性的數(shù)據(jù),以涵蓋機(jī)器學(xué)習(xí)系統(tǒng)需要處理的模式和結(jié)果。你需要不含與模式不相關(guān)的數(shù)據(jù)(例如顯示這些內(nèi)容的照片——所有站立的男士和所有坐著的女士,或者所有車輛都在車庫中,所有自行車都在泥濘的場地中),因?yàn)槟闼鶆?chuàng)建的機(jī)器學(xué)習(xí)模型將反映那些過于具體的模式,并在你使用的數(shù)據(jù)中查找它們。所有用于訓(xùn)練的數(shù)據(jù)都需要注上正確的標(biāo)記,并注上上與你要問機(jī)器學(xué)習(xí)系統(tǒng)的問題相匹配的功能,這需要做很多工作。
不要以為你已經(jīng)擁有的數(shù)據(jù)是干凈,清晰,有代表性或易于標(biāo)注的。
迷思:你總是需要很多數(shù)據(jù)
最近在圖像識別、機(jī)器閱讀理解、語言翻譯和其它領(lǐng)域取得的主要進(jìn)展已經(jīng)發(fā)生了,因?yàn)橛辛烁玫墓ぞ撸梢圆⑿刑幚泶罅繑?shù)據(jù)的GPU等計(jì)算硬件,以及大量已標(biāo)記的數(shù)據(jù)集,包括ImageNet和斯坦福問題回答數(shù)據(jù)集(Stanford Question Answering Dataset)。但是,由于有一種稱為遷移學(xué)習(xí)(transfer learning)的技巧,你并不總是需要大量數(shù)據(jù)才能在特定區(qū)域獲得良好結(jié)果。相反,你可以教機(jī)器學(xué)習(xí)系統(tǒng)如何使用一個大型數(shù)據(jù)集進(jìn)行學(xué)習(xí),然后將其遷移到屬于你自己的,更小的培訓(xùn)數(shù)據(jù)集的學(xué)習(xí)能力。這就是Salesforce和Microsoft Azure的自定義視覺API的工作原理:你只需要30到50張圖像即可顯示想要分類的內(nèi)容,以獲得良好結(jié)果。
遷移學(xué)習(xí)可讓你使用相對較少的數(shù)據(jù)為你自己的問題定制預(yù)先訓(xùn)練好的系統(tǒng)。
迷思:是人都能創(chuàng)建機(jī)器學(xué)習(xí)系統(tǒng)
市面上有很多用于機(jī)器學(xué)習(xí)的開源工具和框架,以及無數(shù)課程向你展示如何使用它們。但機(jī)器學(xué)習(xí)仍然是一項(xiàng)專門技術(shù);你要知道如何準(zhǔn)備數(shù)據(jù)并對其進(jìn)行分區(qū)以進(jìn)行訓(xùn)練和測試,你要知道如何選擇最佳算法以及使用何種啟發(fā)式算法,以及如何將其轉(zhuǎn)化為可靠的生產(chǎn)系統(tǒng)。你還要監(jiān)視系統(tǒng),以確保結(jié)果始終保持相關(guān)性;無論你的市場變革還是你的機(jī)器學(xué)習(xí)系統(tǒng)是否好得使你最終會遇到不同的客戶群,你需要繼續(xù)檢驗(yàn)該模型是否符合你的問題。
要徹底把機(jī)器學(xué)習(xí)弄明白是需要經(jīng)驗(yàn);如果你剛剛開始使用API,則可以使用API預(yù)先訓(xùn)練模型,在獲取或聘用數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)專業(yè)知識來構(gòu)建定制系統(tǒng)時,你可以從代碼中調(diào)用該模型。
迷思:數(shù)據(jù)中的所有模式都是有用的
哮喘患者,胸痛或心臟病患者以及任何期頤之年的人的肺炎的存活率遠(yuǎn)高于你的期望。實(shí)際上,好到只要有一個簡單的用來將入院程序自動化的機(jī)器學(xué)習(xí)系統(tǒng)就可以讓他們安然無恙地回家(一種基于規(guī)則的,和神經(jīng)網(wǎng)絡(luò)一樣受訓(xùn)于相同的數(shù)據(jù)的系統(tǒng)就能做到這個)。不幸的是,他們有如此高的存活率的原因是,他們總是立即入院,因?yàn)榉窝讓λ麄儊碚f非常危險(xiǎn)。
系統(tǒng)見證了數(shù)據(jù)中的有效的模式;這對于選擇讓誰入院來說并不是一種有用的模式(盡管它可以幫助保險(xiǎn)公司預(yù)測治療費(fèi)用)。更危險(xiǎn)的是,除非你已經(jīng)了解它們,否則你不會知道這些無用的反模式出現(xiàn)在你的數(shù)據(jù)集中。
在其它情況下,一個系統(tǒng)可以學(xué)習(xí)一種有效的模式(比如爭議頗多的面部識別系統(tǒng),它可以準(zhǔn)確地從自拍照中預(yù)測性取向),然而它沒有清晰明確的解釋,所以沒有用(在這種情況下,照片看起來似乎顯示了姿勢這樣的社交線索而不是天生的任何東西)。
“黑匣子”模型是高效的,但它沒有澄清他們到底學(xué)到了什么模式。像廣義加性模型(Generalized Additive Model)這樣的更透明,可理解的算法可以更清楚地了解模型的學(xué)習(xí)內(nèi)容,從而讓你決定它是否適用于部署。
迷思:強(qiáng)化學(xué)習(xí)隨時可以使用
幾乎所有當(dāng)今使用的機(jī)器學(xué)習(xí)系統(tǒng)都使用監(jiān)督學(xué)習(xí);在大多數(shù)情況下,他們接受了人類參與準(zhǔn)備的明確標(biāo)記的數(shù)據(jù)集的培訓(xùn)。管護(hù)這些數(shù)據(jù)集需要時間和精力,所以人們對非監(jiān)督形式的學(xué)習(xí),特別是強(qiáng)化學(xué)習(xí)(RL)有很大的興趣——在這里,艾真體(agent)通過試錯法學(xué)習(xí),通過與環(huán)境交互并因?yàn)檎_的行為而獲得獎勵。DeepMind的AlphaGo系統(tǒng)使用強(qiáng)化學(xué)習(xí)與監(jiān)督式學(xué)習(xí)一同戰(zhàn)勝了最高段位的圍棋選手,而由卡內(nèi)基梅隆大學(xué)的團(tuán)隊(duì)建立的系統(tǒng)Libratus使用強(qiáng)化學(xué)習(xí)和另外兩種人工智能技術(shù)在無限德州撲克擊敗了一部分世界上最好的撲克玩家(具有漫長而復(fù)雜的投注策略)。研究人員正在用機(jī)器學(xué)習(xí)對一切進(jìn)行強(qiáng)化試驗(yàn)——從機(jī)器人技術(shù)到安全軟件的測試。
強(qiáng)化學(xué)習(xí)在研究領(lǐng)域之外并不常見。谷歌使用DeepMind學(xué)習(xí)更高效地降低數(shù)據(jù)中心的溫度,從而節(jié)省數(shù)據(jù)中心的電力;微軟使用強(qiáng)化學(xué)習(xí)的一個特別版本,稱為上下文賭博機(jī)(contextual bandit),它為MSN.com的訪客定制個性化的新聞頭條。問題在于很少有現(xiàn)實(shí)環(huán)境有可輕易發(fā)現(xiàn)的獎勵和即時反饋,當(dāng)艾真體在發(fā)生任何事情之前采取多項(xiàng)行動時,分配獎勵就尤其棘手了。
迷思:機(jī)器學(xué)習(xí)沒有偏差
由于機(jī)器學(xué)習(xí)從數(shù)據(jù)中學(xué)習(xí),它將復(fù)制數(shù)據(jù)集中的任何偏差。搜尋首席執(zhí)行官的圖像可能會顯示白人男性首席執(zhí)行官的照片,因?yàn)橛懈嗟氖紫瘓?zhí)行官通常是白人男性。但事實(shí)證明,機(jī)器學(xué)習(xí)也會放大偏差。
經(jīng)常用于訓(xùn)練圖像識別系統(tǒng)的COCO數(shù)據(jù)集具有男性和女性的照片;但更多的女性是在廚房設(shè)備旁邊得到展示,更多的男性則和電腦鍵盤和鼠標(biāo)或網(wǎng)球拍和滑雪板一起得到展示。在COCO上訓(xùn)練系統(tǒng),它會比原始照片中的統(tǒng)計(jì)數(shù)據(jù)更強(qiáng)烈地把男性和計(jì)算機(jī)硬件聯(lián)系起來。
一個機(jī)器學(xué)習(xí)系統(tǒng)也可能給另一個機(jī)器增加偏差。訓(xùn)練這樣一個機(jī)器學(xué)習(xí)系統(tǒng)——它具有將單詞表征為向量的流行框架——來表示詞之間關(guān)系的向量,它將學(xué)習(xí)像“男人之于女人正如計(jì)算機(jī)程序員之于家庭主婦”或醫(yī)生之于護(hù)士正如老板之于前臺那樣的刻板印象。如果你使用這樣的系統(tǒng),這個系統(tǒng)把那些具有他和她這樣的代詞的語言(如英語)翻譯成具有中性代詞的語言(如芬蘭語或土耳其語),那么“他們是醫(yī)生”就會變成“他是醫(yī)生”,“他們是護(hù)士”變成“她是護(hù)士”。(譯注,最后一句話有點(diǎn)費(fèi)解,但是結(jié)合中文網(wǎng)絡(luò)用語中誕生的新代詞TA就不難理解了,因?yàn)椴淮_定被指稱的人的性別,所以寫作TA,而不是他或她,相當(dāng)于英語的he or she,而有些語言中則用復(fù)數(shù)形式表示中性性別,如they表示he or she,這里可以理解為they=TA,把這個中文新詞套進(jìn)去就不難理解了)
在購物網(wǎng)站上獲得類似的建議是有用的,但在涉及敏感領(lǐng)域時會產(chǎn)生問題,并且會產(chǎn)生反饋回路;如果你加入反對疫苗接種的臉書群,臉書的推薦引擎將建議其它關(guān)注陰謀論或者認(rèn)為地球平的群。
了解機(jī)器學(xué)習(xí)中的偏差問題是很重要的。如果你無法消除訓(xùn)練數(shù)據(jù)集中的偏差,請使用規(guī)則化詞對之間的性別關(guān)聯(lián)等技術(shù)來減少偏差或?qū)⒉幌嚓P(guān)的項(xiàng)目添加到建議中以避免“過濾氣泡(filter bubble)”。
迷思:機(jī)器學(xué)習(xí)只用于做好事
機(jī)器學(xué)習(xí)為防病毒工具提供了強(qiáng)大的功能,并著眼于全新攻擊的行為,以便一出現(xiàn)就能發(fā)現(xiàn)它們。但同樣地,黑客也正在使用機(jī)器學(xué)習(xí)來研究防病毒工具的防御措施,并通過分析大量公共數(shù)據(jù)或分析以前的網(wǎng)絡(luò)釣魚嘗試的成功來大規(guī)模地制作有針對性的網(wǎng)絡(luò)釣魚攻擊。
迷思:機(jī)器學(xué)習(xí)會取代人
人們常常擔(dān)心人工智能會搶走他們的飯碗,它肯定會改變我們所從事的工作以及我們的做事方式;機(jī)器學(xué)習(xí)系統(tǒng)可以改善了效率和合規(guī)性并降低了成本。從長遠(yuǎn)來看,它將在業(yè)務(wù)中創(chuàng)造新的角色,并使一些當(dāng)前職位顯得過時。但是機(jī)器學(xué)習(xí)所自動化的很多任務(wù)在以前根本就不可能做到,要么歸咎于復(fù)雜性,要么歸咎于為規(guī)模,例如,你無法聘請足夠多的人來查看發(fā)布到社交媒體上的每張照片,以查看它是否具有你的品牌特征。
機(jī)器學(xué)習(xí)已經(jīng)開始做的事情是創(chuàng)造新的商機(jī),例如通過預(yù)測性維護(hù)改善客戶體驗(yàn),并向業(yè)務(wù)決策者提供建議和支持。和前幾代自動化一樣,機(jī)器學(xué)習(xí)可以把員工解放出來,使他們可以盡情地應(yīng)用自己的專業(yè)知識和創(chuàng)造力。
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。