在 “麥肯錫播客”,麥肯錫全球研究院的合作伙伴Michael Chui、麥肯錫全球研究院的總裁兼主管James Manyika與麥肯錫出版社的David Schwartz一起談?wù)摿巳斯ぶ悄艿那把亍?/div>
David Schwartz:你好,歡迎來(lái)到麥肯錫播客。我是麥肯錫出版社的David Schwartz。今天,我們將前往人工智能的前沿。我們將討論人工智能對(duì)多個(gè)行業(yè)和職能的影響。我們還將探討妨礙人工智能發(fā)展的局限性,至少是眼下的局限。
我和兩位思想前沿的麥肯錫領(lǐng)導(dǎo)者一起參加了談話,Michael Chui來(lái)自舊金山,是麥肯錫全球研究院的合作伙伴,還有麥肯錫全球研究院董事長(zhǎng)兼我們舊金山辦事處的高級(jí)合伙人James Manyika。Michael,James,歡迎你們。
James Manyika:承蒙邀請(qǐng)。
Michael Chui:很高興來(lái)到這里。
David Schwartz:Michael,人工智能的最大潛力在哪里?
Michael Chui:我們所知道的第一件事就是廣泛適用性。也就是說(shuō),就這些技術(shù)的采用而言我們?nèi)蕴幵谠缙冢赃€有很長(zhǎng)的路要走。我們發(fā)現(xiàn)的另一件事情是,考慮人工智能潛力的一種方式就是跟著錢走。
如果貴公司是一家由營(yíng)銷和銷售推動(dòng)價(jià)值的公司,那么這實(shí)際上就是人工智能可以創(chuàng)造最大的價(jià)值的地方。如果貴公司是一家卓越運(yùn)營(yíng)(operational excellence)對(duì)你來(lái)說(shuō)最重要的公司,那么你可以通過(guò)人工智能創(chuàng)造最大價(jià)值。如果貴公司是一家保險(xiǎn)公司,或者是一家銀行,那么風(fēng)險(xiǎn)對(duì)你來(lái)說(shuō)非常重要,那是人工智能可以增加價(jià)值的另一個(gè)地方。它貫穿于人力資本管理、分析人員績(jī)效和招聘等各個(gè)方面,貫穿整個(gè)業(yè)務(wù)系統(tǒng)。我們已經(jīng)意識(shí)到整個(gè)經(jīng)濟(jì)體每年創(chuàng)造數(shù)萬(wàn)億美元價(jià)值的潛力。
David Schwartz:嗯,看來(lái)肯定還有很多潛力和價(jià)值尚待挖掘。James,你能從另一個(gè)角度來(lái)看待這個(gè)問(wèn)題嗎?如今人工智能的主要局限是什么?這對(duì)業(yè)務(wù)領(lǐng)導(dǎo)者來(lái)說(shuō)意味著什么?
James Manyika:當(dāng)我們想到人工智能的局限時(shí),我們要牢記,人工智能仍然是一系列發(fā)展非常迅速的技術(shù),因此這門科學(xué)和技術(shù)本身仍在經(jīng)歷發(fā)展。
當(dāng)你想起這些局限時(shí),我會(huì)從幾個(gè)方面來(lái)考慮。有些限制純粹是技術(shù)性的。比如諸如此類的問(wèn)題——我們能真正解釋算法在做什么嗎?我們能解釋它為什么會(huì)做出它所預(yù)測(cè)的選擇嗎?然后,你也會(huì)碰到一堆實(shí)際的局限。比如諸如此類的問(wèn)題——數(shù)據(jù)真的可用嗎?它被標(biāo)記了嗎?我們稍后會(huì)對(duì)這些問(wèn)題做簡(jiǎn)單的介紹。
但我還要補(bǔ)充第三個(gè)局限。即你可能會(huì)稱之為使用限制的限制。這些限制是導(dǎo)致你提出這類問(wèn)題的原因:算法的透明度如何?數(shù)據(jù)中存在偏差嗎?收集數(shù)據(jù)的方式存在偏差嗎?
David Schwartz:Michael,讓我們深入探討第一個(gè)關(guān)鍵局限,即數(shù)據(jù)標(biāo)記。你能描述一下這里所涉及的挑戰(zhàn)和一些可能的進(jìn)路嗎?
Michael Chui:當(dāng)前的幾代人工智能還算得上新鮮的一些東西就是我們所說(shuō)的機(jī)器學(xué)習(xí)——從某種意義上來(lái)講,我們不僅僅在為計(jì)算機(jī)編程,還在訓(xùn)練他們;我們正在教它們東西。
我們訓(xùn)練機(jī)器學(xué)習(xí)的方法是給它們加上數(shù)據(jù)標(biāo)記。如果你正在嘗試教計(jì)算機(jī)識(shí)別圖像中的對(duì)象,或者你正在嘗試教你的計(jì)算機(jī)在一個(gè)表明某個(gè)機(jī)器即將崩潰的數(shù)據(jù)流中識(shí)別異常現(xiàn)象,那么你的做法就是擁有一堆標(biāo)記數(shù)據(jù)然后說(shuō):“看,在這類圖像中,對(duì)象存在。在那類圖像中,對(duì)象不存在。在這類數(shù)據(jù)流中,機(jī)器即將崩潰,而在那類數(shù)據(jù)流中,機(jī)器不會(huì)崩潰。”
我們有這樣的想法,機(jī)器會(huì)自我訓(xùn)練。實(shí)際上,我們已經(jīng)生成了大量要人工來(lái)完成的工作。以自動(dòng)駕駛汽車為例。這些汽車上裝有攝像頭,他們?cè)噲D做的其中一件事就是通過(guò)駕駛來(lái)收集大量數(shù)據(jù)。
結(jié)果是,有一大群人從這些數(shù)據(jù)中獲取視頻輸入,然后只是標(biāo)出其它車輛的位置——并且標(biāo)出車道的位置。因此,有趣的是,我們都在談?wù)撨@些人工智能系統(tǒng)如何將人們所做的事情自動(dòng)化。事實(shí)上,人工智能給人們帶來(lái)一大堆體力活兒。
James Manyika:我知道這么一個(gè)大型的公共博物館,在這個(gè)博物館里人們讓學(xué)生手工標(biāo)記藝術(shù)品——這是一只貓、那是一只狗、這是一棵樹(shù)、這是一個(gè)影子。他們標(biāo)記這些不同的藝術(shù)品,以便算法可以更好地理解這些藝術(shù)品并能夠做出預(yù)測(cè)。
這個(gè)故事更老的版本是這樣的,人們正在識(shí)別貓和狗。例如,在英國(guó)有一些團(tuán)隊(duì)要識(shí)別不同品種的狗,以便為狗標(biāo)記數(shù)據(jù)圖像,當(dāng)算法使用這些數(shù)據(jù)時(shí),算法就會(huì)知道這些數(shù)據(jù)是什么。在很多醫(yī)學(xué)應(yīng)用程序中也發(fā)生了同樣的事情,例如,人們一直在標(biāo)記不同類型的腫瘤,因此當(dāng)機(jī)器讀取這些圖像時(shí),機(jī)器可以更好地了解腫瘤的定義和類型。但這已經(jīng)驅(qū)使人們?yōu)檫@些不同的腫瘤貼上標(biāo)簽,然后使其對(duì)機(jī)器有用。
Michael Chui:醫(yī)學(xué)診斷就是一個(gè)很好的例子。因此,對(duì)于擁有一個(gè)觀察X光照片并確定人們是否患有肺炎的這樣一個(gè)想法來(lái)說(shuō),你需要數(shù)據(jù)來(lái)判斷該X光照片是否與患有肺炎或沒(méi)有肺炎的人有關(guān)。收集這些數(shù)據(jù)是非常重要的事情,但對(duì)數(shù)據(jù)進(jìn)行標(biāo)記絕對(duì)是必要的。
David Schwartz:我們不妨來(lái)談?wù)勅绾谓鉀Q這個(gè)問(wèn)題。我知道在監(jiān)督學(xué)習(xí)(supervised learning)中有兩個(gè)我們耳熟能詳?shù)募夹g(shù)。一個(gè)是強(qiáng)化學(xué)習(xí)(reinforcement learning),另一個(gè)是GAN(generative adversarial network,生成對(duì)抗性網(wǎng)絡(luò))。你能談?wù)勥@些技術(shù)嗎?
Michael Chui:很多這類技術(shù)的大致目的是創(chuàng)建更多示例,讓你可以教機(jī)器東西或讓它學(xué)習(xí)。
人們已經(jīng)用強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練機(jī)器人,從某種意義上說(shuō),如果機(jī)器人做了你想讓它做的事情,你會(huì)為此而獎(jiǎng)勵(lì)機(jī)器人。如果它做了你不希望它做的事情,你就對(duì)它進(jìn)行負(fù)強(qiáng)化(negative reinforcement)。在這種情況下,你所擁有的是一個(gè)能說(shuō)明你做了好事還是壞事的功能,而不是擁有一系列標(biāo)記數(shù)據(jù)。這是繞過(guò)標(biāo)記數(shù)據(jù)(label data)的一種方法——擁有一個(gè)能告訴你是否做了正確的事情的功能。
有了GAN(全稱生成對(duì)抗網(wǎng)絡(luò)),你大體上有兩個(gè)網(wǎng)絡(luò),一個(gè)試圖生成正確的東西;另一個(gè)試圖區(qū)分你是否正在生成正確的東西。同樣,這是另一個(gè)解決大量標(biāo)簽數(shù)據(jù)的潛在局限的方法,即你有兩個(gè)系統(tǒng)以對(duì)抗的方式相互競(jìng)爭(zhēng)。人們用它來(lái)做各種各樣的事情。生成——它的“G”部分(Generative)——是非同凡響的。你可以用其他藝術(shù)家的風(fēng)格制作藝術(shù)品。你可以按照你觀察到的其它東西的風(fēng)格生成架構(gòu)。你可以生成與之前可能觀察到的其它東西相似的設(shè)計(jì)。
James Manyika:關(guān)于生成對(duì)抗網(wǎng)絡(luò),我要補(bǔ)充的一點(diǎn)是,它們?cè)诤芏喾矫婵磥?lái)是一種半監(jiān)督學(xué)習(xí)技術(shù)(semisupervised learning technique),因?yàn)樗鼈兺ǔ囊恍┏跏紭?biāo)簽開(kāi)始,然后以一種生成的方式把初始標(biāo)簽作為基礎(chǔ)——在這種對(duì)抗中,這有點(diǎn)像比賽方式。
人們正在嘗試很多其它技術(shù)。例如,微軟研究實(shí)驗(yàn)室的研究人員一直致力于輸入流標(biāo)記(instream labeling),在這里,你實(shí)際上可以通過(guò)使用來(lái)標(biāo)記數(shù)據(jù)。你試圖根據(jù)數(shù)據(jù)的使用方式、實(shí)際含義來(lái)解釋。這種輸入流標(biāo)記的點(diǎn)子已經(jīng)存在了很長(zhǎng)一段時(shí)間,但近年來(lái),它已經(jīng)初見(jiàn)成效了。標(biāo)記問(wèn)題會(huì)在很長(zhǎng)的一段時(shí)間里與我們共存。
David Schwartz:當(dāng)沒(méi)有足夠數(shù)據(jù)時(shí)會(huì)有什么樣的局限?
Michael Chui:我們從機(jī)器學(xué)習(xí)和人工智能領(lǐng)導(dǎo)者之一Andrew Ng那里得到的消息是,認(rèn)真對(duì)待人工智能的公司和組織正在玩這些已存在多年的游戲,以獲取他們所需的數(shù)據(jù)。
在物理世界中,無(wú)論你是在研究自動(dòng)駕駛汽車還是無(wú)人機(jī),你都需要時(shí)間開(kāi)車去熟悉一大堆街道或放飛一大堆東西。為了提高你學(xué)習(xí)其中一些東西的速度,你可以做的一件事就是模擬環(huán)境。通過(guò)創(chuàng)建這些虛擬環(huán)境——基本上在數(shù)據(jù)中心和計(jì)算機(jī)內(nèi)——你可以進(jìn)行更多的試驗(yàn),并通過(guò)模擬學(xué)習(xí)更多的東西。所以,當(dāng)你真正進(jìn)入物理世界的時(shí)候,你進(jìn)入了一個(gè)人工智能已經(jīng)在模擬中學(xué)到了很多東西的物理世界。
James Manyika:一個(gè)很好的例子就是一些示范,例如,DeepMind Technologies的團(tuán)隊(duì)已經(jīng)做過(guò)的示范。該團(tuán)隊(duì)在機(jī)器手臂遠(yuǎn)未應(yīng)用到現(xiàn)實(shí)世界之前就為機(jī)器手臂進(jìn)行了大量的模擬訓(xùn)練,在這些訓(xùn)練中,這些機(jī)器手臂能夠開(kāi)發(fā)和學(xué)習(xí)的大部分操作技術(shù)實(shí)際上都來(lái)自模擬的結(jié)果。當(dāng)這樣的技術(shù)出現(xiàn)在現(xiàn)實(shí)世界中時(shí),它具備這些預(yù)先學(xué)習(xí)的數(shù)據(jù)集,這些數(shù)據(jù)集來(lái)自模擬,是一種繞過(guò)數(shù)據(jù)局限的方法。
David Schwartz:聽(tīng)起來(lái),我們可能正在考慮一個(gè)更深層次的問(wèn)題——機(jī)器智能究竟意味著什么。我們?nèi)绾尾拍軓臋C(jī)械的輸入(rote input)和固定的輸出過(guò)程轉(zhuǎn)變?yōu)楦先祟悓W(xué)習(xí)方式的方法?
James Manyika:你如何構(gòu)建可以學(xué)習(xí)任何東西的廣義系統(tǒng)(generalizable system)?這在某種程度上是人們夢(mèng)寐以求的,從某種意義上說(shuō),人類是非常了不起的,因?yàn)槲覀兛梢园言谶@里學(xué)到的東西都應(yīng)用到也許是頭一回看到的完全不同的問(wèn)題上。這催生了一個(gè)通常被稱為遷移學(xué)習(xí)(transfer learning)的巨大研究領(lǐng)域,即你如何從一個(gè)領(lǐng)域獲取模型、知識(shí)或洞察并將其應(yīng)用到另一個(gè)領(lǐng)域?雖然我們?cè)谶w移學(xué)習(xí)方面取得了進(jìn)展,但實(shí)際上這是更棘手的問(wèn)題之一。在那里,人們正在尋找新的技術(shù)。
在你生成數(shù)據(jù)集和模擬的地方模擬學(xué)習(xí)的這一想法是做這個(gè)的方法之一。AlphaGo更有趣的一個(gè)版本AlphaGo Zero已經(jīng)學(xué)會(huì)了玩三種不同的游戲,但它只有一個(gè)廣義的游戲結(jié)構(gòu)。AlphaGo Zero能夠通過(guò)這個(gè)游戲結(jié)構(gòu)學(xué)習(xí)國(guó)際象棋和具有廣義結(jié)構(gòu)的Go-by。但即使這樣也是有限的,因?yàn)樗匀痪窒抻诓扇∧撤N形式的游戲。
Michael Chui:在人工智能領(lǐng)域,我們正在對(duì)神經(jīng)學(xué)家早就知道的東西形成新的認(rèn)識(shí),即作為人,我們不是像一塊白板(tabula rasa)一樣降臨到這個(gè)世界的。實(shí)際上,我們的大腦中有很多結(jié)構(gòu)針對(duì)某些事物進(jìn)行了優(yōu)化,不管是理解語(yǔ)言還是行為、生理行為等等。Geoff Hinton等人正在使用膠囊(capsule)和其它類型的概念。將一些知識(shí)植入到我們正在使用的系統(tǒng)結(jié)構(gòu)的這種想法也是我們已經(jīng)見(jiàn)過(guò)的。所以,你想知道對(duì)于遷移學(xué)習(xí)來(lái)說(shuō),明白我們不是從零開(kāi)始,這是不是解決問(wèn)題的途徑之一。我們從已經(jīng)具有一些配置的系統(tǒng)開(kāi)始,這有助于我們將一些知識(shí)從一個(gè)地方帶到另一個(gè)地方,因?yàn)閷?shí)際上,我們天生就是做這個(gè)的料。
James Manyika:事實(shí)上,Steve Wozniak已經(jīng)提出了一些建議,這導(dǎo)致了各種各樣的問(wèn)題——什么才是恰當(dāng)?shù)膱D靈測(cè)試或者你能對(duì)廣義學(xué)習(xí)(generalized learning)想出什么樣的測(cè)試類型。他想出來(lái)的一個(gè)版本就是所謂的“咖啡測(cè)試(coffee test)”,也就是說(shuō),有朝一日我們可以獲得一個(gè)可以走進(jìn)一個(gè)陌生的美國(guó)家庭并制作一杯咖啡的系統(tǒng)。這十分引人注目,因?yàn)檫@要求人工智能可以解釋一個(gè)完全未知的環(huán)境,能夠在一個(gè)完全陌生的地方有所發(fā)現(xiàn),并能夠在特定家庭中使用不陌生的設(shè)備制作某些東西。
在一個(gè)陌生的家庭中制作一杯咖啡的過(guò)程需要解決很多一般問(wèn)題,與解決我們認(rèn)為引人入勝的十分狹義的,高度技術(shù)性的特定問(wèn)題相比,這聽(tīng)起來(lái)也許微不足道。我們?cè)絹?lái)越希望解決通常被泛化為普通的、現(xiàn)實(shí)世界的問(wèn)題(坦率地說(shuō)),那些問(wèn)題實(shí)際上可能是測(cè)試我們是否有廣義系統(tǒng)的真正考驗(yàn)。
順便說(shuō)一句,記住這點(diǎn)很重要——當(dāng)我們考慮人工智能和機(jī)器學(xué)習(xí)中所有振奮人心的東西時(shí),絕大多數(shù)東西(無(wú)論是技術(shù)還是應(yīng)用程序)主要是解決非常具體的事情。這些東西正在解決自然語(yǔ)言處理問(wèn)題、圖像識(shí)別和非常非常具體的事情。人工智能可以做好多這樣的事情,而解決更廣義的問(wèn)題的工作(雖然正在取得進(jìn)展)卻進(jìn)展得特別緩慢。我們不應(yīng)該混淆我們?cè)谶@些狹義的,更具體的問(wèn)題集上所取得的進(jìn)展,因此,我們已經(jīng)創(chuàng)建了一個(gè)廣義系統(tǒng)。
還有另一個(gè)我們應(yīng)該討論的局限,David——由于各種原因,這是一個(gè)重大的局限。這就是“可解釋性(explainability)”的問(wèn)題。從本質(zhì)上講,神經(jīng)網(wǎng)絡(luò)在結(jié)構(gòu)上是這樣的,以至于很難確定某個(gè)特定結(jié)構(gòu)為什么會(huì)成其為特定結(jié)構(gòu)以及某物究竟在它的結(jié)構(gòu)的什么地方導(dǎo)致了特定的結(jié)果。
David Schwartz:對(duì)。我聽(tīng)說(shuō)我們正在處理非常復(fù)雜的問(wèn)題。人們?cè)趺磸氐桌斫馐裁礀|西可能是黑匣子(或事實(shí)上就是一個(gè)黑匣子)?
James Manyika:這就是可解釋性問(wèn)題,即:我們是怎么知道的呢?你可以考慮我們?cè)诮鹑陬I(lǐng)域開(kāi)始應(yīng)用這些系統(tǒng)的地方——例如借貸。如果我們拒絕你的貸款申請(qǐng),你可能想知道原因。導(dǎo)致該決策的數(shù)據(jù)點(diǎn)或功能集是什么?如果你將一套系統(tǒng)應(yīng)用于刑事司法系統(tǒng),如果有人被保釋而其他人卻沒(méi)有,你可能想了解我們?yōu)槭裁吹贸隽诉@樣的結(jié)論。對(duì)于純粹的研究目的而言,這也可能是一個(gè)重要的問(wèn)題,在這種情況下,你試圖以一己之力發(fā)現(xiàn)特定的行為,因此你設(shè)法了解數(shù)據(jù)的哪個(gè)特定部分會(huì)導(dǎo)致一系列特定的行為。
從結(jié)構(gòu)的角度來(lái)說(shuō),這是一個(gè)非常難的問(wèn)題。然而,好消息是,我們開(kāi)始在這些事物上取得進(jìn)展。我們?nèi)〉眠M(jìn)展的方式之一是使用所謂的生成對(duì)抗網(wǎng)絡(luò)。這些是更廣泛的加性模型(more generalized, additive model),與同時(shí)采用大量模型相反,你幾乎可以一次采用一系列特征模型,并在此基礎(chǔ)上繼續(xù)構(gòu)建。
例如,當(dāng)你應(yīng)用神經(jīng)網(wǎng)絡(luò)時(shí),你正在探索一個(gè)特殊的特征,然后你在另一個(gè)特征上分層;因此,要是你愿意的話,你可以根據(jù)不同的特征模型的這種分層看到結(jié)果如何發(fā)生變化。你會(huì)看到,當(dāng)結(jié)果發(fā)生變化時(shí),哪些模型可能產(chǎn)生了最大的影響。這是開(kāi)始了解究竟是什么推動(dòng)了你正在得到的行為和結(jié)果的一個(gè)方法。
Michael Chui:可解釋性的另一個(gè)重要推動(dòng)因素是監(jiān)管和監(jiān)管機(jī)構(gòu)。如果汽車決定左轉(zhuǎn)而不是右轉(zhuǎn),并且有一些與此相關(guān)的責(zé)任,法律系統(tǒng)會(huì)問(wèn)一個(gè)問(wèn)題:“為什么汽車左轉(zhuǎn)或右轉(zhuǎn)?”在歐盟,有個(gè)叫《一般數(shù)據(jù)保護(hù)法規(guī)》(General Data Protection Regulation)的法規(guī),該法規(guī)對(duì)這些機(jī)器可能做出的決策要求具備可解釋性。機(jī)器是完全不可抗的。你可以說(shuō),“這里有一百萬(wàn)個(gè)與我們的模擬神經(jīng)元(simulated neuron)相關(guān)的權(quán)重,這就是為什么”。但這對(duì)人類來(lái)說(shuō)太無(wú)趣了。
另一個(gè)是首字母縮略為L(zhǎng)IME(locally interpretable model-agnostic explanations,局部可理解的與模型無(wú)關(guān)的解釋)的技術(shù)。這個(gè)想法就是從外到內(nèi)(而不是看模型的結(jié)構(gòu)),只能擾動(dòng)模型的某些部分和輸入,看看輸出是否會(huì)產(chǎn)生什么影響。如果你正在查看圖像并試圖識(shí)別某個(gè)對(duì)象是皮卡車還是普通轎車,你可能會(huì)說(shuō),“如果我在輸入中更改擋風(fēng)玻璃,我會(huì)得到不同的輸出嗎?另一方面,如果我更改車輛的尾部,這看起來(lái)就不一樣了。“這就是說(shuō),該技術(shù)在確定車輛是轎車還是皮卡時(shí)關(guān)注的是車輛的尾部。它基本上是在對(duì)模型進(jìn)行實(shí)驗(yàn),以發(fā)現(xiàn)是什么因素產(chǎn)生了影響。這是人們?cè)噲D用來(lái)解釋這些系統(tǒng)如何工作的一些技術(shù)。
David Schwartz:在某種程度上,我從一些問(wèn)題或可能的回答中得知一個(gè)非常人性化的因素。這個(gè)問(wèn)題就是:為什么答案是如此這般?答案可能是算法使然。但有人創(chuàng)建了這種算法,或某人——或一群這樣的人——以及創(chuàng)建該算法的機(jī)器。這給我們帶來(lái)了與眾不同的局限:偏差(人類偏好)。James,你能進(jìn)一步談?wù)勎覀兯媾R的挑戰(zhàn)嗎?
James Manyika:偏差問(wèn)題非常重要。我將它分為兩個(gè)部分。
顯然,這些算法在某些方面是對(duì)人類偏見(jiàn)的重大改善。這是偏差對(duì)話積極的一面。我們知道,例如,有時(shí)候,當(dāng)人們?cè)诼臍v上解釋數(shù)據(jù)時(shí),因?yàn)樗麄冇懈鞣N偏好,他們可能會(huì)傾向于一些屬性而忽略另一些屬性。事實(shí)上,與人類的偏見(jiàn)相比,這些算法的應(yīng)用實(shí)際上是一項(xiàng)重大改進(jìn)。從這個(gè)意義上說(shuō),這是一件好事。我們想要那樣的好處。
但我認(rèn)為談話的第二部分是值得展開(kāi)的,即使在我們應(yīng)用這些算法時(shí),我們確實(shí)知道它們是數(shù)據(jù)的產(chǎn)物和你輸入的內(nèi)容。如果你輸入的那些內(nèi)容本身就有一些固有的偏差,你可能會(huì)在更大規(guī)模上引入不同類型的偏差。
如果所收集的數(shù)據(jù)已經(jīng)存在偏差,那么Julia Angwin等人的工作實(shí)際上已經(jīng)證明了這一點(diǎn)。以警務(wù)為例,我們知道有些社區(qū)受到更嚴(yán)格的監(jiān)管。因此,我們獲得的數(shù)據(jù)以及就這些環(huán)境收集到的數(shù)據(jù)要多得多。如果我們對(duì)兩個(gè)社區(qū)進(jìn)行比較,一個(gè)社區(qū)被過(guò)度抽樣——這意味著該社區(qū)有大量的數(shù)據(jù),因?yàn)槟抢镉写笈?mdash;—而另一個(gè)社區(qū)沒(méi)有多少警察,因此沒(méi)有多少可用的數(shù)據(jù),我們可能會(huì)僅僅因?yàn)閮蓚€(gè)社區(qū)可用數(shù)據(jù)的對(duì)比而對(duì)所觀測(cè)的環(huán)境下錯(cuò)誤的結(jié)論。
偏差可以另辟蹊徑。例如,在貸款的例子里,影響可能會(huì)相反。對(duì)于這樣的人口或細(xì)分群體——我們有大量關(guān)于他們的經(jīng)濟(jì)數(shù)據(jù),我們實(shí)際上有可能做出正確的決策,因?yàn)閿?shù)據(jù)基本上是可用的,而在另一個(gè)環(huán)境里,我們談?wù)摰氖且徊糠治覀儾惶私獾娜丝?,我們所知道一點(diǎn)皮毛都以一種方式將決策發(fā)送出去。因此,這是欠采樣(undersampling)產(chǎn)生偏差的另一個(gè)例子。
關(guān)于第二部分的要點(diǎn)是,我認(rèn)為這很重要——確保我們充分考慮數(shù)據(jù)本身可能存在的固有偏差是什么,這可能就在數(shù)據(jù)集本身(無(wú)論是數(shù)據(jù)集實(shí)際被構(gòu)建的方式,甚至是它的收集方式,或者是數(shù)據(jù)集的采樣程度和粒度)。我們能以某種基本的方式方法去除偏差嗎?
這就是為什么偏差問(wèn)題對(duì)領(lǐng)導(dǎo)者來(lái)說(shuō)特別重要,因這個(gè)問(wèn)題使公司要面對(duì)各種可能的訴訟和社會(huì)問(wèn)題的風(fēng)險(xiǎn),特別是當(dāng)你以具有社會(huì)影響的方式使用這些算法時(shí)。借貸再次成為一個(gè)很好的例子。刑事司法是另一個(gè)例子。醫(yī)療提供了另一個(gè)例子。這些例子成了考慮這些偏差問(wèn)題非常重要的場(chǎng)地。
Michael Chui:數(shù)據(jù)存在偏差的一系列棘手案例的主要因素并不是人們對(duì)非此即彼的選擇的固有偏見(jiàn)(至少在第一種情況下不是這樣)。在很多情況下,這是因?yàn)椴蓸?mdash;—采樣偏差,數(shù)據(jù)收集偏差等等的這些想法——這也不一定和無(wú)意識(shí)的人類偏見(jiàn)有關(guān),而和數(shù)據(jù)來(lái)源的人為因素有關(guān)。
有一個(gè)非常著名但與人工智能關(guān)系不大的案例——美國(guó)城市在智能手機(jī)出現(xiàn)的早期使用了一個(gè)應(yīng)用程序,這個(gè)應(yīng)用程序能在你開(kāi)車經(jīng)過(guò)坑洞時(shí)根據(jù)加速度計(jì)的搖晃來(lái)確定坑洞的位置。奇怪的是,該應(yīng)用程序發(fā)現(xiàn),如果你查看一下數(shù)據(jù)就會(huì)發(fā)現(xiàn)這個(gè)城市的富裕地區(qū)似乎有更多的坑洞。這與城市的這個(gè)地方有更多的坑洼這件事情實(shí)際上沒(méi)有任何關(guān)系,而是你恰好從城市的那個(gè)地方獲得了更多的信息,因?yàn)楫?dāng)時(shí)更富裕的人群智能手機(jī)普及率更高。這就是并非因?yàn)槿藗兇嫘牟蛔⒁獬鞘械哪承┎糠值钠渲幸粋€(gè)案例。了解數(shù)據(jù)的基礎(chǔ)——理解正在采樣的內(nèi)容——非常重要。
還有另一位來(lái)自麻省理工學(xué)院媒體實(shí)驗(yàn)室的研究人員Joy Buolamwini,她做過(guò)一個(gè)著名的TED演講,她在面部識(shí)別方面做了大量的工作,而且她是一名黑人女性。她說(shuō),“看,很多其他的研究人員都比我更具男性特征,比我更白。因此,面部識(shí)別中某些人群的準(zhǔn)確率遠(yuǎn)遠(yuǎn)高于我”。所以,這并不一定是因?yàn)槿藗冊(cè)噲D將一些人口排除在外,盡管有時(shí)會(huì)發(fā)生這種情況,這實(shí)際上與理解你正在使用的用于訓(xùn)練系統(tǒng)的樣本的代表性有關(guān)。
因此,作為業(yè)務(wù)領(lǐng)袖,你要了解,如果你要訓(xùn)練機(jī)器學(xué)習(xí)系統(tǒng):你正在使用的訓(xùn)練集有多大代表性?
James Manyika:這實(shí)際上創(chuàng)造了一種有趣的張力。這就是我描述第一部分和第二部分的原因。因?yàn)樵诘谝粋€(gè)例子中,當(dāng)你考察第一部分的問(wèn)題,即正常的日常招聘和類似決策中固有的人類偏見(jiàn)時(shí),你會(huì)對(duì)使用人工智能技術(shù)感到非常興奮。你說(shuō),“哇,我們頭一回有辦法在日常決策中克服這些人類偏差”。但與此同時(shí),我們應(yīng)該特別關(guān)注,在你開(kāi)始觸及第二部分的這些問(wèn)題時(shí)我們?nèi)〉昧耸裁唇Y(jié)果,在這些結(jié)果里,你正在使用具有固有偏差的大型數(shù)據(jù)集。
我認(rèn)為人們忘記了人工智能機(jī)器深度學(xué)習(xí)領(lǐng)域中的一個(gè)問(wèn)題,那就是很多研究人員使用的多半是相同的共享數(shù)據(jù)集——這些數(shù)據(jù)集是公開(kāi)的。除非你恰好是擁有大型專有數(shù)據(jù)集的公司,否則人們只能使用這種著名的CIFAR數(shù)據(jù)集,該數(shù)據(jù)集通常用于對(duì)象識(shí)別。它是公開(kāi)場(chǎng)合可以使用的。大多數(shù)人根據(jù)這些可用的數(shù)據(jù)集對(duì)圖像識(shí)別的性能進(jìn)行基準(zhǔn)測(cè)試。因此,如果每個(gè)人都使用可能具有這些固有偏差的通用數(shù)據(jù)集,那么我們有點(diǎn)像大規(guī)模復(fù)制偏差。充分考慮第一部分和第二部分之間的這種張力和這個(gè)偏差問(wèn)題是非常重要。然而,好消息是,在過(guò)去幾年中,人們對(duì)我們剛剛描述的問(wèn)題有了越來(lái)越多的認(rèn)識(shí)。而且我認(rèn)為現(xiàn)在有很多地方正在努力對(duì)如何看待偏差的問(wèn)題進(jìn)行真正的研究。
David Schwartz:鑒于我們今天廣泛的應(yīng)用,局限以及我們面對(duì)的各種挑戰(zhàn)的討論,人工智能的最佳實(shí)踐是什么?
Michael Chui:現(xiàn)在為時(shí)尚早,所以談?wù)撟罴褜?shí)踐難免蜻蜓點(diǎn)水。我想借用曾經(jīng)從Gary Hamel那里聽(tīng)來(lái)的一句話:從某種意義上說(shuō),我們可能會(huì)談?wù)撓乱徊降淖龇āR簿褪钦f(shuō),我們從作為開(kāi)拓者和先鋒的領(lǐng)導(dǎo)者那里看到了一些東西。
第一件東西就是我們所說(shuō)的“調(diào)整(get calibrated)”,但實(shí)際上這只是開(kāi)始理解技術(shù)和可能性。對(duì)于我們今天談到的一些東西,過(guò)去幾年的業(yè)務(wù)領(lǐng)導(dǎo)者必須要對(duì)技術(shù)有更多的了解。這真的是最前沿的東西。因此,真的要設(shè)法了解技術(shù)的潛力。
然后,設(shè)法了解整個(gè)業(yè)務(wù)的潛在影響。正如我們所說(shuō),這些技術(shù)廣泛適用。因此,了解你的業(yè)務(wù)在哪里獲得價(jià)值,以及如何幫你獲得價(jià)值,無(wú)論是營(yíng)銷、銷售、供應(yīng)鏈、制造業(yè)、人力資本還是風(fēng)險(xiǎn)。