2015 年,一位憂心忡忡的父親問(wèn)了衛(wèi)生經(jīng)濟(jì)學(xué)家 Rhema Vaithianathan 一個(gè)至今仍在她腦海中揮之不去的問(wèn)題。
那天,一小群人聚集在賓夕法尼亞州匹茲堡市的一間地下室里,聽(tīng) Rhema Vaithianathan 解釋軟件如何能夠解決虐待兒童的問(wèn)題。每天,該地區(qū)的熱線電話都會(huì)接到幾十個(gè)懷疑附近有孩子處于危險(xiǎn)之中的來(lái)電;其中一些來(lái)電會(huì)被呼叫中心的工作人員標(biāo)記以便調(diào)查。但是這個(gè)系統(tǒng)并不能掌握所有的虐童案件。Vaithianathan 和她的同事們剛剛簽訂了一份價(jià)值 50 萬(wàn)美元的合同,該合同要求他們開(kāi)發(fā)出能夠幫助解決該問(wèn)題的算法。
衛(wèi)生經(jīng)濟(jì)學(xué)家 Vaithianathan 是新西蘭奧克蘭理工大學(xué)社會(huì)數(shù)據(jù)分析中心的聯(lián)合主任,他用下面的例子告訴人們這個(gè)算法是如何工作的:例如,一個(gè)使用大量數(shù)據(jù)(包括家庭背景和犯罪記錄)訓(xùn)練得到的工具,可以在接到電話時(shí)生成風(fēng)險(xiǎn)評(píng)分。 這可能有助于通知審核員標(biāo)記出需要調(diào)查的家庭。
當(dāng) Vaithianathan 邀請(qǐng)聽(tīng)眾提問(wèn)后,那位(前面提到的)憂心忡忡的父親站起來(lái)發(fā)言。 他說(shuō),他曾經(jīng)染上了毒癮,并與毒癮做過(guò)艱難的斗爭(zhēng)。社工曾因此將他的孩子從家中帶走。 但目前,他已經(jīng)戒毒成功一段時(shí)間了。在電腦評(píng)估他的記錄的時(shí)候,他為改變自己的生活所做的這些努力難道就毫無(wú)意義嗎?換句話說(shuō):算法對(duì)他的評(píng)價(jià)是否不公平?
我們能打開(kāi)人工智能的黑盒嗎?
Vaithianathan 向這位父親保證,人們總是會(huì)改過(guò)自新的,他的努力不會(huì)被忽視。但是時(shí)至今日,即使這種自動(dòng)化評(píng)估工具已經(jīng)部署完畢,Vaithianathan 仍然在思考這位父親的問(wèn)題。計(jì)算機(jī)的計(jì)算結(jié)果正越來(lái)越多地被用于控制那些可能改變?nèi)艘簧臎Q定,包括應(yīng)該拘留哪些被指控犯罪的被告、調(diào)查哪些可能存在虐待兒童現(xiàn)象的家庭,以及近來(lái)的「預(yù)測(cè)性警務(wù)」的趨勢(shì)(社區(qū)警察應(yīng)該關(guān)注哪些問(wèn)題)。這些工具有望使決策更加一致、準(zhǔn)確和嚴(yán)謹(jǐn)。 但是對(duì)這一系統(tǒng)的監(jiān)管是有限的:沒(méi)人知道有多少這樣的系統(tǒng)正在被使用。這些算法的不公平性正在引起警惕。例如,2016 年,美國(guó)記者辯稱,用于評(píng)估未來(lái)的犯罪活動(dòng)風(fēng)險(xiǎn)的系統(tǒng)會(huì)歧視黑人被告。
紐約大學(xué)研究人工智能的社會(huì)影響的研究中心「AI Now」研究院的聯(lián)合創(chuàng)始人 Kate Crawford 表示:「我最擔(dān)心的是,我們提出的系統(tǒng)本應(yīng)改善問(wèn)題,但最終卻可能使問(wèn)題惡化」。
在 Crawford 和其他人提出警告時(shí),政府正試圖使軟件更具公信力。去年 12 月,紐約市議會(huì)通過(guò)了一項(xiàng)法案,他們成立了一個(gè)特別工作組,用于提出公開(kāi)分享關(guān)于算法信息的方案的建議,并調(diào)查它們是否存在偏見(jiàn)。今年,法國(guó)總統(tǒng) Emmanuel Macron 表示,法國(guó)將公開(kāi)政府使用的所有算法。在本月發(fā)布的指導(dǎo)意見(jiàn)中,英國(guó)政府呼吁那些在公共部門(mén)從事數(shù)據(jù)工作的人要公開(kāi)透明,并負(fù)起責(zé)任。于五月底生效的歐洲通用數(shù)據(jù)保護(hù)條例(GDPR),也將促進(jìn)算法問(wèn)責(zé)制。
Rhema Vaithianathan 構(gòu)建算法來(lái)幫助標(biāo)記出潛在的兒童虐待案件
在這樣的活動(dòng)中,科學(xué)家們面臨著一個(gè)復(fù)雜的問(wèn)題:使算法公平究竟指的是什么? Vaithianathan 等為公共機(jī)構(gòu)工作的研究人員,試圖開(kāi)發(fā)出負(fù)責(zé)任的、有效的軟件。他們必須努力解決自動(dòng)化工具可能引入偏見(jiàn)或加深現(xiàn)有的不平等現(xiàn)象的問(wèn)題,尤其是如果這些工具正被嵌入到一個(gè)本已具有一定歧視性的社會(huì)體系中時(shí)。
「有一個(gè)相當(dāng)活躍的研究團(tuán)體,他們正試圖開(kāi)發(fā)從外部審核評(píng)估這類系統(tǒng)的方法」。
鹽湖城猶他大學(xué)的理論計(jì)算機(jī)科學(xué)家 Suresh Venkatasubramanian 指出,自動(dòng)化決策工具所引出的公平性問(wèn)題并不是一個(gè)全新的問(wèn)題,人們使用評(píng)估犯罪或信用風(fēng)險(xiǎn)的精算工具已經(jīng)有幾十年的歷史。隨著大型數(shù)據(jù)集和更復(fù)雜模型的普及,人們?cè)絹?lái)越難以忽視它們?cè)趥惱矸矫娴挠绊憽!赣?jì)算機(jī)科學(xué)家別無(wú)選擇,我們必須開(kāi)始進(jìn)行這方面的研究。我們?cè)僖膊荒芎鲆曀惴ǖ墓叫裕纯催@樣會(huì)發(fā)生什么」。
公平性的折中
2014 年,匹茲堡所在的 Allegheny 郡人類服務(wù)部門(mén)的官員打電話征求關(guān)于自動(dòng)化工具的建議時(shí),他們還沒(méi)有決定如何使用它。但是他們知道自己應(yīng)該對(duì)新系統(tǒng)采取開(kāi)放的態(tài)度。該部門(mén)數(shù)據(jù)分析、研究和評(píng)估辦公室副主任 Erin Dalton 表示:「我極其反對(duì)把政府資金用于不能向社會(huì)說(shuō)明我們?cè)谧鍪裁吹暮谙浣鉀Q方案上」。該部門(mén)擁有一個(gè)建于 1999 年的中央數(shù)據(jù)倉(cāng)庫(kù),其中包含大量個(gè)人信息,包括住房、精神健康狀態(tài)和犯罪記錄。Dalton 說(shuō),Vaithianathan 的團(tuán)隊(duì)在關(guān)注兒童福利方面做出了巨大努力。
2016 年 8 月,Allegheny 家庭篩查工具(AFST)被推出。對(duì)于每個(gè)打進(jìn)熱線的電話,呼叫中心的員工都會(huì)看到由自動(dòng)風(fēng)險(xiǎn)評(píng)估系統(tǒng)生成的得分(1 至 20 分),其中 20 分對(duì)應(yīng)于被認(rèn)定為最高風(fēng)險(xiǎn)的個(gè)案。AFST 預(yù)計(jì)這些高得分家庭的孩子最有可能在兩年內(nèi)被從家中帶走,或者因?yàn)榇螂娫捳邞岩蛇@些孩子受到了虐待而再次被送到郡里(郡縣正在放棄第二種評(píng)價(jià)指標(biāo),該指標(biāo)似乎并不能準(zhǔn)確反映出需要進(jìn)一步調(diào)查的案件)。
位于加利福尼亞州的斯坦福大學(xué)的獨(dú)立研究員 Jeremy Goldhaber-Fiebert 仍然在評(píng)估這個(gè)工具。但 Dalton 說(shuō),初步的結(jié)果表明,該工具是有幫助的。她表示,采用該工具后,呼叫中心工作人員提交給調(diào)查人員的案件中似乎包含了更多有著合理的擔(dān)憂的實(shí)例。電話審核員似乎也會(huì)對(duì)類似的案件做出更加一致的決定。盡管如此,他們的決定并不一定與算法的風(fēng)險(xiǎn)評(píng)分相符;郡政府希望使兩者的結(jié)果更接近一致。
改革預(yù)測(cè)性警務(wù)
隨著 AFST 被部署,Dalton 希望得到更多幫助,以確定該系統(tǒng)是否可能存在偏見(jiàn)。2016 年,她找來(lái)匹茲堡卡內(nèi)基梅隆大學(xué)的統(tǒng)計(jì)學(xué)家 Alexandra Chouldchova,幫助她分析該軟件是否會(huì)歧視特定群體。Chouldchova 此前已經(jīng)在考慮算法中的偏見(jiàn)問(wèn)題,而且將參與到一個(gè)已經(jīng)引發(fā)了關(guān)于這個(gè)問(wèn)題的廣泛辯論的案件。
同年 5 月,新聞網(wǎng)站 ProPublica 的記者報(bào)道了 Broward County 法官使用的商業(yè)軟件,這些軟件有助于判定一個(gè)被指控犯罪的被告是否應(yīng)該在審判前被從監(jiān)獄中釋放出來(lái)。記者們說(shuō)這個(gè)軟件對(duì)黑人被告有偏見(jiàn)。這個(gè)被稱為 COMPAS 的工具可以生成一個(gè)得分,它被用來(lái)衡量一個(gè)人在兩年內(nèi)再次犯罪的可能性。
Propublica 團(tuán)隊(duì)調(diào)查了數(shù)千名被告的 COMPAS 得分,這些分?jǐn)?shù)是該團(tuán)隊(duì)通過(guò)公共記錄請(qǐng)求獲得的。通過(guò)比較黑人和白人被告,記者們發(fā)現(xiàn),「假正例」(被判斷為有罪,實(shí)際無(wú)罪)的黑人被告與白人被告的比例是嚴(yán)重失調(diào)的:黑人被 COMPAS 列為高風(fēng)險(xiǎn)人群,但實(shí)際上他們隨后卻沒(méi)有被指控罪行。
該算法的開(kāi)發(fā)者是一家總部位于密歇根州的名為 Northpointe (現(xiàn)在是俄亥俄州坎頓市的 Equivant)的公司,該公司認(rèn)為這個(gè)工具沒(méi)有偏見(jiàn)。他們說(shuō),COMPAS 還能夠很好地預(yù)測(cè)被歸類為高犯罪風(fēng)險(xiǎn)人群的白人或黑人被告是否會(huì)再次犯罪(這是一個(gè)「預(yù)測(cè)性平價(jià)」的例子)。Chouldechova 很快發(fā)現(xiàn),Northpointe 和 ProPublica 的公平度量是對(duì)立的。預(yù)測(cè)性平價(jià)、相等的假正例錯(cuò)誤率和相等的假負(fù)例錯(cuò)誤率都可以作為體現(xiàn)「公平」的方式,但是如果兩個(gè)群體之間存在差異——例如白人和黑人被再次逮捕的概率(參見(jiàn)后文「如何定義『公平』」章節(jié)) ,那么在統(tǒng)計(jì)學(xué)上,就不可能實(shí)現(xiàn)完全的公平。倫敦大學(xué)學(xué)院研究可靠性機(jī)器學(xué)習(xí)的研究員 Michael Veale 表示:「魚(yú)和熊掌不可兼得!如果你想在某一方面做到公平,那么在另一個(gè)聽(tīng)起來(lái)也很合理的情況下,你可能必然做不到公平」。
如何定義「公平」?
研究算法中的偏見(jiàn)的研究人員說(shuō),定義公平的方法有很多,但這些方法有時(shí)候是矛盾的。
我們不妨想象一下,在刑事司法系統(tǒng)中使用一種算法為兩組嫌疑人(用藍(lán)色和紫色表示)打分,從而衡量他們?cè)俅伪徊兜娘L(fēng)險(xiǎn)。歷史數(shù)據(jù)表明,紫色組被捕的概率更高,因此模型會(huì)將更多的紫色組的人歸類為高危人群(見(jiàn)下圖頂部)。即使模型開(kāi)發(fā)人員試圖不直接告訴模型一個(gè)人應(yīng)該被歸為藍(lán)色還是紫色,以避免產(chǎn)生偏見(jiàn),但這種情況也會(huì)發(fā)生。這是因?yàn)橛米饔?xùn)練輸入的其他數(shù)據(jù)可能與藍(lán)色或紫色相關(guān)。
盡管高風(fēng)險(xiǎn)狀態(tài)不能完美地預(yù)測(cè)該嫌疑人是否會(huì)再次被捕,但該算法的開(kāi)發(fā)者試圖使預(yù)測(cè)結(jié)果公平:對(duì)于這兩組人來(lái)說(shuō),「高風(fēng)險(xiǎn)」指的是有 2/3 的幾率在兩年內(nèi)再次被捕。(這種公平稱為預(yù)測(cè)性平價(jià)。)未來(lái)的逮捕率可能不會(huì)遵循過(guò)去的模式,但是在這個(gè)簡(jiǎn)單的例子中,假設(shè)它們確實(shí)如預(yù)期的那樣:藍(lán)色組的 3/10 和紫色組的 6/10(以及每組中 2/3 被標(biāo)記為高風(fēng)險(xiǎn)的人)確實(shí)被再次逮捕了(見(jiàn)下圖中底部的灰條)。
該算法滿足預(yù)測(cè)性平價(jià)(無(wú)論黑人和白人被告是否有相同的風(fēng)險(xiǎn)評(píng)分總體準(zhǔn)確率),但是仍然存在一個(gè)問(wèn)題。在藍(lán)色組中,7 人中有 1 人(14%)被誤認(rèn)為是高危人群,而在紫色組中,4 人中有 2 人(50%)被誤認(rèn)為高危人群。因此,紫色個(gè)體更有可能成為「假正例」——被誤認(rèn)為高風(fēng)險(xiǎn)。
只要藍(lán)色組和紫色組的成員再次被捕的概率不同,那么就很難實(shí)現(xiàn)預(yù)測(cè)性平價(jià)和相等的假正例率。從數(shù)學(xué)上來(lái)說(shuō),要做到這一點(diǎn)同時(shí)滿足第三項(xiàng)公平標(biāo)準(zhǔn)(除了預(yù)測(cè)性平價(jià)和相等的假正例率)是不可能的:相等的假負(fù)例率(被認(rèn)定為低風(fēng)險(xiǎn)但隨后又再次被捕的個(gè)體;在上面的例子中,紫色和藍(lán)色組的假負(fù)例率恰好相等,同為 33%)。
一些人認(rèn)為紫色組的假正例率更高體現(xiàn)出了算法的歧視性。但其他研究人員認(rèn)為,這并不一定是算法存在偏見(jiàn)的確鑿證據(jù)。這種不平衡還可能有一個(gè)更深層次的原因:紫色組可能一開(kāi)始就不公平地成為了逮捕的目標(biāo)。根據(jù)過(guò)去的數(shù)據(jù),該算法能夠準(zhǔn)確地預(yù)測(cè)更多的紫色組成員將被再次逮捕。因此,我們可以認(rèn)為該算法(甚至可以確定)有事先存在的社會(huì)偏見(jiàn)。
AI 科技評(píng)論注:更多關(guān)于統(tǒng)計(jì)悖論的信息,可以參見(jiàn)這個(gè)著名的統(tǒng)計(jì)學(xué)悖論,第一次聽(tīng)說(shuō)的人很可能懷疑人生一文。
事實(shí)上,從數(shù)學(xué)角度來(lái)說(shuō),還有更多的方式來(lái)定義公平:在今年 2 月的一次會(huì)議上,計(jì)算機(jī)科學(xué)家 Arvind Narayanan 發(fā)表了題為「21 個(gè)公平性的定義及其策略」的演講,他指出還有其它的定義方式。一些調(diào)查過(guò) ProPublica 的案例的研究人員,包括 Chouldchova,指出「不相等的錯(cuò)誤率是否表明算法存在偏見(jiàn)」尚不清楚。斯坦福大學(xué)的計(jì)算機(jī)科學(xué)家 Sharad Goel 說(shuō),他們反而反映了這樣一個(gè)事實(shí):即算法對(duì)一個(gè)群體比對(duì)另一個(gè)群體更難做出預(yù)測(cè)。「事實(shí)證明,這或多或少是一種統(tǒng)計(jì)學(xué)的假象」。
對(duì)于某些人來(lái)說(shuō),ProPublica 的案例凸顯了這樣一個(gè)事實(shí),即許多機(jī)構(gòu)缺乏資源來(lái)尋求并正確評(píng)估算法工具。芝加哥大學(xué)的數(shù)據(jù)科學(xué)與公共政策中心的主任 Rayid Ghani 表示:「如果有的話,這樣的情況告訴我們的是:雇傭 Northpointe 的政府機(jī)構(gòu)沒(méi)有給出明確的衡量算法公平性的定義。我認(rèn)為,各國(guó)政府需要學(xué)習(xí)并接受培訓(xùn),學(xué)習(xí)如何尋求這些系統(tǒng),如何定義算法應(yīng)該被衡量的指標(biāo),以及如何確保供應(yīng)商、咨詢師和研究人員提供的系統(tǒng)實(shí)際上是公平的」。
Allegheny 郡的經(jīng)驗(yàn)表明要解決這些問(wèn)題是多么困難。Chouldchova 受邀在 2017 年初開(kāi)始研究 Allegheny 的數(shù)據(jù),她發(fā)現(xiàn)這個(gè)工具也存在類似統(tǒng)計(jì)上的失衡現(xiàn)象。她說(shuō),該模型有一些「非常不理想的特性」。在不同的種族之間的錯(cuò)誤率的差異遠(yuǎn)遠(yuǎn)高于預(yù)期。而且,由于尚不清楚的原因,被認(rèn)為受虐待風(fēng)險(xiǎn)最高的白人兒童被從家中帶走的可能性小于被認(rèn)為受虐待風(fēng)險(xiǎn)最高的黑人兒童。Allegheny 和 Vaithianathan 的團(tuán)隊(duì)目前正在考慮轉(zhuǎn)而使用另一種模型?!高@可能有助于減少不公正的現(xiàn)象」,Chouldchova 說(shuō)。
盡管統(tǒng)計(jì)失衡是一個(gè)有待解決的問(wèn)題,但算法中潛藏著更深層次的不公平性(它們可能會(huì)加劇社會(huì)的不公正現(xiàn)象)。例如,像 COMPAS 這樣的算法可能原本是旨在預(yù)測(cè)未來(lái)犯罪活動(dòng)的可能性,但它只能依賴于可測(cè)量的模式:例如被逮捕。警務(wù)實(shí)踐的差異可能意味著一些社會(huì)團(tuán)體成為被逮捕幾率更高的目標(biāo),他們可能因?yàn)闀?huì)在其他社會(huì)團(tuán)體中被忽視的罪行而被捕。David Robinson是 Upturn 的執(zhí)行董事(Upturn 是一個(gè)位于華盛頓特區(qū)的非營(yíng)利性社會(huì)司法組織),他說(shuō):「即使我們準(zhǔn)確地預(yù)測(cè)了一些案件,但我們?cè)跍?zhǔn)確地預(yù)測(cè)案件的同時(shí)可能也對(duì)一些人群采取了不公正的對(duì)待」。這在很大程度上將取決于法官在多大程度上依賴此類算法來(lái)做出裁決,而我們對(duì)此知之甚少。
新澤西州卡姆登市的警察使用自動(dòng)化工具來(lái)幫助確定哪些地區(qū)需要巡邏。
Allegheny 的工具也受到了類似的批評(píng)。作家、政治學(xué)家 Virginia Eubanks 認(rèn)為,不管這個(gè)算法是否準(zhǔn)確,它都是基于有偏見(jiàn)的輸入工作的,因?yàn)楹谌撕突煅彝ジ锌赡鼙粺峋€電話所提到。此外,由于該模型依賴于 Allegheny 體系中的公共服務(wù)信息,而且使用此類服務(wù)的家庭普遍貧窮,該算法會(huì)對(duì)較貧窮家庭進(jìn)行更嚴(yán)格的審查,從而對(duì)這些家庭更加不公平。Dalton承認(rèn),現(xiàn)有的數(shù)據(jù)是一個(gè)我們不得不面對(duì)的限制,但她認(rèn)為人們?nèi)匀恍枰@個(gè)工具。 Allegheny 郡今年早些時(shí)候在 AFST 網(wǎng)站上回應(yīng) Eubanks 時(shí)表示:「貧困這一不幸的社會(huì)問(wèn)題并不能否認(rèn)我們具有『為那些需要我們關(guān)懷的兒童提高我們的決策能力』的責(zé)任!」
透明度及其限制
盡管一些機(jī)構(gòu)建立了自己的工具或商業(yè)軟件,但學(xué)者們發(fā)現(xiàn)自己在公共部門(mén)算法方面的工作有很大的市場(chǎng)需求。在芝加哥大學(xué),Ghani 一直在與一系列機(jī)構(gòu)合作,包括芝加哥公共衛(wèi)生部門(mén),他們一起研究一種預(yù)測(cè)哪些家庭可能藏有對(duì)健康有危害的鉛的工具。在英國(guó),劍橋大學(xué)的研究人員與 Durhan 郡的警方合作,建立了一個(gè)模型,幫助他們確定可以對(duì)哪些人采取干預(yù)方案,作為起訴的替代辦法。Goel 和他的同事今年建立了斯坦福計(jì)算政策實(shí)驗(yàn)室,該實(shí)驗(yàn)室正在與包括舊金山地區(qū)檢察官辦公室在內(nèi)的政府機(jī)構(gòu)進(jìn)行合作。地區(qū)檢察官辦公室的分析師 Maria McKee 認(rèn)為,與外界的研究人員的合作關(guān)系至關(guān)重要。他說(shuō):「我們都知道什么是對(duì)的,什么是公平的,但我們往往沒(méi)有工具,也沒(méi)有進(jìn)行研究,來(lái)準(zhǔn)確、條理清晰地告訴我們?nèi)绾螌?shí)現(xiàn)這一目標(biāo)」。
人們非常希望提高案件的透明度,這與 Allegheny 采取的方針一致。Allegheny 郡與利益相關(guān)方進(jìn)行了接觸,并向記者敞開(kāi)大門(mén)。AI Now 研究所的 Crawford 說(shuō),當(dāng)算法是「不能接受算法審核、審查或公開(kāi)辯論的封閉循環(huán)」時(shí),這樣通常會(huì)激化問(wèn)題。但是現(xiàn)在還不清楚如何使算法更加開(kāi)放。Ghani 認(rèn)為,簡(jiǎn)單地公布一個(gè)模型的所有參數(shù)并不能提供對(duì)其工作機(jī)制的解釋。透明度也可能與隱私保護(hù)相沖突。在某些情況下,透露太多關(guān)于算法工作原理的信息可能會(huì)讓不懷好意的人攻擊這個(gè)系統(tǒng)。
Goel 說(shuō),問(wèn)責(zé)制的一大障礙是,這些機(jī)構(gòu)往往不會(huì)收集它們?nèi)绾问褂眠@些工具或這些工具的性能的數(shù)據(jù)?!负芏鄷r(shí)候并不存在所謂的透明度,因?yàn)闆](méi)有什么信息是可以分享的」。例如,加利福尼亞州的立法機(jī)構(gòu)起草了一份法案,尋求能夠幫助人們減小被告必須支付保釋金的幾率的風(fēng)險(xiǎn)評(píng)估工具,然而這種做法因?yàn)闀?huì)懲罰低收入被告而受到詬病。Goel 希望該法案強(qiáng)制要求收集法官之所以不同意使用該工具的支撐案例的數(shù)據(jù),以及包括判決結(jié)果在內(nèi)的每個(gè)案件的具體細(xì)節(jié)。他說(shuō),「我們的目標(biāo)是從根本上減少監(jiān)禁,同時(shí)維護(hù)公共安全,所以我們必須知道這樣做是否有效」。
Crawford 說(shuō),我們將需要一系列「正當(dāng)程序」基礎(chǔ)設(shè)施來(lái)確保算法的可靠性。今年 4 月,AI Now 研究所為希望可靠地采用算法決策工具的公共機(jī)構(gòu)制定了一個(gè)框架;除此之外,該研究所呼吁征求社區(qū)的意見(jiàn),并讓人們能夠?qū)εc他們的決議提出上訴。
人工智能研究存在盲點(diǎn)
許多人希望法律能夠強(qiáng)制執(zhí)行這些目標(biāo)。Solon Barocas 是一名康奈爾大學(xué)的研究人工智能倫理和政策問(wèn)題的研究員,他說(shuō),實(shí)際上曾經(jīng)有過(guò)一些這樣的先例。在美國(guó),一些消費(fèi)者保護(hù)法規(guī)在對(duì)作出不利于公民信用評(píng)價(jià)的決定時(shí),會(huì)給予公民解釋的權(quán)利。而 Veale 說(shuō),早在 20 世紀(jì) 70 年代,法國(guó)就立法賦予公民解釋權(quán)和對(duì)自動(dòng)裁決提出異議的權(quán)利。
最大的考驗(yàn)將是 5 月 25 日生效的歐洲 GDPR。某些規(guī)定(例如獲得有關(guān)自動(dòng)決策案件所涉邏輯的有意義信息的權(quán)利)似乎促進(jìn)了算法問(wèn)責(zé)制。但英國(guó)牛津互聯(lián)網(wǎng)研究所的數(shù)據(jù)倫理學(xué)家 Brent Mittelstadt 表示,對(duì)于那些希望評(píng)估算法公平性的人來(lái)說(shuō),GDPR 實(shí)際上可能會(huì)制造一個(gè)「法律雷區(qū)」,從而實(shí)際上妨礙算法公平。要檢驗(yàn)一個(gè)算法是否在某些方面存在偏見(jiàn)(例如,它是否會(huì)偏袒一個(gè)種族,而歧視另一個(gè)種族),最好的方法就是了解系統(tǒng)涉及到的人的相關(guān)屬性。但是,Mittelstadt 說(shuō),GDPR 對(duì)使用這些敏感數(shù)據(jù)的限制十分嚴(yán)格,處罰也非常高,以至于那些有能力評(píng)估算法公平性的公司可能沒(méi)有什么動(dòng)力去處理這些信息。 他說(shuō):「這似乎會(huì)限制我們?cè)u(píng)估算法公平性的能力」。
那些讓公眾對(duì)算法有一定了解、并吸引公眾關(guān)注的 GDPR 法案的作用范圍也存在一些問(wèn)題。如前所述,一些 GDPR 規(guī)則僅適用于完全自動(dòng)化的系統(tǒng),這可以排除「算法對(duì)決策有一定影響,但應(yīng)該由人做出最后決定」的情況。Mittelstadt 說(shuō),這些細(xì)節(jié)最終應(yīng)該在法庭上澄清。
審核算法
與此同時(shí),研究人員正在推進(jìn)檢測(cè)算法中的偏見(jiàn)的策略,這些算法尚未對(duì)公眾開(kāi)放審核。Barocas 說(shuō),公司可能不愿意討論他們將如何解決公平問(wèn)題,因?yàn)檫@將意味著首先要承認(rèn)他們的公平性存在問(wèn)題。他說(shuō),即使他們這樣做了,他們根據(jù)算法采取的行為中的偏見(jiàn)可能會(huì)有所改善,但不會(huì)從根本上消除偏見(jiàn)?!敢虼?,任何有關(guān)這個(gè)問(wèn)題的公開(kāi)聲明,都不可避免地承認(rèn)這個(gè)問(wèn)題依然存在」。但最近幾個(gè)月,微軟和 Facebook 都宣布將開(kāi)發(fā)工具來(lái)檢測(cè)算法偏見(jiàn)。
一些包括波士頓東北大學(xué)的計(jì)算機(jī)科學(xué)家 Christo Wilson 在內(nèi)的研究人員,試圖從外部揭示商業(yè)算法的偏見(jiàn)。 比如,Wilson 創(chuàng)造了一些虛擬的乘客,他們聲稱自己在尋找 Uber 出租車,他還在一個(gè)求職網(wǎng)站上上傳了虛擬履歷,以測(cè)試性別偏見(jiàn)。還有人正在開(kāi)發(fā)一些軟件,他們希望這些軟件能夠被廣泛用于自我評(píng)估。今年 5 月,Ghani 和他的同事發(fā)布了名為 Aequitas 的開(kāi)源軟件,幫助工程師、政策制定者和分析師審核機(jī)器學(xué)習(xí)模型中的偏見(jiàn)。數(shù)學(xué)家 Cathy O’Neil 一直在強(qiáng)調(diào)用算法做出決策的危險(xiǎn)性,她成立了一家公司,私下與一些公司進(jìn)行了合作,審核他們的算法公平性。
一些研究人員已經(jīng)開(kāi)始呼吁,在刑事司法應(yīng)用和其他領(lǐng)域,人們應(yīng)該從狹隘地專注于建立預(yù)測(cè)算法的狂熱中退一步。例如,一個(gè)工具可能擅長(zhǎng)預(yù)測(cè)誰(shuí)將不會(huì)出現(xiàn)在法庭上,但是最好問(wèn)問(wèn)為什么他們不會(huì)出現(xiàn)?;蛟S,他們應(yīng)該設(shè)計(jì)一些干預(yù)措施,比如短信提醒或交通援助,這可能會(huì)提高他們出現(xiàn)在法庭上的概率。紐約大學(xué)法學(xué)院的民權(quán)律師、種族正義倡導(dǎo)者 Vincent Southerland 說(shuō):「這些工具通常幫助我們做出一些小的修正,但我們需要的是全面的改變」。 他表示,圍繞算法魯棒性展開(kāi)的激烈辯論「迫使我們所有人詢問(wèn)和回答這些真正棘手的基本問(wèn)題,這些問(wèn)題涉及我們正在使用的系統(tǒng)以及它們的運(yùn)作方式」。
Vaithianathan 目前正在將她的兒童虐待預(yù)測(cè)模型擴(kuò)展到科羅拉多州的 Douglas 和 Larimer 郡,她認(rèn)為,建立更好的算法是十分有價(jià)值的(即使它們所嵌入的總體系統(tǒng)是有缺陷的),也就是說(shuō),「算法不能被硬生生地嵌入這些復(fù)雜的系統(tǒng)里」。她說(shuō)到,它們必須在理解更廣泛的具體應(yīng)用背景的專家的幫助下被實(shí)現(xiàn)。但是即使是最好的工作也會(huì)面臨挑戰(zhàn)。她表示,在缺乏直接的答案和完美的解決方案的情況下,提高算法的透明度是最好的選擇?!肝铱偸钦f(shuō): 如果你不能做到完全正確,那就讓自己變得更誠(chéng)實(shí)」。