近期在信貸、招聘和醫(yī)療保健應(yīng)用中有關(guān)AI的新聞報道中強(qiáng)調(diào)的主要風(fēng)險之一是存在潛在的偏見。因此,其中一些公司受到政府機(jī)構(gòu)的監(jiān)管,以確保其AI模型是公平的。
機(jī)器學(xué)習(xí)模型在實(shí)際示例中進(jìn)行訓(xùn)練,以模仿未見數(shù)據(jù)的歷史結(jié)果。訓(xùn)練數(shù)據(jù)可能由于多種原因而產(chǎn)生偏見,包括代表受保護(hù)群體的數(shù)據(jù)項數(shù)量有限以及在整理數(shù)據(jù)過程中人為偏見潛伏的可能性。不幸的是,對有偏見的數(shù)據(jù)進(jìn)行訓(xùn)練的模型通常會使他們做出的決策中的偏見永存。
確保業(yè)務(wù)流程的公平性不是一個新的范例。例如,美國政府在1970年代禁止通過公平貸款法(例如《平等信貸機(jī)會法》(ECOA)和《公平住房法》(FHAct))對信貸和房地產(chǎn)交易進(jìn)行歧視。此外,《同酬法》、《民權(quán)法》、《康復(fù)法》、《就業(yè)年齡歧視法》和《移民改革法》都提供了廣泛的保護(hù)措施,以防止歧視某些受保護(hù)群體。
構(gòu)建公平的AI需要兩步過程:理解偏見和解決潛在偏差。在本文中,我們將重點(diǎn)討論第一個主題。
了解偏見
在解決問題之前,您需要首先確定其存在。沒有一家公司會以惡意的意圖將其AI系統(tǒng)偏向用戶。取而代之的是,由于模型開發(fā)生命周期中缺乏意識和透明性,導(dǎo)致了無意間引入了偏見。
以下列出了最佳實(shí)踐,以更好地理解和減少M(fèi)L開發(fā)生命周期中的偏見。
(1) 獲得主要利益相關(guān)者的支持
不公平的系統(tǒng)類似于會產(chǎn)生重大業(yè)務(wù)影響的安全風(fēng)險。實(shí)施公平治理流程需要物質(zhì)資源。沒有領(lǐng)導(dǎo)團(tuán)隊的支持,必要的實(shí)現(xiàn)該流程所需的任務(wù)可能無法獲得超過其他業(yè)務(wù)優(yōu)先級的足夠開發(fā)能力。因此,強(qiáng)大的以公平為中心的AI流程始于AI所有利益相關(guān)者的認(rèn)同系統(tǒng),包括管理團(tuán)隊。
(2) 任命“內(nèi)部捍衛(wèi)者”
確保買入后,任命負(fù)責(zé)建立公平程序的冠軍。倡導(dǎo)者在包括法律和合規(guī)代表在內(nèi)的各個團(tuán)隊之間進(jìn)行溝通,以草擬與公司領(lǐng)域(例如,醫(yī)療保健、招聘等)和團(tuán)隊的特定用例(例如,建議重新住院、確定保險費(fèi)、評估信用度)相關(guān)的準(zhǔn)則等。有幾種偏見度量標(biāo)準(zhǔn),例如機(jī)會均等、人口統(tǒng)計均等。公平性度量標(biāo)準(zhǔn)的選擇取決于用例,并由從業(yè)者掌握。
在最終確定指導(dǎo)方針之后,“捍衛(wèi)者”將對相關(guān)團(tuán)隊進(jìn)行培訓(xùn)。為了使其可行,AI公平工作流程可確保數(shù)據(jù)和模型偏差。另外,它要求訪問被評估公平性的受保護(hù)屬性,例如性別和種族。在大多數(shù)情況下,很難收集受保護(hù)的屬性,在大多數(shù)情況下,直接在模型中使用它們是非法的。
但是,即使未將受保護(hù)的屬性用作模型功能,也可能存在代理偏差,另一個數(shù)據(jù)字段(如郵政編碼)可能會與受保護(hù)的屬性(如種族)相關(guān)聯(lián)。如果沒有保護(hù)屬性并對其進(jìn)行衡量,則很難識別偏差。團(tuán)隊解決這一差距的一種方法是推斷受保護(hù)的屬性,例如在貸款承保模型的情況下使用普查數(shù)據(jù)推斷性別和種族。
測量偏差
接下來,我們需要測量偏差。不幸的是,許多類型的機(jī)器學(xué)習(xí)模型固有的不透明性使得測量其偏差變得困難。人工智能的可解釋性是一項最新的研究進(jìn)展,它解鎖了人工智能的黑匣子,使人們可以了解人工智能模型內(nèi)部發(fā)生的事情。這導(dǎo)致對偏差的透明評估,以確保由AI驅(qū)動的決策是負(fù)責(zé)任和可信賴的。
該特定報告是用于評估風(fēng)險以做出貸款決策的模型。它在受保護(hù)的“種族”屬性上具有其他元數(shù)據(jù)。使用此報告,用戶可以使用各種公平性指標(biāo)來查看組公平性和不同的影響。建議您根據(jù)用例的領(lǐng)域需求,專注于特定指標(biāo)(例如,“誤報率”)和特定特權(quán)類別(例如,白種人)來衡量偏見。
除了上面的貸款模型之類的表格模型外,文本和圖像模型中也會出現(xiàn)偏差。例如,下圖顯示了一個文本模型,該文本模型正在測量用戶生成的注釋的毒性。
請注意,熱圖如何表明該模型相對于“女性”和“無神論者”身份群體的偏見要小得多。在這種情況下,ML開發(fā)人員可能希望將有偏見的身份組的更多代表性示例添加到訓(xùn)練集中。
生產(chǎn)模型的公平考慮
無論在部署之前是否存在偏差,一旦模型為實(shí)時流量提供服務(wù),就有可能發(fā)生偏差。偏差的變化通常是由于向部署的模型提供了輸入數(shù)據(jù)而導(dǎo)致的,這些輸入數(shù)據(jù)在統(tǒng)計上不同于用于訓(xùn)練模型的數(shù)據(jù)。因此,最佳實(shí)踐是在部署后監(jiān)視模型中的相關(guān)偏差指標(biāo)。下面的屏幕截圖描繪了監(jiān)視模型準(zhǔn)確性指標(biāo)(用于跟蹤潛在偏差的相關(guān)指標(biāo)之一)的外觀。
總之,人工智能為量化和解決迄今為止由人主導(dǎo)和不透明的決策系統(tǒng)中的偏差提供了獨(dú)特的機(jī)會。