這是過去一年左右的時間里,一個新興的主題“機器學習的機器學習”的一個例子。機器學習數(shù)據(jù)目錄(MLDC)、概率或模糊匹配、自動化訓練數(shù)據(jù)注釋和合成數(shù)據(jù)創(chuàng)建都使用機器學習來為下游的后續(xù)機器學習生成或準備數(shù)據(jù),通??梢越鉀Q數(shù)據(jù)稀缺或分散的問題。這一切都很好,直到我們開始考慮到機器學習本身就依賴歸納推理,因此從本質(zhì)上來說它是基于概率的。
想象一下在現(xiàn)實中的情況:醫(yī)療保健服務提供者希望利用計算機視覺來診斷罕見疾病,由于數(shù)據(jù)缺乏,自動注釋器用于創(chuàng)建更多訓練數(shù)據(jù)(更多標記圖像),開發(fā)人員設置了90%的傾向閾值,這意味著只有達到了90%或以上準確分類概率的記錄才會被用作訓練數(shù)據(jù)。一旦模型被訓練和部署,它就被用于患者,這些患者的數(shù)據(jù)通過文字數(shù)據(jù)字段的模糊匹配,從多個數(shù)據(jù)庫鏈接一起。來自不同數(shù)據(jù)集的實體只要具有90%的相同概率就可以匹配在一起。最后,該模型標記的圖像具有90%或更高可能性患有診斷所描繪的疾病。
問題在于,數(shù)據(jù)科學家和機器學習專家只關(guān)注最終傾向得分,以表示預測的整體準確性。這導致培訓數(shù)據(jù)的準備在具有演繹性和確定性的世界中運作良好,但是當你在概率之上引入概率時,最終的傾向得分就不再準確了。在上面的例子中,有一種觀點認為,準確診斷的可能性從90%降低到了73%(90% x 90% x 90%),這在生死攸關(guān)的情況下并不理想。
隨著對人工智能可解釋性的需求越來越強烈,需要建立一個新的分析治理框架,要囊括機器學習過程中包含的所有概率,從數(shù)據(jù)創(chuàng)建到數(shù)據(jù)準備、培訓再到推理。如果沒有它,過分地夸大傾向評分可能將誤診患者、錯誤地對待客戶、并在關(guān)鍵決策時誤導企業(yè)和政府。