谷歌開源可視化工具Facets,將用于人+AI協(xié)作項目研究

責任編輯:editor004

作者:陳思

2017-07-19 11:48:20

摘自:INFOQ

這兩套可視化方案能夠幫助您進行數據調試——這項工作在機器學習當中與模型調試擁有同等重要的地位。由于這些工具屬于開源項目

AI的出現為人類社會帶來了新一輪的技術革命,如何更好的解決人類的問題是AI研究的一個重要課題。然而最近,關于AI將會取代部分人力工作的說法不僅在科技圈炸了鍋,更讓對技術并不很了解的非科技從業(yè)者也感覺到了壓力,提到人工智能,現在人們最擔心的是:它對不會取代我的工作?

有了這樣的擔憂,身在科技圈的AI公司們就開始行動起來,通過實際行動來消除民眾的擔憂。既然擔心人力被AI替代,那么人與AI協(xié)作如何?

PAIR的誕生

作為世界科技巨頭之一的谷歌推出了一項叫做PAIR(People + AI Research)的AI項目,希望能夠通過研究以及重新設計人與AI系統(tǒng)的交互方式并試圖確保這項技術能造福每個人。谷歌表示,PAIR將在AI供應鏈中對大量會影響到每個人的不同課題展開研究--從開發(fā)算法的研究人員到醫(yī)生、設計師、農民等這些正在使用或將要使用專業(yè)AI工具的專業(yè)人士。

根據不同的用戶需求,PAIR 計劃的研究內容分成了三個部分:

工程師和研究人員:AI 是由人打造的。Google如何讓工程師更加容易地理解和打造機器學習系統(tǒng)?他們需要什么樣的教學材料和開發(fā)工具?

各領域專家:AI 如何幫助專業(yè)人士開展他們的工作?隨著醫(yī)生、技師、設計師、農場主以及音樂家越來越多地使用 AI,Google如何為他們提供支持?

日常用戶:Google如何確保機器學習的包容性,讓每個人都能受益于 AI 的突破性進展?設計思維能否解鎖全新的 AI 應用?能否實現 AI 背后技術的普及化?

PAIR 團隊由谷歌大腦研究員 Fernanda Viégas 與 Martin Wattenberg 帶領,兩位均是數據可視化專家。12 名全職谷歌大腦員工將加入。除此之外,PAIR 還將與谷歌之外的研究人員合作,譬如哈佛大學教授 Brendan Meade 以及 MIT 教授 Hal Abelson。和愿景相比,PAIR 的核心團隊一點也不算大。不過有消息稱,PAIR 是一個“全公司尺度”的項目,谷歌的各個研究部門會與之密切合作。

開源工具:Facets

通過PAIR項目,谷歌發(fā)布了Facets——這是一款開源可視化工具,旨在幫助用戶理解并分析各類機器學習數據集。

Facets當中包含兩款可視化方案,允許用戶以不同的細化水平獲取關于數據的整體觀點。其中Facets Overview負責幫助您掌握數據中的每項具體特征,而Facets Dive則用于對個別數據組進行觀察。

這兩套可視化方案能夠幫助您進行數據調試——這項工作在機器學習當中與模型調試擁有同等重要的地位。另外,用戶亦可以將其輕松納入Jupyter記事本或者嵌入至網頁當中。除了開源代碼之外,谷歌還建立起Facets演示網站。用戶可直接在自己的瀏覽器當中借助此網站對自己的數據集進行可視化——無需安裝或者設置任何軟件,數據也絕不會離開您的計算機。

Facets Overview

Facets Overview以自動化方式幫助用戶快速掌握數據集內各項特征值的分布情況。您亦可立足同一可視化視圖對多套數據集進行比對——例如訓練集與測試集。在這里,您將能夠順利解決阻礙機器學習的各類常見數據問題,包括預料之外的特征值、存在嚴重值缺失的特征、分布不均衡的特征以及數據集之間的特征分布偏差等等。

Facets Overview對UCI 人口普查數據集內六組數字特征進行可視化。各特征按照非均勻性排序,上部為分布最不均勻的特征。紅色數字表示可能存在的故障點,在本示例中為存在大量0值的數字特征。右側的直方圖則允許您直接比較訓練數據(藍色)與測試數據(橙色)之間的分布差異。

Facets Overview的可視化結果顯示了UCI人口普查數據集中九項分類特征中的兩項。各特征按照分布距離進行排序,其中訓練(藍色)與測試(橙色)數據集頂部的特征間具有最大偏差。需要注意的是,“Target”特征的標簽植在訓練與測試數據集之間存在差異,這是由測試集內存在的尾隨點所造成(‘〈=50K’與‘〈=50K’〉。我們可以在圖表以及表格最上列中的條目中看到。這種標簽不匹配性將導致利用這部分數據進行訓練及測試的模型無法得到正確評估。

Overview亦可幫助我們發(fā)現數據集當中包含的問題,具體包括:

預料之外的特征值

大量示例當中缺失的特征值

訓練/服務偏差

訓練/測試/驗證集偏差

可視化工作的關鍵,在于跨越多個數據集進行異常植檢測與分布結果比較。其中紅色部分用于高亮顯示需要關注的值(例如缺失數據比例過高或者各數據集間的特征分布存在巨大差異)。各項特征亦可按照您的關注度值進行排序——這項關注度值可設定為缺失值的數量或者不同數據集間的偏差。

欲了解更多與Overview使用方法相關的細節(jié)信息,請參閱其說明頁面。

說明頁面:https://github.com/PAIR-code/facets/blob/master/facets_overview/README.md

Facets Dive

Dive是一款用于以交互方式探索成千上萬個數據點的工具,允許用戶在高級概述與低級細節(jié)之間進行無縫切換。每項示例將在可視化視圖當中表達為單一條目,并可通過其具體特征值在多個維度上通過平面/三維方式進行定位。通過將平滑的動畫與縮放同定位與過濾相結合,Dive能夠幫助我們輕松地復雜的數據集當中發(fā)現模式及各類異常值。

Facets Dive可視化方案在UCI人口普查測試數據集內顯示出全部16281個數據點。此動畫效果向用戶顯示出經過著色的各數據點,不同顏色代表不同特征(即‘關系’)。通過在其中一個維度上分層以代表一項接續(xù)特征(即‘年齡’),而在另一維度上分層則代表一項離散特征(即‘婚姻狀況’)。

Facets Dive對“Quick,Draw!”數據集內的大量面部繪圖進行可視化處理,結果顯示了圖形當中筆畫數與點數之間的關系,同時亦能夠幫助“Quick,Draw!”分類器將各圖像正確分類為面孔。

Fun fact:在大規(guī)模數據集當中——例如CIFAR-10數據集,人類標記中的小錯誤往往很容易被忽略。谷歌研究員們利用Dive對CIFAR-10數據集進行了檢查,并從中發(fā)現了一只“青蛙貓”——即被錯誤標記為貓的青蛙圖像。

利用Facets Dive探索CIFAR-10數據集。在這里,研究員逐行對為真標簽進行分層,并逐列給出預測標簽。由此產生的混淆矩陣視圖允許研究者進一步發(fā)現屬于特定類型的錯誤分類。在本示例當中,機器學習模型錯誤地將一小部分青蛙圖片分類為貓。通過將為真圖像放置在混淆矩陣當中,研究者發(fā)現了這項有趣的事實,即模型將某只青蛙誤判為貓。利用Facets Dive,研究者們得以意識到這項錯誤的實際根源——并非模型進行錯誤的分類,而是數據集當中存在錯誤的數據標記。

  您能找到那只“青蛙貓”嗎?

欲了解更多與Dive使用方法相關的細節(jié)信息,請參閱其說明頁面。

說明頁面:https://github.com/PAIR-code/facets/blob/master/facets_dive/README.md

在谷歌公司內部,已經利用Facets實現了巨大的應用價值,谷歌的開發(fā)者們也很高興能夠與全世界分享這款可視化工具。他們希望這些工具能幫助大家在自己的數據當中發(fā)現新鮮有趣的結論,進而構建起更為強大且準確的機器學習模型。由于這些工具屬于開源項目,因此來自全球的開發(fā)者們亦可根據自己的具體需求對可視化內容進行定制,或者通過項目貢獻幫助谷歌更好地理解數據內容。

鏈接已復制,快去分享吧

企業(yè)網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號