圖形一直以來(lái)就是統(tǒng)計(jì)分析的重要組成部分。它既可被用以輔助數(shù)據(jù)分析的前期探索(比如發(fā)現(xiàn)異常記錄,觀察變量間的相互關(guān)系等),也可以用來(lái)展示數(shù)據(jù) 分析的結(jié)果。本篇通過(guò)若干實(shí)例探討了如何有效地展示醫(yī)療大數(shù)據(jù)的數(shù)據(jù)分析結(jié)果,即醫(yī)療大數(shù)據(jù)的視覺(jué)化問(wèn)題,并討論了未來(lái)數(shù)據(jù)可視化發(fā)展的可能方向。
俗話說(shuō):“一圖抵千言”(A picture isworth a thousand words)。 許多復(fù)雜的結(jié)果往往用一張圖就能十分直觀地展示出來(lái),讓人一看就明白。比如圖一顯示了2005 至2010年全球非自然死亡的比例分布圖。所有的疾病被分為三大類:傳染病及先天不足,受傷,以及非傳染性疾病,分別用黃,綠,粉紅三色代表。它們的體積 反映了各類疾病在所有非自然死亡中所占的比重。由圖可見,傳染病及先天不足(黃色)所占比重幾乎等同于非傳染性疾?。ǚ奂t色),而傳染病這一塊完全可以通 過(guò)公共衛(wèi)生方面的努力加以縮小。圖中每一大塊顏色中同色系的小塊代表了具體的疾病。同樣的,體積反映所占的比重,而顏色深淺則體現(xiàn)了05年至10年平均年 度變化的百分比,深色表示連年增長(zhǎng),而淺色表示連年下降。增長(zhǎng)及下降的平均年度變化百分比沒(méi)有大于3%的。小小一張圖包含了許多信息,卻又一目了然,實(shí)實(shí) 在在地詮釋了數(shù)據(jù)統(tǒng)計(jì)上的“一圖抵千言”。
圖一:
來(lái)源:Infographic by Thomas Porostocky | Source: Institutefor Health metrics and evaluation
再以2015年一月熱議的《解構(gòu)春雨醫(yī)生》的報(bào)告為例,有些數(shù)字表格如果改作圖示,會(huì)更加直觀,更利于讀者快速獲取其中蘊(yùn)含的信息。
表一:
這張表格蘊(yùn)含了很多信息,包括春雨醫(yī)生各種類收入,各科室收入,及各科室在各種類收入中所占的構(gòu)成比例,一眼看去,滿目數(shù)字,很難快速地獲取綜合信息。如果使用圖示,則可以將表格的內(nèi)容簡(jiǎn)單顯示如圖二:
圖二:
根據(jù)總收入對(duì)各個(gè)科室由高到低進(jìn)行排序,以柱狀圖的形式分別列出了各科室總收入,私人醫(yī)生收入,咨詢收入,圖文咨詢收入,電話咨詢收入及門診預(yù) 約收入,方便讀者進(jìn)行橫向和縱向兩個(gè)維度的對(duì)比。由于各類收入差距過(guò)大,無(wú)法使用同一尺度,因而在收入的下方標(biāo)注了各列柱狀圖的尺度,并在柱子邊上標(biāo)注了 實(shí)際收入的數(shù)值。這樣,縱向?qū)Ρ雀骺剖以诿恳环N收入中所占比重可以直接看柱狀的長(zhǎng)短,而橫向?qū)Ρ雀骺剖也煌杖霕?gòu)成時(shí)也可以結(jié)合尺度和實(shí)際數(shù)值迅速得出結(jié) 論。例如,讀者可以很容易發(fā)現(xiàn)內(nèi)科總收入第一,婦產(chǎn)科第二,但是婦產(chǎn)科的咨詢收入無(wú)論是從絕對(duì)數(shù)值還是相對(duì)比重上都遠(yuǎn)超內(nèi)科。圖二還用了不同的顏色和深淺 代表不同的收入程度,對(duì)較重要的收入(即總收入及綜合數(shù)值較大的收入)采用了深色,而對(duì)綜合數(shù)值較小的收入采用了淺色。此外,由于咨詢收入,圖文咨詢收 入,電話咨詢收入同屬咨詢收入,采用了同色系(藍(lán)色)顯示。
以上兩例說(shuō)明了圖示對(duì)展示數(shù)據(jù)的重要性和有效性。隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)視覺(jué)化變得尤為關(guān)鍵,但也同時(shí)面臨更多的挑戰(zhàn)。首先,原始數(shù)據(jù)往往 含有海量的信息。這些信息經(jīng)過(guò)數(shù)據(jù)清理(Data cleaning),整合 (Binning),歸納 (Summarizing)之后依然可能十分龐雜,很難用一張或若干張圖來(lái)顯示大數(shù)據(jù)所蘊(yùn)藏的信息。因此大數(shù)據(jù)的視覺(jué)化不僅需要專業(yè)的知識(shí)和經(jīng)驗(yàn),更需要 有十足的想像力和美學(xué)概念。其次,大數(shù)據(jù)不單只是數(shù)據(jù)量本身的龐大,還兼有更新快的特性。每時(shí)每刻都有大量的各種數(shù)據(jù)被制造并收集起來(lái)。如何即時(shí)分析這些 動(dòng)態(tài)數(shù)據(jù)并配以相應(yīng)的動(dòng)態(tài)可視化圖形面臨著很大挑戰(zhàn)。
工欲善其事,必先利其器。我們迫切需要強(qiáng)大而不失靈活機(jī)動(dòng)的,具有強(qiáng)互動(dòng)性的數(shù)據(jù)視覺(jué)化軟件。事實(shí)上,美好的前景和客戶實(shí)際的需求也已經(jīng)催生出 了許多大數(shù)據(jù)可視化軟件。下面我們簡(jiǎn)要介紹一下,除了較傳統(tǒng)的Excel,R,STATA之類,還有很多相對(duì)比較新的軟件,如 Tableau,ZingChart,FusionCharts, Google Charts,D3.js,jqPlot,IBM Many Eyes等等,不一而足。新的數(shù)據(jù)視覺(jué)化軟件也正源源不斷地涌現(xiàn)。這些軟件各有特色,各有側(cè)重,但也多有重合。比如幾乎所有的軟件都提供了常用的統(tǒng)計(jì)圖 示,如條形圖,扇形圖,折線圖,直方圖,散點(diǎn)圖,基本地圖等等??梢哉f(shuō),現(xiàn)在大數(shù)據(jù)可視化軟件正處于群雄并起,群星璀璨的時(shí)期,也沒(méi)有哪一款軟件真正全面 地涵蓋了多樣的大數(shù)據(jù)可視化的需求,即:囊括了幾乎所有的圖形需求并不斷更新。
結(jié)合實(shí)際工作,我們有必要從現(xiàn)在起建立一個(gè)大數(shù)據(jù)可視化圖示庫(kù),分科分類型搜集每一種圖示并輔以實(shí)例??梢灶A(yù)見這個(gè)數(shù)據(jù)庫(kù)必然會(huì)在經(jīng)歷一個(gè)最初 的急劇膨脹期后緩慢擴(kuò)大,最終慢慢穩(wěn)定下來(lái),而且沉淀的東西會(huì)非常有價(jià)值。美國(guó)人口調(diào)查局在此提供了一個(gè)很好的示范,它提供了各式各樣和人口統(tǒng)計(jì)相關(guān)的可 視化圖形,如圖三所示。
圖三:
我們知道,大數(shù)據(jù)千變?nèi)f化,各有特色,分析方法也相應(yīng)不同,從而需要不同的可視化呈現(xiàn)。很多圖形的呈現(xiàn)是取決于具體分析后得出的結(jié)果的.比如: 依據(jù)不同統(tǒng)計(jì)方法 (K-means,bagging, boosting, random Forest) 產(chǎn)生的決策樹圖形, 生存分析結(jié)果產(chǎn)生的生存率曲線(Kaplan-meier curve)。統(tǒng)計(jì)學(xué)家,數(shù)據(jù)科學(xué)家,數(shù)據(jù)分析師,市場(chǎng)分析師等活躍在數(shù)據(jù)可視化第一線的專業(yè)人士,在現(xiàn)階段仍舊需要調(diào)用多個(gè)不同軟件進(jìn)行復(fù)雜的數(shù)據(jù)分 析,依據(jù)分析結(jié)果再進(jìn)行作圖。一般每個(gè)人都有一個(gè)或若干個(gè)慣用的軟件。如果某個(gè)特定圖形無(wú)法使用常規(guī)的數(shù)據(jù)分析軟件生成的話,就不得不切換其他軟件加以實(shí) 現(xiàn)。隨著大數(shù)據(jù)技術(shù)及市場(chǎng)日趨成熟,我們希望有一個(gè)整合的環(huán)境進(jìn)行數(shù)據(jù)管理,數(shù)據(jù)分析,數(shù)據(jù)可視化,實(shí)現(xiàn)一體化(一條龍)分析,而不是疲于在各種不同軟件 系統(tǒng)間頻繁的切換,費(fèi)時(shí)費(fèi)力且效率低下,還不利于他人驗(yàn)證整個(gè)數(shù)據(jù)生成及展示的過(guò)程。然而,如今離擁有一個(gè)涵蓋所有數(shù)據(jù)管理分析,并同時(shí)滿足視覺(jué)化需求的 軟件還很遙遠(yuǎn)?,F(xiàn)階段比較可行的是建立一個(gè)能整合融會(huì)大部分?jǐn)?shù)據(jù)視覺(jué)化編程語(yǔ)言的平臺(tái)。這樣可以讓使用者更快更便捷地進(jìn)行數(shù)據(jù)管理,數(shù)據(jù)分析,及數(shù)據(jù)編程 視覺(jué)化。Tableau 在這方面做著初步的嘗試,比如開源統(tǒng)計(jì)軟件R可以整合到Tableau里面,進(jìn)行有限的數(shù)據(jù)分析后的圖形視覺(jué)化處理呈現(xiàn)(圖四),雖然過(guò)程仍然比較復(fù)雜 (具體請(qǐng)見:使用R和Tableau 白皮書http://www.tableau.com/sites/default/files/media/using-r-and-tableau-software_0.pdf)。
圖四:
另一在此領(lǐng)域比較成功的例子是BEAKER數(shù)據(jù)科學(xué)家實(shí)驗(yàn)室。它提供了一個(gè)筆記本式可以切換使用各種編程語(yǔ)言(Python, R, Java, Julia, Ruby等)的工作環(huán)境。讓使用者在各種語(yǔ)言之間進(jìn)行切換,或輕松添加新的編程塊,確保始終使用對(duì)應(yīng)性最強(qiáng)的工具進(jìn)行合適的數(shù)據(jù)分析和可視化的實(shí)現(xiàn)。例 如,通過(guò)Phyton到R到Java的無(wú)縫編程,完成從數(shù)據(jù)操作到圖形可視化的一體實(shí)現(xiàn)。如圖五所示:
圖五:
我們期待,眾多可視化軟件經(jīng)過(guò)沉淀積累,去蕪存菁的過(guò)程,伴隨一個(gè)整合編程語(yǔ)言平臺(tái)的出現(xiàn)和完善,將使數(shù)據(jù)管理,分析,可視化操作變得越來(lái)越便捷和有效率。