通常大數(shù)據(jù)是指數(shù)據(jù)量和數(shù)據(jù)維度均很大,數(shù)據(jù)形式也很廣泛,如數(shù)字、文本、圖像、聲音等等。在醫(yī)學(xué)領(lǐng)域,隨著信息化的不斷深入,醫(yī)學(xué)數(shù)據(jù)也越來越豐富,其中醫(yī)學(xué)影像數(shù)據(jù)是一個十分重要的組成部分,而且,醫(yī)學(xué)影像信息被數(shù)字化、數(shù)據(jù)化后形成了豐富多樣的、存儲量龐大的醫(yī)學(xué)大數(shù)據(jù)。今天,我們就討論一下利用醫(yī)學(xué)影像大數(shù)據(jù)推動智能化醫(yī)療發(fā)展方面的話題。
IBM的智能醫(yī)學(xué)影像分析項目-Watson計劃
據(jù)報道,IT巨頭IBM將以10億美元收購醫(yī)學(xué)成像設(shè)備提供商Merge Healthcare,后者主要幫助醫(yī)生和醫(yī)院存儲和分析CAT斷層掃描、X射線以及其他醫(yī)學(xué)影像。IBM計劃將Merge的技術(shù)整合到自身的Watson人工智能技術(shù)中去。IBM認(rèn)為,Watson的認(rèn)知計算能力在醫(yī)學(xué)造影方面完全可以辨別患者應(yīng)該接受X射線、CAT還是核磁共振,現(xiàn)在獨(dú)缺的是客戶以及醫(yī)學(xué)影像資料,而這恰好也是Merge可以提供的資源。
目前醫(yī)療數(shù)據(jù)中有超過90%來自于醫(yī)學(xué)影像,但是這些數(shù)據(jù)大多要進(jìn)行人工分析。如果能夠運(yùn)用人工智能技術(shù)分析醫(yī)學(xué)影像,并將影像與醫(yī)學(xué)文本記錄進(jìn)行交叉對比,就能夠極大地降低醫(yī)學(xué)診斷上的失誤,幫助醫(yī)生精準(zhǔn)診斷,挽救患者生命。
IBM 的Watson計劃想法很好,但是依然存在著諸多挑戰(zhàn)。最大的問題在于如何證明這個計劃的效果,如何向健康保險公司證明對于Watson的投資物有所值。具體地說,Watson計劃能否真正地讓患者得到準(zhǔn)確的診斷,傳統(tǒng)的放射科醫(yī)師忽略的診斷方面的問題能否讓IBM的智能技術(shù)發(fā)現(xiàn)。
中國人“數(shù)字肺”項目
我們再回過頭來看看國內(nèi)。進(jìn)入數(shù)字化時代,數(shù)字化、標(biāo)準(zhǔn)化、網(wǎng)絡(luò)化、海量存儲和大數(shù)據(jù)的應(yīng)用,已成為醫(yī)學(xué)發(fā)展的主流方向和重要標(biāo)志。大數(shù)據(jù)的發(fā)展要求醫(yī)院要改變傳統(tǒng)的醫(yī)療模式-把疾病的早預(yù)防、早診斷、早治療等服務(wù)放在第一位考慮。隨著人們期待更好的醫(yī)療衛(wèi)生保健服務(wù),從出生到死亡的全程醫(yī)療服務(wù)也已經(jīng)成為了醫(yī)療管理新模式的發(fā)展方向。通過互聯(lián)網(wǎng)絡(luò)把預(yù)防、診斷和臨床作業(yè)過程納入到數(shù)字化網(wǎng)絡(luò)中,實(shí)現(xiàn)這些重要任務(wù)的核心環(huán)節(jié)就是醫(yī)學(xué)影像信息化,充分體現(xiàn)大數(shù)據(jù)、實(shí)時在線、多點(diǎn)傳輸與共享給現(xiàn)代醫(yī)療帶來的好處。
據(jù)報道,由北京醫(yī)院等國內(nèi)知名大醫(yī)院聯(lián)合與合作,開展了中國人“數(shù)字肺”項目-“基于醫(yī)學(xué)影像大數(shù)據(jù)的呼吸系統(tǒng)疾病輔助診斷平臺”。項目以構(gòu)建具有統(tǒng)計學(xué)意義的中國人“數(shù)字肺”,揭示支氣管、肺血管和肺實(shí)質(zhì)結(jié)構(gòu)與不同主要肺部疾病之間的關(guān)系,通過采用數(shù)據(jù)挖掘與量化分析技術(shù),分析、處理和量化COPD、支氣管哮喘、支氣管擴(kuò)張、肺間質(zhì)性疾病、肺栓塞和孤立性肺結(jié)節(jié)的評價體系和診斷標(biāo)準(zhǔn)。目前,該項目已經(jīng)在健康成人支氣管樹不對稱分叉特性的研究、低劑量CT掃描的對支氣管定量測量的評價研究、吸煙對肺組織損傷的縱向研究、肺血管改變與肺氣腫定量的動態(tài)評估等方面取得了進(jìn)展,獲得了一系列卓有成效的研究成果。
影像大數(shù)據(jù)-早期肺癌篩查平臺
在大數(shù)據(jù)盛行的今天,大型影像診斷設(shè)備結(jié)合大數(shù)據(jù)分析提供更準(zhǔn)確的診斷報告顯然是越來越可行和越來越可靠的事情。據(jù)報道,由上海多家大型醫(yī)療機(jī)構(gòu)合作開展了“上海地區(qū)早期肺癌的影像學(xué)篩查及診斷研究”項目。該項目通過多家醫(yī)院多中心采集、共享并研究早期肺癌病例數(shù)據(jù)樣本,制定早期肺癌高危人群預(yù)警指標(biāo),進(jìn)而建立一套肺癌篩查及早期診斷的最佳方案和標(biāo)準(zhǔn)流程。同時,在多中心研究基礎(chǔ)上,建立可拓展、可挖掘的上海市早期肺癌患者數(shù)據(jù)庫。該平臺涵蓋調(diào)查問卷、患者信息管理、影像閱覽、肺結(jié)節(jié)CAD檢測、結(jié)構(gòu)化診斷報告、遠(yuǎn)程會診、病人隨訪、統(tǒng)計分析等篩查全過程,為研究項目提供堅實(shí)技術(shù)基礎(chǔ)。目前,該早期肺癌篩查平臺已實(shí)現(xiàn)上海多家三甲醫(yī)院數(shù)據(jù)互聯(lián),支持多家醫(yī)院在線實(shí)時會診、資源共享;此外,通過人工智能技術(shù)自動精準(zhǔn)識別小肺結(jié)節(jié),可幫助醫(yī)生減少漏診。
針對早期肺癌難以發(fā)現(xiàn)、容易漏診的問題,該早期肺癌篩查平臺融入了肺癌計算機(jī)輔助檢測(CAD)引擎,可自動精準(zhǔn)識別影像中直徑更小的肺結(jié)節(jié),計算并提供結(jié)節(jié)大小、密度等量化參數(shù)供醫(yī)生參考。同時,參考世界先進(jìn)成熟的肺癌篩查平臺,采用結(jié)構(gòu)化報告,實(shí)行“雙盲模式”—第一份報告不參考CAD檢測,作為初診,第二份報告參考CAD,完成終審報告,人機(jī)相互對照參考,改變以往早期肺癌篩查中醫(yī)生僅靠主觀診斷的篩查模式,以減少漏診幾率。
影像大數(shù)據(jù)挖掘
數(shù)據(jù)挖掘從數(shù)據(jù)形式和相關(guān)技術(shù)上說,大致可以劃分為結(jié)構(gòu)數(shù)據(jù)挖掘和非結(jié)構(gòu)數(shù)據(jù)挖掘。所謂結(jié)構(gòu)數(shù)據(jù)挖掘是基于結(jié)構(gòu)化的數(shù)據(jù)基礎(chǔ)上的知識發(fā)現(xiàn),例如我們常見的關(guān)系型數(shù)據(jù),包括數(shù)值型數(shù)據(jù)、字符型數(shù)據(jù)、日期型數(shù)據(jù)等等,應(yīng)用相關(guān)的數(shù)據(jù)挖掘技術(shù)對這些關(guān)系型數(shù)據(jù)開展分析。而所謂非結(jié)構(gòu)數(shù)據(jù)挖掘是基于非結(jié)構(gòu)化的數(shù)據(jù)基礎(chǔ)上的知識發(fā)現(xiàn),例如我們常見的自然語言文本數(shù)據(jù)、各種圖像數(shù)據(jù)、各種音頻數(shù)據(jù)等等,基于這些類型的數(shù)據(jù)開展數(shù)據(jù)挖掘分析。
醫(yī)學(xué)影像數(shù)據(jù)挖掘就是非結(jié)構(gòu)數(shù)據(jù)挖掘的一種,它有如下幾個主要特點(diǎn):
1. 影像數(shù)據(jù)一般具有相對的含義,而結(jié)構(gòu)化數(shù)據(jù)一般具有絕對的含義。
2. 影像內(nèi)容的理解具有主觀性的特點(diǎn),對影像信息可以有多種不同理解,并依賴于影像表示方法和應(yīng)用領(lǐng)域?qū)I(yè)知識。
3. 影像信息中包含影像數(shù)據(jù)對象的空間關(guān)系信息。
從目前的影像數(shù)據(jù)挖掘技術(shù)的現(xiàn)狀來說,原始影像一般還不能直接用于影像數(shù)據(jù)挖掘分析,必須進(jìn)行預(yù)處理,以生成可用于高層次挖掘的影像特征庫。影像數(shù)據(jù)挖掘的一般流程通常包括影像的存儲、影像的預(yù)處理、影像的搜索、影像的挖掘和展示等步驟。
影像數(shù)據(jù)挖掘方案
目前,影像數(shù)據(jù)挖掘方案主要有功能驅(qū)動型模型和信息驅(qū)動型模型。
所謂功能驅(qū)動型模型是以不同的功能模塊來組織,功能驅(qū)動的影像數(shù)據(jù)挖掘是針對具體應(yīng)用的特定要求來設(shè)計數(shù)據(jù)挖掘方案的,通常包括:
1. 影像采集模塊-從影像數(shù)據(jù)庫中抽取影像數(shù)據(jù);
2. 預(yù)處理模塊-提取影像特征,并把特征信息存放在特征數(shù)據(jù)庫中;
3. 搜索引擎-利用影像特征信息進(jìn)行匹配查詢;
4. 知識發(fā)現(xiàn)模塊-對影像數(shù)據(jù)進(jìn)行算法分析,以發(fā)現(xiàn)數(shù)據(jù)的主題、特征、關(guān)系等規(guī)律。
所謂信息驅(qū)動型模型,是針對影像的原始信息開展基于內(nèi)容的影像數(shù)據(jù)挖掘的方案。該方案基于原始特征的對象或區(qū)域信息,利用挖掘算法和專業(yè)知識將整幅影像進(jìn)行有意義地分割,然后開展高層次地計算與挖掘分析,從而推導(dǎo)出具有高層次語義的、易用的、易于理解的模式。該方案將影像信息劃分為四個層次:
1. 象素層-由原始影像信息和原始影像特征組成,如象素點(diǎn)、紋理、形狀和色彩等。
2. 對象層-處理基于象素層原始特征的對象和區(qū)域信息。
3. 語義層:結(jié)合專業(yè)知識從識別出的對象和區(qū)域中生成高層次的語義概念。
4. 知識層:可結(jié)合與某一專業(yè)相關(guān)的文字和數(shù)字信息發(fā)現(xiàn)潛在的領(lǐng)域知識和模式。
在信息驅(qū)動方案中,象素層和對象層主要進(jìn)行影像處理、對象識別和特征提取,而語義層和知識層主要進(jìn)行影像數(shù)據(jù)挖掘和知識整合。該方案可以在每個層次上以及不同層次間開展數(shù)據(jù)挖掘分析。
影像數(shù)據(jù)挖掘算法
與結(jié)構(gòu)化數(shù)據(jù)挖掘的步驟和算法相類似,影像數(shù)據(jù)挖掘的技術(shù)主要包括:影像數(shù)據(jù)預(yù)處理技術(shù):如去噪、對比度增強(qiáng)、影像分割等等;特征提取和模式技術(shù);如分類、規(guī)則提取、預(yù)測和聚類等等,既包括有監(jiān)督學(xué)習(xí)也包含無監(jiān)督學(xué)習(xí)。下面,我們就簡單介紹一下有監(jiān)督學(xué)習(xí)的分類技術(shù)和無監(jiān)督學(xué)習(xí)的聚類技術(shù)。
基于影像數(shù)據(jù)的分類技術(shù)流程主要分為三步:
1. 建立影像表示模型,對已進(jìn)行類標(biāo)記的影像樣本數(shù)據(jù)進(jìn)行特征提取,并建立每一影像的屬性描述;
2. 對樣本數(shù)據(jù)集進(jìn)行訓(xùn)練和學(xué)習(xí),得到具有相當(dāng)分類精度的分類模型;
3. 根據(jù)分類模型對未標(biāo)記的影像數(shù)據(jù)集進(jìn)行自動分類判別。
影像數(shù)據(jù)分類的挑戰(zhàn)性在于,如何建立低層可視特征和高層語義分類間的映射關(guān)系。
基于影像數(shù)據(jù)的聚類技術(shù),是根據(jù)沒有先驗知識的影像數(shù)據(jù)分布,將無類別標(biāo)記的影像數(shù)據(jù)劃分為有含義的不同簇,通常包括四個步驟:
1. 影像特征提取和選擇;
2. 建立影像相似性模型;
3. 嘗試不同的聚類算法;
4. 評估最佳的分組方案。
影像數(shù)據(jù)聚類的挑戰(zhàn)性在于,如何在分簇未知的情況下,如何科學(xué)地找到一個最佳的分類方案。
影像數(shù)據(jù)挖掘應(yīng)用
人腦是高度復(fù)雜的時空動力系統(tǒng)?;谏窠?jīng)影像大數(shù)據(jù),群組獨(dú)立成分分析(ICA)作為一種信息驅(qū)動型算法,被廣泛應(yīng)用于探索人腦系統(tǒng)的時空特性。據(jù)文獻(xiàn)報道,中國科學(xué)院心理研究所研發(fā)出一種在多被試神經(jīng)影像數(shù)據(jù)中挖掘被試分組(亞組)的群組ICA方法-gRAICAR。模擬數(shù)據(jù)顯示,gRAICAR可以精確地揭示腦功能網(wǎng)絡(luò)的個體間差異。進(jìn)一步地,基于實(shí)際靜息態(tài)功能磁共振成像數(shù)據(jù),gRAICAR不僅能夠估計每個腦功能網(wǎng)絡(luò)的被試間的一致性,揭示被試間在腦功能上的相似關(guān)系,而且可以據(jù)此探測具有較高一致性的亞組。gRAICAR成為完全的信息驅(qū)動方法,為科研人員基于數(shù)據(jù)產(chǎn)生進(jìn)一步的科學(xué)假設(shè)提供參考,將為深入挖掘多被試神經(jīng)影像數(shù)據(jù),為建立與心理精神相關(guān)腦功能疾病的神經(jīng)影像標(biāo)志提供有力工具,為“開放式神經(jīng)科學(xué)”提供方法學(xué)支撐。
gRAICAR可以說是影像數(shù)據(jù)挖掘在神經(jīng)學(xué)領(lǐng)域中的一個應(yīng)用。當(dāng)然,影像數(shù)據(jù)挖掘肯定會在更廣泛的醫(yī)學(xué)領(lǐng)域中發(fā)揮著重要的作用,必將成為現(xiàn)代醫(yī)學(xué)走向智能醫(yī)療的一個利器!