醫(yī)療大數(shù)據(jù)的基本概念
搭上“互聯(lián)網(wǎng)+”東風(fēng)的醫(yī)療,要走上發(fā)展快車(chē)道,離不開(kāi)“大數(shù)據(jù)”這把金鑰匙。如果我們把“互聯(lián)網(wǎng)+”醫(yī)療比作一幢高樓大廈,那么,“大數(shù)據(jù)”就是這幢大廈的地基,萬(wàn)丈高樓平地起,沒(méi)有堅(jiān)固的地基,空中樓閣難觸及;甚至,“大數(shù)據(jù)”還可以說(shuō)是這幢大廈的磚瓦,沒(méi)有充足的磚瓦,海市蜃樓不長(zhǎng)久。一個(gè)小小的比方,讓大數(shù)據(jù)的重要性不言而喻。這讓我們?cè)谔骄?ldquo;互聯(lián)網(wǎng)+”醫(yī)療之前,不得不先去認(rèn)識(shí)一下如此風(fēng)靡的“大數(shù)據(jù)”。
大數(shù)據(jù)的前世今生
回顧歷史,“大數(shù)據(jù)”這個(gè)時(shí)髦的詞匯,在物理學(xué)、生物學(xué)、環(huán)境生態(tài)學(xué)等領(lǐng)域,以及軍事、金融、通訊等行業(yè)存在已有時(shí)日。但是真正引起人們高度關(guān)注的,還是因?yàn)榻陙?lái)互聯(lián)網(wǎng)和信息行業(yè)的迅速發(fā)展所致。
且讓我們來(lái)看看“大數(shù)據(jù)”在互聯(lián)網(wǎng)行業(yè)的表現(xiàn)。
首先,它源于互聯(lián)網(wǎng)公司在日常運(yùn)營(yíng)中生成、累積的用戶網(wǎng)絡(luò)行為數(shù)據(jù)。這些數(shù)據(jù)的規(guī)模是如此龐大,以至于人們將不能再用G或T來(lái)衡量,所以,大數(shù)據(jù)的起始計(jì)量單位至少是P(1000個(gè)T)、E(100萬(wàn)個(gè)T)或Z(10億個(gè)T)。
那么,大數(shù)據(jù)到底有多大?一組名為“互聯(lián)網(wǎng)上一天”的數(shù)據(jù)告訴我們:一天之中,互聯(lián)網(wǎng)產(chǎn)生的全部?jī)?nèi)容可以刻滿1.68億張DVD;發(fā)出的郵件有2940億封之多(相當(dāng)于美國(guó)兩年的紙質(zhì)信件數(shù)量);發(fā)出的社區(qū)帖子達(dá)200萬(wàn)個(gè)(相當(dāng)于《時(shí)代》雜志770年的文字量);賣(mài)出的手機(jī)為37.8萬(wàn)臺(tái),高于全球每天出生的嬰兒數(shù)量37.1萬(wàn)……
截止到2012年,數(shù)據(jù)量已經(jīng)從TB(1024GB=1TB)級(jí)別躍升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級(jí)別。國(guó)際數(shù)據(jù)公司(IDC)的研究結(jié)果表明,2008年全球產(chǎn)生的數(shù)據(jù)量為0.49ZB,2009年的數(shù)據(jù)量為0.8ZB,2010年增長(zhǎng)為1.2ZB,2011年的數(shù)量更是高達(dá)1.82ZB,相當(dāng)于全球每人產(chǎn)生200GB以上的數(shù)據(jù)。而到2012年為止,人類(lèi)生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB,全人類(lèi)歷史上說(shuō)過(guò)的所有話的數(shù)據(jù)量大約是5EB。IBM的研究稱(chēng),整個(gè)人類(lèi)文明所獲得的全部數(shù)據(jù)中,有90%是過(guò)去兩年內(nèi)產(chǎn)生的。而到了2020年,全世界所產(chǎn)生的數(shù)據(jù)規(guī)模將達(dá)到今天的44倍。
一系列的數(shù)據(jù)無(wú)不向我們傳達(dá)著一個(gè)概念,那就是“大”,以幾何倍數(shù)增長(zhǎng)的大,而且越來(lái)越大。但是,如果就此顧名思義,定義了“大數(shù)據(jù)”,那還是有失偏頗。
最早提出“大數(shù)據(jù)”時(shí)代到來(lái)的,是全球知名咨詢公司麥肯錫,麥肯錫稱(chēng):“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來(lái)。”
牛津大學(xué)互聯(lián)網(wǎng)研究所維克托·邁爾·舍恩伯格教授指出,“大數(shù)據(jù)”所代表的是當(dāng)今社會(huì)所獨(dú)有的一種新型的能力——一種前所未有的方式,通過(guò)對(duì)海量數(shù)據(jù)進(jìn)行分析,獲得有巨大價(jià)值的產(chǎn)品、服務(wù)和見(jiàn)解。
“大數(shù)據(jù)”會(huì)給整個(gè)社會(huì)帶來(lái)從生活到思維上革命性的變化:企業(yè)和政府的管理人員在進(jìn)行決策的時(shí)候,會(huì)出現(xiàn)從“經(jīng)驗(yàn)即決策”到“數(shù)據(jù)輔助決策”再到“數(shù)據(jù)即決策”的變化;人們所接受的服務(wù),將以數(shù)字化和個(gè)性化的方式呈現(xiàn),借助3D打印技術(shù)和生物基金工程,零售業(yè)和醫(yī)療業(yè)亦將實(shí)現(xiàn)數(shù)字化和個(gè)性化的服務(wù);以小規(guī)模實(shí)驗(yàn)、定性或半定量分析為主要手段的科學(xué)分支,如社會(huì)學(xué)、心理學(xué)、管理學(xué)等,將以向大規(guī)模定量化數(shù)據(jù)分析轉(zhuǎn)型;將會(huì)出現(xiàn)數(shù)據(jù)運(yùn)營(yíng)商和數(shù)據(jù)市場(chǎng),以數(shù)據(jù)和數(shù)據(jù)產(chǎn)品為對(duì)象,通過(guò)加工和交易數(shù)據(jù)獲取商業(yè)價(jià)值;人類(lèi)將在哲學(xué)層面上重新思考諸如“物質(zhì)和信息誰(shuí)更基礎(chǔ)”、“生命的本質(zhì)是什么”、“生命存在的最終形態(tài)是什么”等本體論問(wèn)題。
綜上所訴,我們對(duì)“大數(shù)據(jù)”概念基本能有個(gè)全方面的認(rèn)識(shí)。“大數(shù)據(jù)”不是數(shù)據(jù)量的簡(jiǎn)單刻畫(huà),也不是特定算法、技術(shù)或商業(yè)模式上的發(fā)展,而是從數(shù)據(jù)量、數(shù)據(jù)形態(tài)和數(shù)據(jù)分析處理方式,到理念和形態(tài)上重大變革的總和。所謂“大數(shù)據(jù)”,是基于多源異構(gòu)、跨域關(guān)聯(lián)的海量數(shù)據(jù)分析所產(chǎn)生的決策流程、商業(yè)模式、科學(xué)范式、生活方式和觀念形態(tài)上的顛覆性變化的總和。
接軌“大數(shù)據(jù)”,傳統(tǒng)醫(yī)療遇挑戰(zhàn)
搭上“互聯(lián)網(wǎng)+”的列車(chē),醫(yī)療機(jī)構(gòu)便開(kāi)始行進(jìn)在醫(yī)療信息數(shù)字化的路上。
醫(yī)療數(shù)據(jù)是醫(yī)生對(duì)患者診療和治療過(guò)程總產(chǎn)生的數(shù)據(jù),包括患者基本數(shù)據(jù)、電子病歷、診療數(shù)據(jù)、醫(yī)學(xué)影像數(shù)據(jù)、醫(yī)學(xué)管理、經(jīng)濟(jì)數(shù)據(jù)、醫(yī)療設(shè)備和儀器數(shù)據(jù)等,以患者為中心,成為醫(yī)療信息的主要來(lái)源。而不斷數(shù)據(jù)化的信息,在使醫(yī)院數(shù)據(jù)庫(kù)信息容量不斷膨脹的同時(shí),也對(duì)疾病及病人的管理、控制和醫(yī)療研究起到了積極的作用,價(jià)值不菲。
但是,發(fā)展了那么多年的傳統(tǒng)醫(yī)療行業(yè),現(xiàn)在要跨入“互聯(lián)網(wǎng)+”的頻道,其固有的復(fù)雜性和特殊性致使轉(zhuǎn)型難度不容小覷。就拿一個(gè)初具規(guī)模的醫(yī)院來(lái)說(shuō),每天需要接待上萬(wàn)的患者前來(lái)就診,患者的基本信息、影像信息與其他特殊診療信息匯集在一起,那將是一個(gè)非常龐大的數(shù)據(jù)。
據(jù)初步統(tǒng)計(jì),上海市區(qū)域醫(yī)療信息平臺(tái)(上海市“醫(yī)聯(lián)工程”及區(qū)縣衛(wèi)生數(shù)據(jù)中心)已經(jīng)積累了覆蓋3900萬(wàn)人群、1400+TB數(shù)據(jù)量的電子診療與健康檔案等醫(yī)療衛(wèi)生數(shù)據(jù)(涵蓋了全市38家三級(jí)醫(yī)院3900萬(wàn)就診人群的診療信息,包括患者基本信息、就診信息、健康檔案、檢驗(yàn)及影像檢查報(bào)告、醫(yī)學(xué)影像圖像文件、住院相關(guān)病歷、醫(yī)保結(jié)算等醫(yī)療衛(wèi)生數(shù)據(jù),涉及就診記錄2.1億條,處方記錄9.1億條)。
日積月累,這個(gè)數(shù)據(jù)量將會(huì)持續(xù)快速增長(zhǎng),為醫(yī)院的數(shù)據(jù)存儲(chǔ)、集成、調(diào)用等應(yīng)用帶來(lái)巨大壓力。除了數(shù)據(jù)規(guī)模巨大之外,醫(yī)療行業(yè)的數(shù)據(jù)類(lèi)型和結(jié)構(gòu)極其復(fù)雜,如PACS影像、B超、病理分析等業(yè)務(wù)產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)存儲(chǔ)復(fù)雜,并且對(duì)傳統(tǒng)的處理方法和技術(shù)帶來(lái)巨大挑戰(zhàn)。
醫(yī)療大數(shù)據(jù)的主要來(lái)源
隨著醫(yī)療衛(wèi)生信息化建設(shè)進(jìn)程的不斷加快,醫(yī)療數(shù)據(jù)的類(lèi)型和規(guī)模也在以前所未有的速度迅猛增長(zhǎng),甚至到了在很大程度上無(wú)法利用目前主流軟件工具,在合理的時(shí)間內(nèi)達(dá)到擷取、管理并整合成為能夠幫助醫(yī)院進(jìn)行更積極目的經(jīng)營(yíng)決策的有用信息的地步。而且,如此具有特殊性、復(fù)雜性的龐大的醫(yī)療大數(shù)據(jù),其搜集如果僅靠個(gè)人甚至個(gè)別機(jī)構(gòu),那基本是不可能完成的任務(wù)。那么,這些數(shù)據(jù)到底是怎么產(chǎn)生的,又都來(lái)自于哪里呢?經(jīng)過(guò)簡(jiǎn)單的梳理,我們大致可以把他們歸檔在以下4個(gè)框架里:
(1)病人就醫(yī)過(guò)程中產(chǎn)生的信息。從患者進(jìn)入醫(yī)院開(kāi)始,掛號(hào)環(huán)節(jié)便將個(gè)人姓名、年齡、住址、電話等信息輸入完全了;隨后在醫(yī)生就醫(yī)環(huán)節(jié),病患的身體狀況、醫(yī)療影像等信息也將被錄入數(shù)據(jù)庫(kù);看病結(jié)束以后,患者買(mǎi)單結(jié)算的過(guò)程中,又將有費(fèi)用信息、報(bào)銷(xiāo)信息、醫(yī)保使用情況等信息被添加到醫(yī)院的大數(shù)據(jù)庫(kù)里面。這將形成醫(yī)療大數(shù)據(jù)最基礎(chǔ)卻也是最龐大的原始資源。
(2)臨床醫(yī)療研究和實(shí)驗(yàn)室數(shù)據(jù)。臨床和實(shí)驗(yàn)室數(shù)據(jù)整合在一起,使得醫(yī)療機(jī)構(gòu)面臨的數(shù)據(jù)增長(zhǎng)非???,一張普通CT圖像含有大約150+MB的數(shù)據(jù),一個(gè)標(biāo)準(zhǔn)的病理圖則接近5+GB。如果將這些數(shù)據(jù)量乘以人口數(shù)量和平均壽命,僅一個(gè)社區(qū)醫(yī)院累積的數(shù)據(jù)量就可達(dá)數(shù)萬(wàn)億字節(jié)甚至數(shù)千萬(wàn)億字節(jié)(PB)之多。
(3)制藥企業(yè)和生命科學(xué)。藥物研發(fā)所產(chǎn)生的數(shù)據(jù)是相當(dāng)密集的,對(duì)于中小型的企業(yè)也在百億字節(jié)(TB)以上的。在生命科學(xué)領(lǐng)域,隨著計(jì)算能力和基因測(cè)序能力逐步增加,美國(guó)哈佛醫(yī)學(xué)院個(gè)人基因組項(xiàng)目負(fù)責(zé)人詹森·鮑比就認(rèn)為,到2015年,將會(huì)有5000萬(wàn)人擁有個(gè)人基因圖譜,而一個(gè)基因組序列文件大小約為750MB。
(4)智能穿戴設(shè)備帶來(lái)的健康管理。隨著移動(dòng)設(shè)備和移動(dòng)互聯(lián)網(wǎng)的飛速發(fā)展,便攜式的可穿戴醫(yī)療設(shè)備正在普及,個(gè)體健康信息都將可以直接連入互聯(lián)網(wǎng),由此將實(shí)現(xiàn)對(duì)個(gè)人健康數(shù)據(jù)隨時(shí)隨地的采集,而帶來(lái)的數(shù)據(jù)信息量將更是不可估量的。
醫(yī)療大數(shù)據(jù)的特性:大數(shù)據(jù)性+醫(yī)療性
如此規(guī)模巨大的臨床實(shí)驗(yàn)數(shù)據(jù)、疾病診斷數(shù)據(jù)以及居民行為健康數(shù)據(jù)等匯聚在一起所形成的醫(yī)療大數(shù)據(jù),已然呈現(xiàn)出其作為大數(shù)據(jù)的特性,即:
(1)數(shù)據(jù)規(guī)模大(volume)。例如一個(gè)CT圖像含有大約150MB的數(shù)據(jù),而一個(gè)基因組序列文件大小約為750MB,一個(gè)標(biāo)準(zhǔn)的病理圖則大得多,接近5GB。
(2)數(shù)據(jù)結(jié)構(gòu)多樣(variety)。醫(yī)療數(shù)據(jù)通常會(huì)包含各種結(jié)構(gòu)化表、非(半)結(jié)構(gòu)化文本文檔(XML和敘述文本)、醫(yī)療影像等多種多樣的數(shù)據(jù)存儲(chǔ)形式。
(3)數(shù)據(jù)增長(zhǎng)快速(velocity)。一方面,醫(yī)療信息服務(wù)中包含大量在線或?qū)崟r(shí)數(shù)據(jù)分析處理,例如,臨床決策支持中的診斷和用藥建議、流行病分析報(bào)表生成、健康指標(biāo)預(yù)警等;另一方面,得益于信息技術(shù)的發(fā)展,越來(lái)越多的醫(yī)療信息被數(shù)字化,因此在很長(zhǎng)一段時(shí)間里,醫(yī)療衛(wèi)生領(lǐng)域數(shù)據(jù)的增長(zhǎng)速度將依然會(huì)很快。
(4)數(shù)據(jù)價(jià)值巨大(value)。毋庸置疑,數(shù)據(jù)是石油,是資源,是資產(chǎn),醫(yī)療大數(shù)據(jù)不僅與每個(gè)人的個(gè)人生活息息相關(guān),對(duì)這些數(shù)據(jù)的有效利用更關(guān)系到國(guó)家乃至全球的疾病防控、新藥品研發(fā)和頑疾攻克的能力。
而除了大數(shù)據(jù)所具有的特征(即volume,variety,value,velocity)外,醫(yī)療大數(shù)據(jù)還具有多態(tài)性、不完整性、時(shí)間性及冗余性等醫(yī)療領(lǐng)域特有的一些特征。
(1)多態(tài)性醫(yī)療大數(shù)據(jù)包括純數(shù)據(jù)(如體檢、化驗(yàn)結(jié)果)、信號(hào)(如腦電信號(hào)、心電信號(hào)等)、圖像(如B超、X線等)、文字(如主訴、現(xiàn)/往病史、過(guò)敏史、檢測(cè)報(bào)告等),以及用以科普、咨詢的動(dòng)畫(huà)、語(yǔ)音盒視頻信息等多種形態(tài)的數(shù)據(jù),是區(qū)別于其他領(lǐng)域數(shù)據(jù)的最顯著特征。
(2)不完整性醫(yī)療數(shù)據(jù)的搜集和處理過(guò)程經(jīng)常相互脫節(jié),這使得醫(yī)療數(shù)據(jù)庫(kù)不可能對(duì)任何疾病信息都能全面反映。大量數(shù)據(jù)來(lái)源于人工記錄,導(dǎo)致數(shù)據(jù)記錄的偏差和殘缺,許多數(shù)據(jù)的表達(dá)、記錄本身也具有不確定性,病例和病案尤為突出,這些都造成了醫(yī)療大數(shù)據(jù)的不完整性。
(3)時(shí)間性患者的就診、疾病的發(fā)病過(guò)程在時(shí)間上有一個(gè)進(jìn)度,醫(yī)學(xué)檢測(cè)的波形、圖像都是時(shí)間函數(shù),這些都具有一定的時(shí)序性。
(4)冗余性醫(yī)學(xué)數(shù)據(jù)量大,每天都會(huì)產(chǎn)生大量信息,其中可能會(huì)包含重復(fù)、無(wú)關(guān)緊要甚至是相互矛盾的記錄。
醫(yī)療大數(shù)據(jù)的應(yīng)用及案例
經(jīng)過(guò)數(shù)據(jù)的原始積累,并逐步走向成熟的醫(yī)療大數(shù)據(jù),將給我們帶來(lái)怎樣的效用呢?根據(jù)全球管理咨詢公司麥肯錫的一份最新報(bào)告顯示,醫(yī)療保健領(lǐng)域如果能夠充分有效地利用大數(shù)據(jù)資源,醫(yī)療機(jī)構(gòu)和消費(fèi)者便可節(jié)省高達(dá)4500億美元的費(fèi)用。
大數(shù)據(jù)在醫(yī)療行業(yè)的應(yīng)用可在以下幾個(gè)方面發(fā)揮積極作用:
(1)服務(wù)居民。居民健康指導(dǎo)服務(wù)系統(tǒng),提供精準(zhǔn)醫(yī)療、個(gè)性化健康保健指導(dǎo),使居民能在醫(yī)院、社區(qū)及線上的服務(wù)保持連續(xù)性。例如,提供心血管、癌癥、高血壓、糖尿病等慢性病干預(yù)、管理、健康預(yù)警及健康宣教(保健方案訂閱、推送);同時(shí)減少患者住院時(shí)間,減少急診量,提高家庭護(hù)理比例和門(mén)診醫(yī)生預(yù)約量。
(2)服務(wù)醫(yī)生。臨床決策支持,如用藥分析、藥品不良反應(yīng)、疾病并發(fā)癥、治療效果相關(guān)性分析、抗生素應(yīng)用分析;或是制定個(gè)性化治療方案。
(3)服務(wù)科研。包括疾病診斷與預(yù)測(cè)、提高臨床試驗(yàn)設(shè)計(jì)的統(tǒng)計(jì)工具和算法、臨床實(shí)驗(yàn)數(shù)據(jù)的分析與處理等方面,如針對(duì)重大疾病識(shí)別疾病易感基因、極端表現(xiàn)人群;提供最佳治療途徑。
(4)服務(wù)管理機(jī)構(gòu)。規(guī)范性用藥評(píng)價(jià)、管理績(jī)效分析;流行病、急病等預(yù)防干預(yù)及措施評(píng)價(jià);公眾健康監(jiān)測(cè),付款(或定價(jià))、臨床路徑的優(yōu)化等。
(5)公眾健康服務(wù)。包括危及健康因素的監(jiān)控與預(yù)警、網(wǎng)絡(luò)平臺(tái)、社區(qū)服務(wù)等方面。