大數(shù)據(jù)行業(yè)中,最不允許吹牛的一定是醫(yī)療大數(shù)據(jù)。大數(shù)據(jù)行業(yè)在近兩年迎來了爆發(fā),由于發(fā)展時間較短,因而可能出現(xiàn)靠吹牛發(fā)展客戶等衍生問題??紤]到醫(yī)療行業(yè)本身具有的嚴(yán)謹(jǐn)性和復(fù)雜性,醫(yī)療大數(shù)據(jù)內(nèi)憂外患之下更不容吹。
醫(yī)療大數(shù)據(jù)很特殊
醫(yī)療大數(shù)據(jù)是大數(shù)據(jù)的一種。第三方機構(gòu)預(yù)計到2020年醫(yī)療數(shù)據(jù)量將達到40萬億GB,是2010年的30倍,數(shù)據(jù)生成和增長速度還將不斷加快。相應(yīng)的,市場競爭的激烈可能產(chǎn)生靠放衛(wèi)星而競爭的現(xiàn)象,這是醫(yī)療大數(shù)據(jù)最忌諱的情況。
一般認(rèn)為無法使用傳統(tǒng)工具統(tǒng)計、存儲或者處理的大量數(shù)據(jù)集被稱為大數(shù)據(jù)。大數(shù)據(jù)的價值并不在數(shù)據(jù)本身,而是通過處理分析后得出的新的理論。通常來講,大數(shù)據(jù)可視化之前的一系列采集、傳輸、分析和處理過程都不會被展示,單純以大數(shù)據(jù)成果的方式進行展現(xiàn)會引發(fā)用戶對數(shù)據(jù)理解的不夠徹底,從而產(chǎn)生誤讀。
醫(yī)療行業(yè)的大數(shù)據(jù)必須務(wù)實
這種誤讀在其他行業(yè)或許并不會產(chǎn)生太大的實質(zhì)性影響,可是在醫(yī)療行業(yè)是絕對不允許存在的。由于生命的神圣性所在,醫(yī)療大數(shù)據(jù)必須務(wù)實。例如不久前所一滴血可以鑒定癌癥的傳言,消息一出多少人認(rèn)為人類大敵有望攻克,可當(dāng)謠言被揭穿能剩下的就只有信任的離去。
醫(yī)療數(shù)據(jù)方面,可獲取的健康醫(yī)療數(shù)據(jù)很多,數(shù)據(jù)規(guī)模也很大,部分?jǐn)?shù)據(jù)存在描述不規(guī)范或者展現(xiàn)方式特殊等問題。一些數(shù)據(jù)交由計算機很難進行相應(yīng)的預(yù)測分析,甚至連統(tǒng)計工作都難以完成,這種難以用于計算的數(shù)據(jù)價值低且不易處理。只有將文本數(shù)據(jù)轉(zhuǎn)換為數(shù)據(jù)庫表、關(guān)系圖以及數(shù)值型向量時才可以方便于大數(shù)據(jù)計算。
真假醫(yī)療大數(shù)據(jù)
醫(yī)療大數(shù)據(jù)經(jīng)常會出現(xiàn)采集樣本重復(fù)、存儲數(shù)據(jù)過時以及個體偏差影響分析結(jié)果等問題,而這就會使得數(shù)據(jù)的準(zhǔn)確性出現(xiàn)問題。除此之外,醫(yī)療大數(shù)據(jù)的采集一般來自于實際醫(yī)療案例之中。大數(shù)據(jù)想要發(fā)揮其優(yōu)勢需要保障數(shù)據(jù)量的大,而醫(yī)療活動中一個部門的醫(yī)治手段往往趨于單一化,而從中獲取醫(yī)療突破的可能性大幅下降。而解決這一問題的最佳方案應(yīng)當(dāng)采用多源同類數(shù)據(jù),尋求不同治療方案以及不同效果。
醫(yī)療數(shù)據(jù)去偽存真是個大工程
由于醫(yī)療行業(yè)的特殊性,醫(yī)療領(lǐng)域可劃分的范圍較廣,甚至對病人的看法也可以從多個角度不同方向進行剖析,就像中國本土的中西醫(yī)之爭對病情的解決手段就有著不同方式,而人體具有的特殊性進一步加深了這種差異化問題。不同人群對同一種方式的治療卻可能產(chǎn)生不同結(jié)果,使得醫(yī)療行業(yè)很難達成統(tǒng)一標(biāo)準(zhǔn)。
因此,醫(yī)療數(shù)據(jù)面臨執(zhí)行標(biāo)準(zhǔn)不統(tǒng)一以及醫(yī)生對于病癥描述程度不同的問題,想要解決同一病癥需要先進行大量個性化語句的統(tǒng)一梳理以達到最終歸一化的目標(biāo),才可能完成醫(yī)療數(shù)據(jù)的去偽存真而獲得真正的醫(yī)療大數(shù)據(jù)。
IBM Watson的醫(yī)療應(yīng)用初見成效
醫(yī)療大數(shù)據(jù)在后續(xù)的數(shù)據(jù)分析之中也會存在一些問題,比如部分?jǐn)?shù)據(jù)盡管可以獲取治療方案、治療效果等來制造模型,可是當(dāng)應(yīng)用于機器學(xué)習(xí)后,醫(yī)療數(shù)據(jù)的標(biāo)準(zhǔn)不一可能會引發(fā)偏差。就算是目前已經(jīng)進入商用階段的IBM Watson,在最初階段也是通過與醫(yī)院緊密合作,用了幾年時間來幫助Watson去除數(shù)據(jù)雜質(zhì),訓(xùn)練分析能力。盡管目前Watson已開始在全球很多醫(yī)院中開始使用,但在收集、存儲、統(tǒng)計到分析處理還面臨諸多挑戰(zhàn),醫(yī)療大數(shù)據(jù)的應(yīng)用和研發(fā)依然渴望新的突破。
醫(yī)療大數(shù)據(jù)需穩(wěn)中求進
云計算和大數(shù)據(jù)行業(yè)的技術(shù)革新速度十分驚人,在醫(yī)療大數(shù)據(jù)領(lǐng)域也是如此,盡管最近幾年有了諸多突破,但在火熱的背后依然需要強調(diào)的是安全至上。
眾所周知,大數(shù)據(jù)從采集到分析再到呈現(xiàn)結(jié)果這一過程需要需要解決一系列的問題,比如利用統(tǒng)計分析、知識推理、機器學(xué)習(xí)等建立模型,而醫(yī)療大數(shù)據(jù)時還需要應(yīng)對知識圖譜的建立以及碎片化問題。只有將圖譜和深度學(xué)習(xí)完美結(jié)合才能形成靠譜的決策模型。
醫(yī)療大數(shù)據(jù)還面臨諸多挑戰(zhàn)
在這一復(fù)雜的過程之中,醫(yī)療大數(shù)據(jù)面臨的壓力與挑戰(zhàn)遠遠超過其他行業(yè)。因為醫(yī)療是關(guān)乎生命的話題,生命的重量注定讓醫(yī)療大數(shù)據(jù)不可能大躍進式的發(fā)展,而是只能一穩(wěn)再穩(wěn)。醫(yī)療大數(shù)據(jù)需要回歸其工具的本質(zhì),成為醫(yī)生的助手,而不是成為一種營銷的噱頭。
我國的醫(yī)療在不斷進步,可是近年來所暴露出的問題多少對醫(yī)患雙方造成了影響。醫(yī)療大數(shù)據(jù)作為我國醫(yī)療改革的重頭戲之一,一定要嚴(yán)謹(jǐn)而行。醫(yī)療大數(shù)據(jù),容不得吹牛。