大數(shù)據(jù)很熱門,各行各業(yè)都在談大數(shù)據(jù),據(jù)說連賣油條的都在用移動互聯(lián)網(wǎng),在談大數(shù)據(jù)了。自從我說了我們醫(yī)院今年的信息工作重點有三項:移動互聯(lián)網(wǎng)、云、大數(shù)據(jù)以后,我也被當成大數(shù)據(jù)專家,受邀發(fā)表議論和在論壇上演講了。
雖然大數(shù)據(jù)很熱門,大家也都在談大數(shù)據(jù),但是真正懂行的專家還是很少。因此,大數(shù)據(jù)有點像青少年談性Teenager sex,Everyone talks about it(每個人都在談), nobody really knows how to do it(沒人真正知道怎么做), everyone thinks everyone else is doing it(每個人都認為別人都在做),so everyone claims they are doing it too(所以每個人都聲稱自己在做)。
既然大家都不懂,起點也就差不多,所以受邀請演講我也就不會那么心虛了。在準備講稿之前,我刻意沒有去看書,也沒有去看文獻。完全從一個臨床醫(yī)生的角度去思考什么是大數(shù)據(jù),大數(shù)據(jù)會給醫(yī)學帶來什么影響,我甚至杜撰了幾個關于大數(shù)據(jù)的英文詞,如果這幾個詞真的是存在的,純屬巧合。
先談談循證醫(yī)學
最近,我的一位好友,來自美國的Michael A. Belfort教授在著名的“新英格蘭醫(yī)學雜志NEJM”上發(fā)表了一篇文章。對于做臨床的醫(yī)生來講,這輩子能夠在NEJM發(fā)表哪怕一篇文章也就值了,所以我就通過WhatsApp向他表示了祝賀。他的這篇文章是來自美國母胎醫(yī)學協(xié)作網(wǎng)絡的一項大樣本多中心隨機對照研究,是I類證據(jù),理論上講這篇文章的結論是基本上判了STAN(ST Analysis,胎兒心電圖ST段分析)的“死刑”。
這篇文章的題目是:A RandomizedTrial of Intrapartum Fetal ECG ST-Segment Analysis.Michael A. Belfort, M.B.,B.Ch., M.D., Ph.D.et al, N Engl J Med 2015; 373:632-641,August 13, 2015.
本研究招募了11,108 名孕婦,隨即分為“開放組”和“不開放組”,“不開放組”有5576名孕婦,進行常規(guī)胎心監(jiān)護;“開放組”有5532名孕婦,在常規(guī)胎心監(jiān)護的基礎上給予STAN結果。對兩組孕婦比較圍產(chǎn)兒總的不良結局:死胎、新生兒死亡、5分鐘Apgar評分小于等于3分、新生兒抽搐、臍動脈pH 小于等于7.05、剩余堿大于等于12 mmol/L、分娩時新生兒插管或人工通氣、或新生兒腦病。在“開放組”組,共有52例不良結局(0.9%),在“不開放組”,共有40例不良結局(0.7%)。結論是,在常規(guī)胎心監(jiān)護的基礎上,加用STAN并不能改善圍產(chǎn)兒的不良結局。
這種小概率事件,通過樣本量不大的研究,得出的就是一個I類的循證醫(yī)學證據(jù)。但是,很有可能多幾例和少幾例的情況就會導致完全不同的結論。還有可能是如果其他人再做一個同樣的研究,也可能得出完全相反的結論,也是I類證據(jù)。
讓我們再看看另外一個案例,OGTT的標準是如何制訂的。在1964年,O’Sullivan招募752名正常孕婦,口服100克葡萄糖,在空腹、口服糖水1h、2h、3h測定血糖水平,取第97.7百分位數(shù),得到的平均血糖具體數(shù)值是:90mg/dl 、165mg/dl 、143mg/dl 、127mg/dl。為了記憶方便,O’Sullivan修正了數(shù)值(Rounded off value),制訂了沿用到現(xiàn)在的OGTT標準:90mg/dl 、165mg/dl、145mg/dl、125mg/dl。目前我們臨床應用的很多診斷標準都是這么來的,從幾百人到幾千人的數(shù)據(jù)形成標準,由點推論到面。
這就是現(xiàn)代醫(yī)學的基礎,這就是現(xiàn)代醫(yī)學的標準。如果從大數(shù)據(jù)的角度來看,無論是Michael A. Belfort教授的結論,還是OGTT的標準,都樣本量太小,太不可靠。
大數(shù)據(jù)就是精準醫(yī)療
大數(shù)據(jù)會從根本上改變我們目前的臨床醫(yī)學,這種改變將會是革命性的,是顛覆性的。我們現(xiàn)在的診斷標準和臨床指南是從幾百人到幾千人的數(shù)據(jù)中得到的,是抽樣得到的,是由點推論到面(From someone to ALL),是農(nóng)業(yè)時代和工業(yè)時代的做法?,F(xiàn)在我們已經(jīng)進入了信息時代,互聯(lián)網(wǎng)時代,大數(shù)據(jù)時代,這種舊的思維方式和統(tǒng)計學方法已經(jīng)不適用了。我上面所列舉的兩個例子完全可以用海量的大數(shù)據(jù)來替代,因此得到的數(shù)據(jù)會更加可靠,結論也就會更加可信。
以下是我對醫(yī)學大數(shù)據(jù)的定義:
Big Data: Each and everyone=ALL,大數(shù)據(jù)就是包括所有的人
Population Big Data(群體大數(shù)據(jù)):Something about everyone(所有人的某些方面的數(shù)據(jù),例如所有人血糖的平均值)
Personal Big Data(個人大數(shù)據(jù)):Everything about someone(某個人的所有數(shù)據(jù),例如一個人的基因組學、蛋白組學等)
Population Big Data(群體大數(shù)據(jù))+PersonalBig Data(個人大數(shù)據(jù))=Precision Medicine(精準醫(yī)療),將一個人的個人大數(shù)據(jù)與群體的大數(shù)據(jù)比較就會發(fā)現(xiàn)問題在哪里,就可以進行真正的精準醫(yī)療。
大數(shù)據(jù)會改變整個臨床醫(yī)學
現(xiàn)有的臨床疾病診斷體系基本上是以器官和系統(tǒng)為基礎的,我們的臨床學科也是以器官和系統(tǒng)分類的,例如腎臟科、心臟科、眼科、血液科等,這是在農(nóng)業(yè)時代形成和工業(yè)時代完善的。
但是,很多疾病的表型(例如腎炎、各種遺傳綜合征)看上去是一樣的或很類似的,但是基因型可能完全不一樣。對于這些表型相同或類似的腎炎,我們需要的是完全不同的治療方法,在治療之前我們必須知道它們的基因型;很多表型完全不相干的疾病,可能基因型是完全一樣的,例如某一細胞信號通路的障礙可能會同時導致腎臟出問題、肝臟出問題,眼睛也出問題。但是這種病人往往會找不同科室的醫(yī)生去看,采取的治療方案也會不一樣。
Big Data(大數(shù)據(jù))&Sequencing(測序)將會改變這一切,未來的疾病可能會是以分子分型的,而不是像現(xiàn)在這樣以器官和系統(tǒng)命名的。未來你的診斷可能不會是像現(xiàn)在這樣的“腎炎”、“肝炎”了,可能會是由各種數(shù)字和代碼組成的,例如你的疾病是:2698-4D7B,或者是A28-736,我們的科室也可能不僅僅是眼科或腎臟科了,還可能會出現(xiàn)各種奇怪名稱的科室和專科醫(yī)生。
Big Data會改變醫(yī)學統(tǒng)計學和臨床流行病學,有了大數(shù)據(jù),大多數(shù)的統(tǒng)計學方法可能都不需要了。
Big Data會改變疾病的診斷體系,分子診斷的名稱會取代多數(shù)的器官和系統(tǒng)的疾病名稱。
Big Data會改變治療方式,精準的靶向治療去取代目前的粗放式的shotgun治療方法。
沒有Big Data的時代,我們很多疾病的診斷標準都是Arbitrary(隨意的), Presumption(推定的),Rounded off value(修正的數(shù)值和標準),現(xiàn)在是時候改變了。
醫(yī)療大數(shù)據(jù)存在的問題
It’s not big enough
It’s not clean enough
真正的醫(yī)療大數(shù)據(jù)專家太少