有人認(rèn)為,大數(shù)據(jù)將有助于提高醫(yī)療保健行業(yè)的效率,促進(jìn)在該行業(yè)推行問責(zé)制。然而到目前為止,其他行業(yè)在這方面要成功得多:通過對多種數(shù)據(jù)源進(jìn)行大規(guī)模的整合和分析,獲得了實用價值。
那些成功行業(yè)弄明白了一個問題,那就是:當(dāng)不同的數(shù)據(jù)集在具體某個人的層面上連接起來時,大數(shù)據(jù)就會產(chǎn)生變革性的價值。相比之下,生物醫(yī)學(xué)大數(shù)據(jù)分散在研究機(jī)構(gòu)中,而且被特意地隔離起來,目的是為了保護(hù)病人的隱私。連接這些分散的數(shù)據(jù),既有技術(shù)方面的挑戰(zhàn),也有社會方面的挑戰(zhàn)。只有迎接兩個方面的挑戰(zhàn),才能使生物醫(yī)學(xué)大數(shù)據(jù)對醫(yī)療保健行業(yè)發(fā)揮充分的作用。在今天的“觀點”欄目中,我們要著重分析這種連接所帶來的挑戰(zhàn)。
競選活動、政府和企業(yè)利用大數(shù)據(jù)盡可能更多地了解選民或客戶情況,然后利用先進(jìn)的估算方法來制定策略。2012年奧巴馬競選的時候,把來自臉譜網(wǎng)(Facebook)、人口普查、選民列表以及積極推廣等多種渠道的數(shù)據(jù)綜合起來,以確認(rèn)、接近和影響那些猶豫不決的選民。國家安全局通過電話公司和互聯(lián)網(wǎng)公司來確認(rèn)恐怖分子。
通過用戶的上網(wǎng)歷史和地理環(huán)境,谷歌公司將每個人的搜索結(jié)果進(jìn)行了個性化處理。在所有的這些事例中,關(guān)鍵是已經(jīng)超出了綜合數(shù)據(jù)的范圍,將信息連接到了具體的人。知道在某個行政區(qū)域內(nèi)有很多猶豫不決的選民是有所幫助的,但是跟這些具體的人們獲得聯(lián)系可能有助于贏得一場競選。
獲得大數(shù)據(jù)可能會使醫(yī)生和研究人員驗證新的假設(shè),并確認(rèn)那些可能遭受干預(yù)的領(lǐng)域。例如,通過從不同地區(qū)的商店所獲得的雜貨購買模式,能否預(yù)測出公共衛(wèi)生數(shù)據(jù)庫中肥胖癥和2型糖尿病的患病率呢?能否像配藥時對后續(xù)配方進(jìn)行測量那樣,將家庭監(jiān)視裝置所記錄的運(yùn)動量跟降膽固醇藥物的療效相互關(guān)聯(lián)起來呢?病人的臉譜網(wǎng)網(wǎng)友在多大程度上能夠影響他們對生活方式的選擇和對醫(yī)學(xué)治療的依從呢?至于這些相互關(guān)聯(lián)的推斷是否真正地存在于大數(shù)據(jù)中,以及醫(yī)生們將如何利用這些信息,這些情況都還不清楚。
然而,將數(shù)據(jù)連接到具體病人的層面上來,是探索這些可能性的先決條件。
在有效利用生物醫(yī)學(xué)大數(shù)據(jù)方面,首要的挑戰(zhàn)就是要確定衛(wèi)生保健信息的潛在來源是什么,以及確定將這些數(shù)據(jù)連接起來之后所帶來的價值如何。將數(shù)據(jù)集按照“大小”從不同的方面進(jìn)行條理化,這個大數(shù)據(jù)就會提供解決問題的潛在方案。
一些大數(shù)據(jù),如電子健康記錄(EHRs),提供詳盡資料,包括病人接受診斷時的多種資料(如:圖片、診斷記錄等)。盡管如此,其他大數(shù)據(jù),如保險理賠數(shù)據(jù),提供縱深資料——顧及病人在很長一段時間里、在某個狹窄的疾病類型范圍內(nèi)所經(jīng)歷的病史。當(dāng)連接數(shù)據(jù)有助于填補(bǔ)空白的時候,這些大數(shù)據(jù)才會增加價值。
只有記住這些,才能更容易明白如何將衛(wèi)生保健系統(tǒng)之外非傳統(tǒng)來源的生物醫(yī)學(xué)數(shù)據(jù)融入這些情況之中。盡管數(shù)據(jù)的質(zhì)量有所不同,但社會媒體、信用卡購物、人口普查記錄以及大量其他類型的數(shù)據(jù),都會有助于收集一個病人的歷史資料,特別是有助于揭示可能對健康產(chǎn)生影響的社會因素和環(huán)境因素。