對醫(yī)療數(shù)據(jù)數(shù)字化及數(shù)據(jù)共享的標準化和倡導,改進并降低數(shù)據(jù)存儲成本,并能夠在商業(yè)硬件上運行,這些都促成了大數(shù)據(jù)在醫(yī)療行業(yè)的應用,并以更低的成本獲得更好的醫(yī)療衛(wèi)生服務為目標。
應用 大數(shù)據(jù) 的動力何在
醫(yī)療衛(wèi)生成本拉動了對以 大數(shù)據(jù) 為驅(qū)動的醫(yī)療衛(wèi)生方面的應用需求。在過去的幾十年里,美國的醫(yī)療衛(wèi)生支出已經(jīng)超過了GDP增量,并且超過了任何一個其他發(fā)達國家的醫(yī)療支出。據(jù)經(jīng)濟合作與發(fā)展組織(OECD)稱,盡管支出很高,但如果以便利性、平等性、質(zhì)量、效率以及健康人數(shù)為指標的話,美國的醫(yī)療衛(wèi)生系統(tǒng)在了11個國家中排名最后(如下圖所示)。對醫(yī)療數(shù)據(jù)數(shù)字化及數(shù)據(jù)共享的標準化和倡導,改進并降低數(shù)據(jù)存儲成本,并能夠在商業(yè)硬件上運行,這些都促成了 大數(shù)據(jù) 在醫(yī)療行業(yè)的應用,并以更低的成本獲得更好的醫(yī)療衛(wèi)生服務為目標。
以價值為準的醫(yī)療衛(wèi)生
“平價醫(yī)療衛(wèi)生法案”的一個目標是通過醫(yī)療信息技術(shù)的有效利用來改進醫(yī)療衛(wèi)生,從而達到以下目的:
提高醫(yī)療衛(wèi)生的質(zhì)量和協(xié)調(diào)能力,使成果與現(xiàn)有的專業(yè)知識一致。
縮減醫(yī)療衛(wèi)生支出,減少可避免的過度使用。
已改革的支付系統(tǒng)提供支持。
醫(yī)療保險公司、老年衛(wèi)生醫(yī)療制度(美國政府向65歲以上的人提供醫(yī)療保險)、醫(yī)療補助制度(美國政府向貧困者提供醫(yī)療保險)正在從收取服務性費用轉(zhuǎn)向以價值為基礎(chǔ)、數(shù)據(jù)為驅(qū)動的激勵轉(zhuǎn)變。這種激勵模式鼓勵高質(zhì)量、高性價比的醫(yī)療服務,并且還能展示對電子醫(yī)療記錄的有效利用。
醫(yī)療衛(wèi)生數(shù)據(jù)
醫(yī)療衛(wèi)生行業(yè)的數(shù)據(jù)80%都是非結(jié)構(gòu)化數(shù)據(jù),并且數(shù)據(jù)量還在呈指數(shù)式增長。對于這些非結(jié)構(gòu)化數(shù)據(jù)的獲取,比如醫(yī)療設(shè)備檢測結(jié)果、醫(yī)生的記錄、實驗結(jié)果、影像學報告、醫(yī)用函件、臨床數(shù)據(jù)和財務數(shù)據(jù)等,是改善病患醫(yī)療服務及提高效率的無價資源。
以下是未來可以受益于大數(shù)據(jù)分析的醫(yī)療衛(wèi)生數(shù)據(jù)源的例子:
索賠報告:是醫(yī)療衛(wèi)生服務供應商向保險公司提交的文件以獲得保險賠償?!督】当kU隱私及責任法》(Health Insurance Portability and Accountability Act,縮寫為HIPAA)中最關(guān)鍵的一個要素就是通過鼓勵在醫(yī)療服務供應商和保險公司之間廣泛使用電子文檔交換(Electronic Document Interchange,縮寫為EDI),建立電子醫(yī)療記錄方面的國家級行業(yè)標準來提高效率。索賠報告交換包括國際疾病分類(International Classification of Diseases,縮寫為ICD)診斷碼, 治療方案、日期、供應商ID以及花費金額。
電子健康/醫(yī)療記錄數(shù)據(jù)(Electronic Health/Medical Record, 縮寫為 EHR或者EMR): 醫(yī)療電子記錄激勵體系在建立之時便是用來鼓勵職業(yè)人員以及醫(yī)院采用并展示對已認證的EHR技術(shù)的有效應用。EHR能夠促進服務供應商和醫(yī)療機構(gòu)之間的數(shù)據(jù)全面分享。EHR包含醫(yī)療衛(wèi)生服務中所產(chǎn)生的數(shù)據(jù),例如診斷結(jié)果、治療方案、處方、實驗測試結(jié)果及放射診療結(jié)果。國際醫(yī)療衛(wèi)生領(lǐng)域信息系統(tǒng)指標體系及交換協(xié)議(HL7)提供了電子醫(yī)療記錄數(shù)據(jù)的交換、整合、共享、撤回等方面的基本標準。
醫(yī)藥研發(fā):臨床實驗數(shù)據(jù)、基因數(shù)據(jù)。
病人行為和情緒數(shù)據(jù)。
醫(yī)療設(shè)備數(shù)據(jù):家庭或醫(yī)院的患者傳感器數(shù)據(jù)。
大數(shù)據(jù) 在醫(yī)療衛(wèi)生領(lǐng)域的發(fā)展趨勢
現(xiàn)在有一種趨勢是向著循證醫(yī)學發(fā)展,即充分利用所有臨床數(shù)據(jù)并能在臨床和高級分析中對這些數(shù)據(jù)進行因子分解。抓取及收集關(guān)于某一個病人的所有信息能夠為我們分析醫(yī)療服務協(xié)調(diào)性、分析基于效果的補償體系、人口健康管理以及病人參與度和其他信息。
醫(yī)療衛(wèi)生領(lǐng)域大數(shù)據(jù)應用案例分析
用 大數(shù)據(jù)分析 工具減少醫(yī)療詐騙、浪費和濫用
在美國醫(yī)療產(chǎn)業(yè)中,因欺詐、浪費和濫用而產(chǎn)生的成本是造成醫(yī)療費用節(jié)節(jié)上升的重要因素,但大數(shù)據(jù)分析能稱為這一現(xiàn)象的變革者。醫(yī)療照護和醫(yī)療救助中心使用預測分析一年能夠杜絕總額超過2.1億的醫(yī)療保險欺詐?;趆adoop大數(shù)據(jù)平臺的基礎(chǔ)上,聯(lián)合保健公司實現(xiàn)了向可預測的建模環(huán)境的轉(zhuǎn)變。這個大數(shù)據(jù)平臺能夠以系統(tǒng)的、可重復的方式去甄別不正當?shù)乃髻r申請,并能獲得2200%的數(shù)據(jù)反饋。
辨別詐騙的關(guān)鍵是通過存儲和可追溯的記錄去分析歷史賠償記錄中大量的非結(jié)構(gòu)數(shù)據(jù)集,并利用機器學習的算法來甄別反常事物及模式。
醫(yī)療組織機構(gòu)可以通過分析病人的紀錄和賬單來查明異常,例如短期內(nèi)過度使用醫(yī)療服務,病人在不同地方的不同醫(yī)院受到了醫(yī)療服務,或是同一個病人在多家機構(gòu)得到了相同的處方。
醫(yī)療保護和醫(yī)療救助中心用預測分析來對某些特定的賠償或醫(yī)療服務供應者進行風險評分,甄別計費模式并發(fā)現(xiàn)用傳統(tǒng)方法難以查明的反常情況。以規(guī)則為基礎(chǔ)的模式基本上能自動標示部分賠償結(jié)果異常。而異常分析模式基本上是靠分析反常因素發(fā)現(xiàn)問題。預測分析模式是將某一賠償案例與另外一個已被確認為詐騙的案例進行比較來發(fā)現(xiàn)可疑之處。而圖表模式一般是依據(jù)關(guān)系網(wǎng)來分析,它認為一般存疑的醫(yī)療服務提供者總是與其他存在欺詐性的收費者保持緊密聯(lián)系。
通過預測分析提高效果
不少積極的嘗試,例如正在加速電子健康記錄(Electronic Health Records,EHRs)的有效利用、病人信息的數(shù)量和細節(jié),能夠通過多種信息源組合、分析各種各樣的結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)有助于提高診斷病人病狀的準確性、根據(jù)病狀匹配治療方案以及預測病人患病或再患病的風險。
以電子健康記錄(EHR)中的數(shù)據(jù)為來源的預測模型被應用于早起疾病的檢測,并且還降低了一些疾病的死亡率,比如充血性心力衰竭(CHF)和敗血癥等疾病。降低充血性心力衰竭(Congestive Heart Failure ,CHF)和敗血癥等疾病的死亡率。CHF在醫(yī)療保健支出的占比最大,CHF越早治療越好,這樣能夠避免花更多的錢治療并發(fā)癥。但是醫(yī)生常常會忽略它的早期臨床表現(xiàn)。來自于佐治亞理工學院的一個機器學習示例表明機器學習算法能夠比醫(yī)生從病人的圖表中分析出更多的因素,同時通過增加額外的特征,機器學習算法能夠有效提高模型區(qū)分CHF患者和非CHF患者的能力。
通過分析包含更多病患數(shù)據(jù)的大樣本數(shù)據(jù),預測模型和機器學習能發(fā)現(xiàn)之前未能發(fā)現(xiàn)的細微差別和模式。Optum實驗室從EHRs中搜集30萬病人的信息,為預測分析工具創(chuàng)建了一個龐大的數(shù)據(jù)庫。這些工具將會幫助醫(yī)生做出基于大數(shù)據(jù)信息的決策,從而改善病人的治療。
實時監(jiān)控病情
醫(yī)療機構(gòu)正在通過持續(xù)性監(jiān)控病人生命特征來提供更加具有主動性的治療,各種監(jiān)控數(shù)據(jù)能進行實時分析并及時發(fā)送警告給醫(yī)療服務提供者以便他們能及時了解病人病情的變化。通過機器學習算法進行實時分析能夠幫助醫(yī)生做出挽救性命的決策并且對一些病癥進行有效干預。
醫(yī)療 大數(shù)據(jù)架構(gòu) :我們應該怎么做?規(guī)?;笥衷撊绾巫?
我們需要收集數(shù)據(jù)、處理數(shù)據(jù)、存儲數(shù)據(jù),并最終將數(shù)據(jù)用于分析,機器學習和數(shù)據(jù)表盤。
數(shù)據(jù)擷取:NFS
通過網(wǎng)絡文件系統(tǒng)(NFS)協(xié)議可遠程訪問網(wǎng)絡共享磁盤。啟用NFS服務器后,可與客戶共享目錄和文件,讓用戶和程序像訪問存儲在本地的文件一樣訪問遠程系統(tǒng)上的文件。
與只允許集群數(shù)據(jù)導入或批量導入的其它版本的Hadoop不同,MapR允許通過NFS直接掛載群集本身,讓您的應用程序直接讀取、寫入數(shù)據(jù)。通過POSIX語義,該MapR文件系統(tǒng)允許直接修改文件和多個并發(fā)讀取寫入操作。掛裝NFS的集群可實現(xiàn)對數(shù)據(jù)源的簡單數(shù)據(jù)擷取,比如說從其他應用標準Linux命令、實用程序、應用程序和腳本的設(shè)備上擷取文件、圖片等。
通過使用NFS可從MapR集群移出移入數(shù)據(jù)至更昂貴的存儲空間。例如,您可以將處理過的熱數(shù)據(jù)轉(zhuǎn)移到關(guān)系數(shù)據(jù)庫或數(shù)據(jù)倉庫,您也可以將冷數(shù)據(jù)轉(zhuǎn)移到成本更低的Hadoop存儲中。
流數(shù)據(jù)擷?。篕AFKA API
由于越來越多的醫(yī)療方案需要實時分析和動態(tài)數(shù)據(jù),使用事件流擷取數(shù)據(jù)到系統(tǒng)中則將成為關(guān)鍵。 MapR流是一種新型的分布式通信系統(tǒng),通過Apache Kafka 0.9 API可使得生產(chǎn)者和消費者之間實現(xiàn)實時交流事件動態(tài)。主題是信息的邏輯化集合,可依據(jù)其將事件分門別類。
主題分區(qū)域放置。主題將并行數(shù)據(jù)負載傳遍多個服務器,這保證了更高的吞吐量和可擴展性。
讀取后消息并不會從主題中刪除,而且主題可以有多個不同的消費者,這使得抱有不同目的不同消費者處理可以處理同一消息。
批量處理
當快速相應時間不是核心要素時,就可采用數(shù)據(jù)批量處理。批量處理用于處理一段時間積累的數(shù)據(jù)集。例如白天收集EDI聲明,晚上打包至文件夾中準備用于處理。
Apache Hive是一個用于數(shù)據(jù)倉儲的開源Hadoop應用程序。它提供了一個便捷的方式在大量的非結(jié)構(gòu)化數(shù)據(jù)之上建立框架,然后對這些數(shù)據(jù)進行類似SQL查詢操作的批處理程序。
Apache的Spark是下一代分布式并行處理框架,可為機器學習、圖形處理、SQL等提供一套豐富的API。 對于迭代算法,Spark處理速度要比MapReduce更快,因為Apache盡量將相關(guān)信息儲存在儲存器中,而MapReduce則更多地直接從盤中讀取和寫入。
流式數(shù)據(jù)處理
Spark Streaming是基于Spark的實時計算框架,其將流式計算分解成一系列短小的批處理作業(yè)。因此,你可以像編寫批處理作業(yè)一樣編寫流作業(yè)。當然,處理大規(guī)模流式數(shù)據(jù),除了Spark Streaming, Apache Flink 和 Apache Storm也是不錯的選擇。
NOSQL數(shù)據(jù)庫存儲
存儲海量數(shù)據(jù),我們需要一個既能滿足快速寫入又能滿足大批量錄入的數(shù)據(jù)庫。MapR-DB應運而生,MapR-DB就是為了規(guī)?;瘜懭攵O(shè)計,因為事實上同時讀取的數(shù)據(jù)也存儲在一起。
有了MapR-DB, 數(shù)據(jù)可以通過關(guān)鍵域在數(shù)據(jù)集群之間完成自動分配,每個服務器對應一個子數(shù)據(jù)集的源。如果按行分組數(shù)據(jù),無疑會加快數(shù)據(jù)讀寫速度。
MapR-DB有兩個API:
JSON API——用于存儲文件模型
HBase API——用于列數(shù)據(jù)模型(尤其是時間序列數(shù)據(jù))
提供數(shù)據(jù)
終端應用,例如數(shù)據(jù)表盤、商業(yè)智能工具以及其他的應用,需要使用已處理好的數(shù)據(jù)。同時,這些數(shù)據(jù)可以再存回數(shù)據(jù)庫,方便日后使用。
Apache Drill 支持無模式SQL查詢引擎,因此能夠?qū)崿F(xiàn)海量數(shù)據(jù)的自助式數(shù)據(jù)探索。能夠?qū)崿F(xiàn)海量數(shù)據(jù)自助服務SQL查詢。Drill有如下優(yōu)點:
Drill支持多種數(shù)據(jù)讀取
Drill進行了交互式應用方面的優(yōu)化,可以在秒級別的時間查詢PB級別數(shù)據(jù)及萬億條記錄
數(shù)據(jù)分析師在使用Drill的時候,可以搭配一些例如Tableau的工具,就能夠快速實現(xiàn)數(shù)據(jù)可視化。
以上我們討論的架構(gòu)組建,都能與mapr 融合數(shù)據(jù)平臺在同一數(shù)據(jù)集群上運行。當然,整合Hadoop、Spark、實時數(shù)據(jù)庫、全球性事件流及大規(guī)模企業(yè)級存儲,還會帶來以下好處:
維護一個數(shù)據(jù)集群,意味著更少的系統(tǒng)架構(gòu)部署和管理,對系統(tǒng)安全、穩(wěn)定性和性能方面的監(jiān)控也減少了。這樣極大程度上降低了硬件和運營成本。
生產(chǎn)者和消費者在同一集群,將會降低因在不同集群和應用程序間復制或移動數(shù)據(jù)而造成的延遲。
案例架構(gòu)
Valence Health使用MapR融合數(shù)據(jù)平臺來創(chuàng)建作為該公司主要數(shù)據(jù)儲存地的數(shù)據(jù)湖。該公司產(chǎn)生3000條內(nèi)部數(shù)據(jù)記錄,涵蓋45種不同類型,包括實驗室測試數(shù)據(jù)、病人生命體征、處方、藥品津貼、索賠和支出等,其中索賠來自醫(yī)生和醫(yī)院兩方面。在過去,如果我們要從2000萬條實驗室記錄中檢索一條記錄,將花費22個小時。而MapR只需要20分鐘,并且其所消耗的硬件資源還會大大減少。
國立衛(wèi)生研究院為了整合各研究院的數(shù)據(jù)集,也創(chuàng)建了一個數(shù)據(jù)湖。這樣,所有的數(shù)據(jù)都集中在一個地方,更加方便數(shù)據(jù)共享和處理。
UnitedHealthcare IT部門采用Hadoop框架創(chuàng)建了一個平臺。該平臺上有各種工具,能夠
分析諸如索賠、處方、治療計劃參與者、合同服務提供者及相關(guān)的索賠審議結(jié)果等信息。
醫(yī)療衛(wèi)生服務的記錄系統(tǒng)流
Liaison科技提出一個基于云的方案,幫助組織機構(gòu)整合、管理、保護跨公司數(shù)據(jù)。針對醫(yī)療服務和生命科學產(chǎn)業(yè),他們提供了一個縱向解決方案,該方案面臨兩個難題:符合HIPAA規(guī)定需要以及數(shù)據(jù)格式及呈現(xiàn)方式的推廣。針對第一個問題,MapR將該規(guī)定的數(shù)據(jù)譜系流式化,數(shù)據(jù)流成為了一個記錄系統(tǒng)——一個無窮盡而又不可隨意更改的數(shù)據(jù)交換記錄日志。
針對后一問題,我們通過一個例子來了解。一個病人的記錄有可能被不同的用戶,例如制藥公司、醫(yī)院、診所、醫(yī)生等以文件或圖表形式呈現(xiàn)或以檢索等方式使用。通過把即時數(shù)據(jù)變化通過數(shù)據(jù)流的形式處理成MapR-DB HBase、MapR-DB JSON文件、圖表,并錄入搜索數(shù)據(jù)庫中。此外,通過應用MapR數(shù)據(jù)整合平臺的服務,Liaison可以保護所有的數(shù)據(jù),避免冗余數(shù)據(jù)和安全需求累積,而這是對備選方案的基本要求。
基因處理
Novartis團隊采用Hadoop 和Apache Spark打造了一個工作流系統(tǒng)。這個系統(tǒng)為NGS(Next Generation Sequencing)研究整合、處理、分析各種類型的數(shù)據(jù)。
隨著科技的發(fā)展,普通硬件無論是存儲性能還是快速處理大數(shù)據(jù)的能力都大幅提升。隨著通過捕獲、共享、存儲大量電子醫(yī)療服務數(shù)據(jù)和交易等技術(shù)的成熟,醫(yī)療服務行業(yè)正逐步變革,不斷提高產(chǎn)出并降低花銷。