從肝炎、流感到大數(shù)據(jù)預(yù)測疾病

責(zé)任編輯:editor006

2014-07-29 16:46:57

摘自:IT之家網(wǎng)站

但此后的2013年,《新科學(xué)家》發(fā)現(xiàn),在過去3年,該系統(tǒng)一直高估與流感相關(guān)的就醫(yī)量,在這類數(shù)據(jù)最有用的流感季節(jié)高峰期尤其預(yù)測不準(zhǔn)確。在2012/2013流感季節(jié),它預(yù)測的就醫(yī)量是美國疾控中心(CDC)最終記錄結(jié)果的兩倍;在2011/2012流感季節(jié),它高估了逾50%。

7月28日是世界肝炎日。關(guān)于這一點(diǎn),相信很多人或許已經(jīng)從媒體、社交網(wǎng)站和朋友圈得知,比如百度今天就通過各種社交渠道發(fā)布了一組主題為“小心肝兒”的圖片,包含了各種關(guān)于肝臟保護(hù)和使用的常識和竅門,各種有關(guān)肝炎的現(xiàn)狀等等。

這些知識包括:世界每三個(gè)慢性肝炎患者里就有一個(gè)在中國;再比如,中國是肝炎嚴(yán)重流行區(qū)之一,乙肝病毒感染者的人數(shù)有1.2億;還有,中國每年有近40萬人死于肝臟疾?。灰约?,每飲酒一次相當(dāng)于得一次輕度肝炎,等等。

但是這還遠(yuǎn)遠(yuǎn)不夠。

首先,你想跨越國界,來一場說走就走的旅行?根據(jù)去年CEVHAP(亞太撲滅病毒性肝炎聯(lián)盟)的數(shù)據(jù),亞太區(qū)每30秒就有一人死于病毒性肝炎,死亡率是艾滋病的3倍,而從1990年到現(xiàn)在,亞太區(qū)死于病毒性肝炎的人數(shù)已經(jīng)從每年70萬人增長到100萬人。

其次,你不進(jìn)行國際旅行,但你像這個(gè)國家里一半人那樣,住在城市里。賈雷德 戴蒙德在《槍炮、病菌與鋼鐵》中說的,很多群眾性傳染疾病只有在積聚起足夠多的人口才可能發(fā)生,很多我們熟知的傳染病出現(xiàn)的時(shí)間都出奇地晚,它們都源自大規(guī)模的城鎮(zhèn)化。你總知道中國的城鎮(zhèn)化將是最近數(shù)十年這個(gè)星球最大的奇觀吧?

對于病毒性肝炎,乃至其他一系列的傳染病來說,那些小貼士有用,但是不足夠有用。非常年代,你需要在過去的經(jīng)驗(yàn)中非常陌生、但未來會對你非常有用的工具:大數(shù)據(jù)。

為何要在肝炎日談大數(shù)據(jù)?

上面已經(jīng)說過,世衛(wèi)組織從2011年起設(shè)立世界肝炎日,絕非只因?yàn)檫@天是空閑的。人們并不重視肝炎,一方面是由于肝炎并不像其他一些病毒那樣致命和傳播快速、普遍,另一方面則是由于肝炎具備一些特征,例如只有部分疫苗,以及非季節(jié)性和非飛沫傳播等,使其并不那么容易預(yù)防。

但是你應(yīng)該比之前更重視它,因?yàn)榈谝凰呛車?yán)重的傳染疾病,其二是因?yàn)槲覀儸F(xiàn)在有了更好的工具:大數(shù)據(jù)。相信我,紅極一時(shí)的《大數(shù)據(jù)時(shí)代——生活、工作與思維的大變革》一書,就是源于谷歌使用大數(shù)據(jù)對2009年甲型H1N1流感的成功預(yù)測。作者在引言中說,“這是當(dāng)今社會所獨(dú)有的一種新型能力,以一種前所未有的方式,通過對海量數(shù)據(jù)進(jìn)行分析,獲得有巨大價(jià)值的產(chǎn)品和服務(wù),或深刻的洞見”。

具體到肝炎,盡管從百年前發(fā)現(xiàn)肝炎病毒和部分疫苗以來,人類在醫(yī)學(xué)上的進(jìn)展屈指可數(shù),但除了打疫苗和切斷傳播途徑、遠(yuǎn)離易感人群,其實(shí)還有另外一種積極的預(yù)防方法——那就是上述“深刻的洞見”,養(yǎng)成使用大數(shù)據(jù)分析工具的習(xí)慣,經(jīng)常性地了解所在地或目的地的流行病情況,盡可能地遠(yuǎn)離高危的傳染源發(fā)地。

目前可供個(gè)人使用的大數(shù)據(jù)工具主要有兩類,一類是來自醫(yī)學(xué)監(jiān)測機(jī)構(gòu)的大數(shù)據(jù),類似中國的疾控中心,美國的Carolinas Health Care,日本京都大學(xué)荒牧研究所等,以來自就診患者統(tǒng)計(jì)為主,輔以大數(shù)據(jù)分析手段,以顯示某地區(qū)目前流行病的發(fā)病情況為主,預(yù)測疾病流行走向?yàn)檩o;另一類則來自搜索引擎和數(shù)據(jù)分析機(jī)構(gòu),包括google trends的疾病預(yù)測,百度預(yù)測6月上線的疾病預(yù)測,以及基于社交搜索的sickwether、patientslikeme和融合性的Healthmap等,以預(yù)測疾病流行走向?yàn)橹?,展示區(qū)域發(fā)病情況為輔。

兩種數(shù)據(jù)工具的手段大同小異,區(qū)別只在于前者提供的數(shù)據(jù)多是針對大區(qū)域的、服務(wù)機(jī)構(gòu)的數(shù)據(jù)需要,后者則多針對小區(qū)域甚至某個(gè)城市商圈,為個(gè)人消費(fèi)者服務(wù)。考慮到中國人的具體需求,這里我們主要介紹針對國外旅行的google預(yù)測,和針對國內(nèi)的百度預(yù)測。

Google預(yù)測:曾經(jīng)很準(zhǔn),現(xiàn)在不好說

谷歌流感預(yù)測(www.google.org/flutrends)早在2008年即已推出,原理是采用流感趨勢系統(tǒng)監(jiān)測全美的網(wǎng)絡(luò)搜索,尋找與流感相關(guān)的詞語,比如“咳嗽”和“發(fā)燒”等,并利用這些搜索結(jié)果來提前9個(gè)星期預(yù)測可能與流感相關(guān)的就醫(yī)量。

2009年在H1N1爆發(fā)幾周前,谷歌公司的工程師們在《Nature》上發(fā)表了一篇論文,介紹了GFT,成功預(yù)測了H1N1在全美范圍的傳播,甚至具體到特定的地區(qū)和州,而且判斷非常及時(shí),令公共衛(wèi)生官員們和計(jì)算機(jī)科學(xué)家們倍感震驚。

這個(gè)工具最初運(yùn)行表現(xiàn)很好,許多國家的研究人員已經(jīng)證實(shí),其流感樣疾?。╥nfluenza-like illness, ILI)的估計(jì)是準(zhǔn)確的,并且可以提前數(shù)周乃至數(shù)月,不像疾控中心一樣要在流感爆發(fā)一兩周之后才可以做到。

但此后的2013年,《新科學(xué)家》發(fā)現(xiàn),在過去3年,該系統(tǒng)一直高估與流感相關(guān)的就醫(yī)量,在這類數(shù)據(jù)最有用的流感季節(jié)高峰期尤其預(yù)測不準(zhǔn)確。在2012/2013流感季節(jié),它預(yù)測的就醫(yī)量是美國疾控中心(CDC)最終記錄結(jié)果的兩倍;在2011/2012流感季節(jié),它高估了逾50%。

《scientists》雜志認(rèn)為錯(cuò)誤源自一種被稱作大數(shù)據(jù)浮夸(Big Data Hubris)的算法變化,例如對模型的人工優(yōu)化,或是模型對某些不當(dāng)關(guān)鍵詞的自動調(diào)整(例如某些搜索其實(shí)源于季節(jié)而非真實(shí)發(fā)?。?,google對此也做出了一些調(diào)整,但效果仍待評估。

百度預(yù)測:新鮮上線,期待閃光

百度的疾病預(yù)測(http://trends.baidu.com/disease/)于今年6月上線,目前可以對全國331個(gè)地級市,2870個(gè)區(qū)縣的四種疾病進(jìn)行未來趨勢的預(yù)測,某些城市甚至已經(jīng)細(xì)化到具體的商圈。目前該產(chǎn)品提供流感、肝炎、肺結(jié)核和性病四種疾病的活躍度、流行指數(shù),以及各種疾病相關(guān)的城市和醫(yī)院排行榜,用戶可以查看過去30天以內(nèi)的數(shù)據(jù)和未來7天的預(yù)測趨勢。而且百度還在疾病預(yù)測的頁面上,整合了百度旗下其他優(yōu)勢產(chǎn)品資源,比如在頁面右下角提供了百度百科和百度健康的鏈接,用戶點(diǎn)擊過去就可以了解到有關(guān)當(dāng)前頁面疾病的各種相關(guān)知識。

因?yàn)樯暇€時(shí)間較短,百度預(yù)測的效果還很難評估,但考慮到比google預(yù)測上線較晚,加入了一些最新的技術(shù)成果和數(shù)據(jù)采集結(jié)果,這款產(chǎn)品在技術(shù)上應(yīng)該是靠譜的。

例如,從公開資料來看,該產(chǎn)品模型的搭建一是通過歷史數(shù)據(jù)構(gòu)建統(tǒng)計(jì)規(guī)律性,比如流感或者手足口等疾病具有季節(jié)性周期的規(guī)律,二是通過研究疾病人數(shù)與其它相關(guān)數(shù)據(jù)的相關(guān)性來計(jì)算預(yù)測結(jié)果,同時(shí)從統(tǒng)計(jì)的角度來驗(yàn)證數(shù)據(jù)的正確性,以機(jī)器提供的數(shù)據(jù)為基礎(chǔ),加入對異常數(shù)據(jù)的監(jiān)控和分析。

而為了讓預(yù)測的準(zhǔn)確率更高,百度還做了另外兩方面的努力。其一是在數(shù)據(jù)合作上,不僅引入權(quán)威機(jī)構(gòu)的相關(guān)數(shù)據(jù)而且保持同步更新,這其中不僅包含數(shù)據(jù)互通,同時(shí)也會與合作方的專家進(jìn)行產(chǎn)品交流。

另一點(diǎn)不同在于,百度預(yù)測引入社交、天氣、人群遷徙等搜索之外的數(shù)據(jù),在搜索數(shù)據(jù)上,google的query數(shù)據(jù)依賴于Google Correlation產(chǎn)品,而百度則是直接從原始日志中進(jìn)行清洗、消岐、擴(kuò)展和分析,相對來說,理論上更容易避免“春天感冒怎么辦”這樣的查詢影響結(jié)果。此外,百度的地理劃分可以細(xì)化到城市商圈,可以查詢的疾病也比google多。有鑒于此,我們有理由給予其更多的期待。

結(jié)語:無論如何,你應(yīng)該試試

從此前世界杯預(yù)測的結(jié)果來看,百度擁有比google更靈活的數(shù)據(jù)挖掘手段,和更專業(yè)的分析團(tuán)隊(duì),但目前我們面對的現(xiàn)實(shí)是,百度尚未提供國外服務(wù),因此我建議在國內(nèi)使用百度預(yù)測,在國外則使用google預(yù)測,或者試試基于社交媒體數(shù)據(jù)的sickwether,據(jù)說準(zhǔn)確率也不錯(cuò),達(dá)到90%。

需要指出的是,對google的差錯(cuò)過分擔(dān)心是沒有必要的。正如《大數(shù)據(jù)時(shí)代》一書所說,大數(shù)據(jù)本身探尋的是一種趨勢,而非精準(zhǔn)性,大數(shù)據(jù)時(shí)代需要學(xué)會接受數(shù)據(jù)的不完美。換言之,不能因?yàn)椴痪_而放棄大數(shù)據(jù)的應(yīng)用和發(fā)展,若要無限接近統(tǒng)計(jì)結(jié)果的真,必須讓大數(shù)據(jù)與精細(xì)的傳統(tǒng)統(tǒng)計(jì)方法互補(bǔ),而非兩者相互替代。

百度也需要面對一些挑戰(zhàn)。例如,目前我國對大數(shù)據(jù)給健康服務(wù)業(yè)發(fā)展帶來的影響認(rèn)識不足,在當(dāng)前的產(chǎn)業(yè)發(fā)展規(guī)劃中,忽視了大數(shù)據(jù)對該產(chǎn)業(yè)的影響,這些都需要百度運(yùn)用其行業(yè)影響去改善。

總的來說,從現(xiàn)在開始,你應(yīng)該養(yǎng)成出門前看看“疾病預(yù)報(bào)”的習(xí)慣,正如看天氣預(yù)報(bào)那樣,它惠而不費(fèi),而且已經(jīng)足夠好用,這并不僅限于肝炎。至少我已經(jīng)開始這么做了。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號