国产高清天干天天美女,亚洲中文AⅤ中文字幕在线

生物基因大數(shù)據(jù)激增，分析健康數(shù)據(jù)或揭示疾病如何發(fā)生

責(zé)任編輯：editor004

作者：翟文珠

2016-08-17 11:23:22

摘自：新浪科技

自2012年美國(guó)總統(tǒng)奧巴馬提出“大數(shù)據(jù)”(Big Data)以來，生物大數(shù)據(jù)如火如荼地發(fā)展。各種電子設(shè)備的普及以及健康數(shù)據(jù)記錄App的出現(xiàn)，給這個(gè)時(shí)代帶來了海量的數(shù)據(jù)，也給醫(yī)學(xué)界帶來了可觀的研究對(duì)象。

自2012年美國(guó)總統(tǒng)奧巴馬提出“大數(shù)據(jù)”(Big Data)以來，生物大數(shù)據(jù)如火如荼地發(fā)展。通過高通量測(cè)序，我們已經(jīng)積累了龐大的基因數(shù)據(jù)，通過移動(dòng)互聯(lián)網(wǎng)，我們也獲得了海量的健康信息。這些數(shù)據(jù)的應(yīng)用，將為疾病的診斷、分型、醫(yī)藥開發(fā)提供新方向以及新工具。然而如何分析基因以及健康數(shù)據(jù)，是橫亙?cè)诖髷?shù)據(jù)本身與解決健康問題之間難以逾越的鴻溝。不過有一點(diǎn)我們可以確信：當(dāng)大數(shù)據(jù)分析的精度越來越高時(shí)，我們對(duì)疾病發(fā)生的過程就會(huì)有更深入的了解。

21世紀(jì)初，人類基因組計(jì)劃(HGP)發(fā)布了第一張人類基因草圖，人的基因組約有30億個(gè)堿基對(duì)，意味著每一個(gè)人的基因組有3Gb以上的數(shù)據(jù)。該計(jì)劃曾與上世紀(jì)的曼哈頓計(jì)劃(原子彈制造)、阿波羅登月計(jì)劃并稱為三大科學(xué)計(jì)劃，為本世紀(jì)的一個(gè)里程碑式的科學(xué)工程。

15年過去了，基因組測(cè)序技術(shù)發(fā)展之快已經(jīng)超乎人們的想象。十年前，這項(xiàng)技術(shù)還只是實(shí)驗(yàn)室中一個(gè)“迷人”但又昂貴的研究工具?，F(xiàn)在，它卻已經(jīng)漸漸步入醫(yī)療界，成為一種略顯“尖端”的診斷技術(shù)。該技術(shù)也引領(lǐng)生物醫(yī)學(xué)領(lǐng)域進(jìn)入大數(shù)據(jù)時(shí)代。

早前，曾有人預(yù)言，當(dāng)個(gè)人基因組測(cè)序費(fèi)用下降到1000美元時(shí)，就標(biāo)志著我們的醫(yī)學(xué)將進(jìn)入個(gè)體化醫(yī)療(Personalized Medicine)的時(shí)代?，F(xiàn)在，這個(gè)目標(biāo)已基本達(dá)到，隨著這項(xiàng)技術(shù)的迅猛發(fā)展和成本的扁平化，它已經(jīng)開始給我們帶來了龐大的數(shù)據(jù)，包括基因組、蛋白組等各類組學(xué)(omics)的出現(xiàn)，也帶來了不少數(shù)據(jù)。

1. 海量數(shù)據(jù)的產(chǎn)生

剛過去的七八年間，我們儲(chǔ)存的個(gè)人基因組數(shù)據(jù)量已達(dá)到106規(guī)模，這個(gè)數(shù)量如此驚人，且這只是剛剛開始。每年Illumina公司的HiSeq X 10測(cè)序儀已經(jīng)可以完成超過18000人的基因組測(cè)序工作，該測(cè)序系統(tǒng)已分布在全球頂尖測(cè)序中心，每天產(chǎn)生大量的數(shù)據(jù)。英國(guó)2014年也啟動(dòng)了“十萬人基因組計(jì)劃”，美國(guó)和中國(guó)則宣布要完成多達(dá)一百萬人的基因組數(shù)據(jù)收集工作。

基因測(cè)序數(shù)據(jù)正在以更快的速度翻倍。2015年以后，以歷史累積的測(cè)序數(shù)據(jù)來看，每7個(gè)月就能翻一番， Illumina儀器測(cè)序所得的數(shù)據(jù)，每12個(gè)月就能翻一番；如果僅以摩爾定律來看，每18個(gè)月數(shù)據(jù)量就能翻一番。這種情況將帶來一個(gè)巨大的“數(shù)據(jù)黑洞”。圖片來自nature.com

以上所提及的，只是大數(shù)據(jù)時(shí)代下的一個(gè)縮影，現(xiàn)在面臨的還有其他數(shù)據(jù)。比如，伴隨基因組計(jì)劃的發(fā)展，人類蛋白組計(jì)劃和基因測(cè)序結(jié)果在醫(yī)療界的應(yīng)用等也被逐步提出，它們也正在給大數(shù)據(jù)“添磚加瓦”。所謂人類蛋白組計(jì)劃，主要目的在于研究所有人類基因編碼產(chǎn)生的蛋白質(zhì)。關(guān)于這個(gè)，我們來看一個(gè)研究者的故事。

美國(guó)斯坦福大學(xué)邁克爾?斯奈德(Michael Snyder)。來源：斯坦福大學(xué)網(wǎng)站

邁克爾·斯奈德(Michael Snyder)是美國(guó)斯坦福大學(xué)的一名分子遺傳學(xué)家。當(dāng)他抱著好奇的心態(tài)測(cè)了自己的基因組后，得到了一些“驚喜”。他發(fā)現(xiàn)，自己是一名II型糖尿病易感基因的攜帶者，盡管在這之前，他并沒在自己身上發(fā)現(xiàn)任何此類疾病的風(fēng)險(xiǎn)因素，包括肥胖、家族病史等等。在接下來的14個(gè)月，斯奈德持續(xù)監(jiān)控了自己體內(nèi)相應(yīng)RNA的活性和蛋白表達(dá)情況。在一次感染呼吸道病毒后，他發(fā)現(xiàn)自己體內(nèi)的蛋白表達(dá)發(fā)生了變化，并且有相應(yīng)的生物學(xué)通路被激活。接著，他被診斷出了糖尿病?？雌饋?，這場(chǎng)病就是由這次病毒感染所觸發(fā)的。此后，他還在患上萊姆關(guān)節(jié)炎時(shí)，也監(jiān)控了自己體內(nèi)的蛋白表達(dá)變化。這時(shí)，他的研究已經(jīng)產(chǎn)生了多達(dá)50Gb的數(shù)據(jù)，這還僅僅只是關(guān)于他個(gè)人的研究數(shù)據(jù)。當(dāng)他將這項(xiàng)研究擴(kuò)展至100個(gè)人時(shí)，并將研究目標(biāo)擴(kuò)展至13類“組學(xué)”(包括蛋白組、腸道菌群的轉(zhuǎn)錄組等等)，而實(shí)際上，按照他的計(jì)劃，要想真正做到預(yù)測(cè)疾病，還需要將研究對(duì)象增加至上百萬個(gè)病人。如此這樣，它將會(huì)帶來多大的數(shù)據(jù)量？

各種電子設(shè)備的普及以及健康數(shù)據(jù)記錄App的出現(xiàn)，給這個(gè)時(shí)代帶來了海量的數(shù)據(jù)，也給醫(yī)學(xué)界帶來了可觀的研究對(duì)象。過去的幾十年間，醫(yī)生如果要觀察病人的心血管健康情況，往往會(huì)給他們做這么一個(gè)小測(cè)試：讓他們?cè)谝欢纹骄?、穩(wěn)固的路上行走6分鐘，并記錄他們的行走距離。這個(gè)測(cè)試不僅可用于預(yù)測(cè)肺移植者的存活率，還可用于檢測(cè)肌肉萎縮的病程發(fā)展，甚至可以評(píng)估心血管患者的健康狀況。這種小測(cè)試已被運(yùn)用于多項(xiàng)醫(yī)療研究中，但在過去，最大規(guī)模的醫(yī)療研究項(xiàng)目中，這種參與者也很少能達(dá)到一千人。

智能手機(jī)中健康類App的出現(xiàn)，從而能讓研究者獲取大量人群的數(shù)據(jù)。圖片來自nature.com

不過，這個(gè)情況近年來發(fā)生了很大的變化。在2015年3月進(jìn)行的一項(xiàng)心血管研究中，研究者尤安·阿什利(Euan Ashley)在兩周時(shí)間內(nèi)就拿到了6000個(gè)人的測(cè)試結(jié)果，這就得益于現(xiàn)在有數(shù)百萬計(jì)的人擁有智能手機(jī)和健身追蹤器。到了6月份，參與到這項(xiàng)研究中的人數(shù)達(dá)到了40000人，這僅僅依靠的是一款叫做“我的心臟計(jì)數(shù)”(My Health Counts，見上圖)的蘋果應(yīng)用。有了這個(gè)應(yīng)用軟件，阿什利甚至可以招募來自全球的參與者，獲取他們的測(cè)試結(jié)果。那樣的話，他得到的數(shù)據(jù)又將是多少？面對(duì)這個(gè)現(xiàn)狀，不少研究者表示，這些海量數(shù)據(jù)可能會(huì)淹沒現(xiàn)有的分析渠道，并對(duì)數(shù)據(jù)存儲(chǔ)提出前所未有的“高”要求。

2. “大數(shù)據(jù)”時(shí)代下的挑戰(zhàn)

在群體基因組研究的浪潮下，雖然更多的人關(guān)注的僅僅只是整個(gè)基因組中的外顯子部分，即基因組中可編碼產(chǎn)生蛋白的部分，它占到了整個(gè)基因組的1-5%，這能夠?qū)⑿枰治龅臄?shù)據(jù)量減少到原來的1%。但即使在這種情況下，每年產(chǎn)出的數(shù)據(jù)量仍可達(dá)4000萬Gb。這就帶來了第一個(gè)難題，如何存儲(chǔ)這么大的數(shù)據(jù)量？

盡管這還只是這個(gè)領(lǐng)域最基本的問題，仍需要巨大的資源來解決。這就是近年來網(wǎng)絡(luò)上最常出現(xiàn)的一個(gè)詞——云(Cloud)出現(xiàn)的契機(jī)所在。這么大的數(shù)據(jù)量，必然無法僅僅保存在固定的設(shè)備上，需要借助互聯(lián)網(wǎng)來實(shí)現(xiàn)，也即是所謂的“云存儲(chǔ)”。此外，這些數(shù)據(jù)帶來的處理危機(jī)也是巨大的，電腦處理能力也將局限著它們的應(yīng)用。這個(gè)問題的初步解決依然要依靠“云”，也就是現(xiàn)在所謂的“云計(jì)算”。

即使處理好了海量數(shù)據(jù)的存儲(chǔ)問題，我們還將迎來另一個(gè)更讓人頭痛的問題——這些數(shù)據(jù)說明了什么？現(xiàn)在關(guān)于基因組學(xué)的臨床研究，往往聚焦于識(shí)別個(gè)人基因組中可擾亂基因功能的“小錯(cuò)誤”，即所謂單核苷酸突變(single-nucleotide variants, SNPs)，即使這些突變往往存在于僅占基因組1%的外顯子區(qū)域，平均下來，依然有近13000個(gè)之多，而其中的2%已被預(yù)知可影響相應(yīng)蛋白的變化，但要從中找出某類疾病的具體致病基因，仍是一個(gè)巨大的挑戰(zhàn)。

自奧巴馬提出了“精準(zhǔn)醫(yī)學(xué)”的概念，這個(gè)方向就一路紅火。即使現(xiàn)在已經(jīng)有了測(cè)序技術(shù)和分析工具這些手段，有了電子健康記錄這位“好幫手”，這種醫(yī)療方法的理想和現(xiàn)實(shí)之間仍然有著巨大的鴻溝。在這個(gè)領(lǐng)域，仍然存在多種障礙。比如，即使在電子健康記錄普及和新療法研發(fā)成功的前提下，想要依靠臨床醫(yī)生來實(shí)現(xiàn)這些療法，往往還需要對(duì)他們進(jìn)行不間斷的培訓(xùn)，以幫助他們?cè)谧鲠t(yī)學(xué)決定前了解足夠多的細(xì)節(jié)信息。

此外，電子健康記錄的不可共享性(即涉及到病人隱私的問題)，為精準(zhǔn)醫(yī)療的實(shí)現(xiàn)設(shè)置了不小的障礙。很多時(shí)候，治療患者個(gè)體病例的特異性信息往往被患者個(gè)人和治療機(jī)構(gòu)所把持，到不了研究者手里，那么就無法據(jù)此信息來改進(jìn)一些治療方法，因此也就沒辦法實(shí)現(xiàn)對(duì)個(gè)人的“個(gè)體化醫(yī)療”。這些問題往往反映生物醫(yī)學(xué)領(lǐng)域需要信息處理專家的介入和幫助。遺憾的是，生物信息學(xué)家在學(xué)術(shù)領(lǐng)域也僅僅只占很少的席位，更別提在醫(yī)學(xué)領(lǐng)域，還需要給他們提供更多的職位和機(jī)會(huì)。

3. “大數(shù)據(jù)”帶來的機(jī)遇

有挑戰(zhàn)也必然會(huì)帶來機(jī)遇，這個(gè)機(jī)遇可以體現(xiàn)在生物醫(yī)學(xué)領(lǐng)域的多個(gè)方面，比如醫(yī)療界的診斷方法更新、疾病分型更新、醫(yī)藥界藥物開發(fā)新方向、醫(yī)學(xué)界疾病治療新方法，甚至生物學(xué)科基礎(chǔ)研究領(lǐng)域的新工具等等。

2013年，安吉麗娜·朱莉的故事轟動(dòng)全球，為減少患上乳腺癌的風(fēng)險(xiǎn)，她進(jìn)行了預(yù)防性的雙乳腺切除術(shù)，而這個(gè)決定是在她檢測(cè)到自身攜帶一種風(fēng)險(xiǎn)基因——BRCA基因后才做出的。這類基因能帶來顯著的致病風(fēng)險(xiǎn)，約有55-65%的乳腺癌患者攜帶有害的BRCA1基因突變，45%的攜帶BRCA2突變。對(duì)朱莉來說，雖然她攜帶的僅僅是前一個(gè)基因，已足以讓她做出預(yù)防性手術(shù)的決定。這個(gè)故事給出了一個(gè)鮮活的例子，就是如何把個(gè)體測(cè)序得到的數(shù)據(jù)與臨床診斷聯(lián)系在一起，這就好像人類正在從自己的基因組中找到這些失落的寶藏，從而幫助自己預(yù)防一些惡性疾病，但這只是這個(gè)時(shí)代所帶來的一個(gè)福利而已，并且只占到很少的一部分。

以糖尿病為例，不精確的疾病分型，對(duì)于前期的預(yù)防和后期的治療都十分不利。之前，醫(yī)學(xué)界已經(jīng)知道，有多達(dá)百余種途徑可能導(dǎo)致糖尿病的發(fā)生，涉及到胰腺、肝臟、肌肉、大腦甚至脂肪的不同變化。現(xiàn)代通過基因的研究發(fā)現(xiàn)，對(duì)不同類型糖尿病而言，其致病基因十分多樣。這時(shí)，如果將這些不同亞型的糖尿病混為一談，就會(huì)讓人很難弄明白，為什么攜帶同樣的基因突變，病人在面對(duì)同一治療方案時(shí)，會(huì)出現(xiàn)完全不同的治療效果。

正如生物化學(xué)家阿蘭·阿蒂(Alan Attie)所說的那樣，“從致病基因到體重、血糖水平等表型的出現(xiàn)這一過程，往往有許多步，其中每一步都可能發(fā)生基因突變，這最終會(huì)削弱基因和表型之間的聯(lián)系”。因此，只看表型(即臨床癥狀)和只看突變基因，得到的都只會(huì)是片面的結(jié)果。只有將兩者有機(jī)結(jié)合起來，才能更加深我們對(duì)疾病的了解，做到更精確地進(jìn)行疾病分型，以便更容易“對(duì)癥下藥”。

美國(guó)國(guó)立衛(wèi)生研究院(NIH)曾發(fā)起一項(xiàng)大型項(xiàng)目，構(gòu)建了癌癥基因組數(shù)據(jù)庫(the Cancer Genome Altas，簡(jiǎn)稱TCGA)，將所有癌癥相關(guān)基因突變分類保存，共保存有250萬Gb的數(shù)據(jù)，這大大改進(jìn)了研究者對(duì)各種類型癌癥的認(rèn)識(shí)。但僅僅這樣，對(duì)于提供了組織樣本的患者來說，并沒給他們的臨床經(jīng)歷帶來太多改變。

與癌癥治療相關(guān)的另一方面，是個(gè)人電子健康記錄及其病例的特異性信息。對(duì)很多研究者來說，如果能從醫(yī)院或個(gè)人手中得到這部分信息，就能夠卓有成效地進(jìn)行癌癥治療方案的改進(jìn)。總體而言，只有在拿到測(cè)序大數(shù)據(jù)的基礎(chǔ)上，同時(shí)掌握病人的干預(yù)記錄(來自個(gè)人的電子健康記錄)和臨床特征(來自醫(yī)療機(jī)構(gòu)的臨床病理記錄)，才能最終做到“升級(jí)”腫瘤的臨床治療方案。

醫(yī)藥研發(fā)也能從大數(shù)據(jù)獲益良多，這無可厚非。在醫(yī)藥研發(fā)的世界里，基因技術(shù)公司更傾向于進(jìn)行長(zhǎng)期的生物學(xué)研究，并將其聯(lián)系到臨床數(shù)據(jù)上，以使得藥物能夠“對(duì)癥下藥”到每個(gè)人身上，甚至?xí)椭扑幑咀龀龈?ldquo;大膽”的研發(fā)決定，進(jìn)行個(gè)性化定制免疫療法的研究。

以微生物菌群研究為例?，F(xiàn)在就有人提出這樣的想法：什么時(shí)候我們會(huì)想要研發(fā)出能改變體內(nèi)微生物菌群的藥物呢？這些存在于我們腸道、皮膚表面和環(huán)境中的數(shù)以十億計(jì)的微生物，不僅影響我們是否患病，還會(huì)影響到藥物對(duì)疾病所產(chǎn)生的藥效?，F(xiàn)在大部分對(duì)于微生物菌群研究得到的數(shù)據(jù)還只是針對(duì)小部分人群，但這是否也意味著一個(gè)不錯(cuò)的研究方向？畢竟我們現(xiàn)在還缺乏一些穩(wěn)定的測(cè)試手段，能讓我們以一種持續(xù)性的方法來改變微生物菌群，并對(duì)疾病發(fā)展產(chǎn)生有意義的影響。

對(duì)免疫學(xué)研究來說，大數(shù)據(jù)會(huì)帶來什么？首先，有以下“組學(xué)”都可以對(duì)免疫學(xué)研究產(chǎn)生有利影響，包括：基因組、微生物組、表觀基因組、轉(zhuǎn)錄組、代謝組、通路組、細(xì)胞組和蛋白組。具體來說，比如對(duì)特定B細(xì)胞或T細(xì)胞所有抗體抗原分子的分析，這些分析結(jié)果(尤其是與能識(shí)別對(duì)應(yīng)抗體的抗原決定簇的技術(shù)相結(jié)合)，可將臨床診斷、抗體藥物研發(fā)、疫苗研發(fā)上升到一個(gè)新高度，并能為自身抗原肽結(jié)合抗體提供新見解。

伴隨著荊棘的引路，往往也會(huì)引來好歌喉的夜鶯。大數(shù)據(jù)給我們帶來挑戰(zhàn)的同時(shí)，也帶來了機(jī)遇，尤其是對(duì)于一些惡性疾病(比如癌癥)的治療。一種單一類型的腫瘤，往往就會(huì)伴隨著多樣化的基因突變，但隨著投入更多的時(shí)間和金錢，會(huì)得到更多的治療靶點(diǎn)。當(dāng)大數(shù)據(jù)分析的精度越來越高時(shí)，對(duì)于整個(gè)疾病發(fā)生過程的了解也會(huì)越來越深入，有了“大數(shù)據(jù)分析”這項(xiàng)利器，更多的精準(zhǔn)治療方案將會(huì)產(chǎn)生，幫助人們做出更好的選擇。(編譯 | 翟文珠責(zé)編 | 葉水送)

參考文獻(xiàn)

1.Eric Bender. (2015). “Big data in biomedicine。” Nature 527 : S1

2.Michael Eisenstein. (2015). “Big data: The power of petabytes。” Nature 527 : S2-S4

3.Neil Savage. (2015). “Proteomics: High-protein research。” Nature 527 : S6-S7

4.Katherine Bourzac. (2015). “Collaborations: Mining the motherlodes。” Nature 527 : S8-S9

5.Charlie Schmidt. (2015). “Cancer: Reshaping the cancer clinic。” Nature 527 : S10–S11

6.Neil Savage. (2015). “Mobile data: Made to measure。” Nature 527 : S12-S13

7.Cathryn M. Delude. (2015). “Deep phenotyping: The details of disease。” Nature 527 : S14–S15

8.Eric Bender. (2015). “Better insights, better drugs。” Nature 527 : S18

9.Eric Bender. (2015). “Big data in biomedicine: 4 big questions。” Nature 527 : S19

10.Joachim L Schultze. (2015). “Teaching 'big data' analysis to young immunologists。” Nature Immunology 16 : 902-905

11.Eric J. Topol. (2015). “The big medical data miss: challenges in establishing an open medical resource。” Nature Reviews Genetics 16 : 253–254