基因測序行業(yè)在近二十年的時(shí)間里,發(fā)生了巨大的變化,其中一個(gè)最讓人吃驚的變化是它的測序成本大幅下降。2001年,人類基因組完成測序,耗資高達(dá)30億美元,而現(xiàn)在成本降至1000美元,隨著時(shí)間的推移,甚至有可能降低到100美元以下。
如此幅度的成本下降,意味著大規(guī)模人群采用的條件已經(jīng)初步具備。那問題來了,就算是價(jià)格普通人可以負(fù)擔(dān),但對于人們來說,為什么要去做基因測序?目前看有幾個(gè)好處:一是便于更好做疾病診斷;二是做疾病的提前預(yù)防,通過基因測序發(fā)現(xiàn)患某些病的概率較高,可以提前采取措施。如好萊塢明星安吉麗娜·朱莉進(jìn)行基因測序之后,發(fā)現(xiàn)自己有易患乳腺癌的基因,因此采取措施提前切掉乳腺。(當(dāng)然,從科學(xué)角度,這并不是說一定需要采取這樣的措施,或者采取這樣的措施之后就一定能解決問題,僅目前來說,這里提供了一個(gè)可供選擇的預(yù)防方案。);三是有助于創(chuàng)建個(gè)性化治療方案。
這是從普通個(gè)人來說的直接好處,從行業(yè)發(fā)展的角度,或者從整體人類利益的角度,如果通過某種方式,能實(shí)現(xiàn)把基因組數(shù)據(jù)共享給研究者,這對研究人員找出規(guī)律,提供個(gè)性化保健方案、治療方案或研發(fā)新藥等都有幫助。
如果實(shí)現(xiàn)了基因組數(shù)據(jù)共享,這里有機(jī)會(huì)誕生一個(gè)數(shù)十億美金以上的基因組數(shù)據(jù)市場。不管是基因組數(shù)據(jù)的所有者、還是基因組數(shù)據(jù)的需求方,都會(huì)從中獲益。
那么,如何來創(chuàng)建基因測序的交易市場?它需要解決哪些問題才有機(jī)會(huì)真正創(chuàng)建?這就是本文試圖闡述的地方。
本文以Nebula Genomics為案例進(jìn)行闡述。這也是藍(lán)狐筆記最近關(guān)注的一個(gè)試圖通過借助區(qū)塊鏈技術(shù)和模式來創(chuàng)造基因測序市場的案例。
Nebula Genomics:創(chuàng)造基因測序市場的夢想
Nebula Genomics為了推動(dòng)基因測序行業(yè)的發(fā)展,試圖在多個(gè)方面進(jìn)行探索。
首先是Nebula Genomics要繼續(xù)推動(dòng)基因測序成本的顯著降低,唯有如此,才能讓更多普通老百姓參與進(jìn)來,參與的人越多,意味著基因組的數(shù)據(jù)越多。
其次,大多數(shù)人對新事物,尤其是基因測序這樣涉及個(gè)人隱私和安全的事情會(huì)比較在意,也會(huì)有疑慮,如果不能解決普通人的擔(dān)憂,那么,即使價(jià)格便宜,也會(huì)遇到走向主流人群采用的障礙,所以,Nebula Genomics會(huì)優(yōu)先考慮提高基因組數(shù)據(jù)的安全和保護(hù)。
最后,這個(gè)行業(yè)存在著基因組數(shù)據(jù)的明顯需求者。但是,目前這些需求者能夠得到的基因組數(shù)據(jù)少之又少。Nebula Genomics也希望讓基因組數(shù)據(jù)的買家能夠更有效率獲取更多的數(shù)據(jù)。
基于以上明晰的思路,Nebula Genomics試圖通過區(qū)塊鏈技術(shù)來解決問題,以一種去中心化、加密的方式來達(dá)成目標(biāo)。
基因組數(shù)據(jù)交易市場為什么有機(jī)會(huì)?
先來看看什么是基因組數(shù)據(jù)。藍(lán)狐筆記參考了相關(guān)基因組資料,先給大家簡要分享關(guān)于基因組數(shù)據(jù)的基本概念。
DNA(脫氧核糖核酸)是一種鏈狀分子,它編碼每個(gè)生物體藍(lán)圖。DNA由四個(gè)構(gòu)建塊組成,其鏈狀分子的長度可變。DNA的構(gòu)建區(qū)塊由字母表示,包括A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)、G(鳥嘌呤)。細(xì)胞中發(fā)現(xiàn)的DNA總數(shù)稱之為它的基因組?;騽t是DNA的序列,它可以編碼蛋白質(zhì)生產(chǎn)指令,是多功能的分子機(jī)器。人類的基因組大約有64億個(gè)字母。人類基因組中的大多數(shù)功能序列還是未知世界。
那么,為什么要對DNA進(jìn)行測序?
科學(xué)家在研究過程中發(fā)現(xiàn)了DNA的功能和結(jié)構(gòu),他們試圖通過讀取更多的DNA序列,研究它們,找出規(guī)律。前面也提到,一開始基因測序成本很高,幾乎不可能用于主流人群。但,該領(lǐng)域的技術(shù)發(fā)展迅速。新一代的測序機(jī)器可以實(shí)現(xiàn)對數(shù)億分子的并行讀取。新技術(shù)的進(jìn)步讓DNA測序成本極速下降。另外,通過蛋白質(zhì)編碼基因組區(qū)域的靶向測序也利于降低成本。
目前市面上也有不少的個(gè)人基因測序公司,比如Ancestry和23andMe公司。兩家公司使用基于DNA微陣列的基因分型來實(shí)現(xiàn)基因檢測。不過它不是對連續(xù)的DNA序列進(jìn)行測序,而是以大致規(guī)律的間隔來識(shí)別單個(gè)字母。它們采用的方法無法全面識(shí)別字母,它們目前產(chǎn)生的數(shù)據(jù)對于基因組數(shù)據(jù)擁有者和研究者來說,價(jià)值相對有限。
從全基因測序數(shù)據(jù)中,個(gè)人可以全面了解個(gè)人基因組成。研究者也能在更多數(shù)據(jù)中,不斷更新迭代研究結(jié)果。全基因測序數(shù)據(jù)對研究人員價(jià)值更大。比如說,全基因測序是鑒定非編碼DNA變體的唯一方法。在現(xiàn)實(shí)中,超過90%的臨床重要的DNA部分都落在非編碼區(qū)域。這也意味著,全基因測序有可能是發(fā)現(xiàn)治療靶標(biāo)的主要手段。目前來看,測序模式對于微陣列的基因分型模式,有它的優(yōu)點(diǎn)之處。如果能在實(shí)踐中證明更有效,那么,它在基因組市場上,會(huì)產(chǎn)生很重大的影響。
對于個(gè)人來說,好處是什么?
前文也簡要提及了基因組測序?qū)€(gè)人的可能潛在好處。下面更詳細(xì)地闡述其好處。
地球上任何兩個(gè)人的基因組中有99.9%是相同的。而剩余的0.1%則決定了每個(gè)人的差異。0.1%的差異中有超過400萬的基因變體,這些變體產(chǎn)生了人與人之間的不同,包括身體特征、性格以及疾病傾向。
這也就是說,如果完成每個(gè)人的全基因測序,就可以找出每個(gè)人獨(dú)一無二的地方。它可以為健康相關(guān)的事情做出最佳選擇,包括減肥、鍛煉、醫(yī)療、生育等。如果一旦成為現(xiàn)實(shí),這意味著個(gè)性化的精確醫(yī)療保健時(shí)代成為可能,可以根據(jù)每個(gè)人的基因組特性,提前做好預(yù)防措施。
醫(yī)療處方上來看,F(xiàn)DA批準(zhǔn)的藥物中,有超過7%的藥物會(huì)受基因變體的影響,導(dǎo)致一些患者會(huì)出現(xiàn)對藥物產(chǎn)生不良反應(yīng)。如果有了全基因測序,醫(yī)生可以向患者開出更合適的藥物和更合適的劑量。比如有一種藥物叫warfarin,它是一種常用的血液稀釋藥物,但它可能會(huì)導(dǎo)致部分患者內(nèi)部出血,這部分患者往往是攜帶了增強(qiáng)其血液稀釋效應(yīng)的基因變體。
預(yù)防性治療來看,大約有2%的人在高度“可操作的”基因中攜帶早發(fā)性致病變異體。這些基因跟存在治療的病理相關(guān),可能改變個(gè)體的結(jié)果。比如,BRCA1和BRCA2基因的突變會(huì)顯著增加乳腺癌和卵巢癌的風(fēng)險(xiǎn)。從預(yù)防性的角度,它會(huì)建議具有這些基因變異的婦女經(jīng)常接受篩查。
對于大多數(shù)人來說,基因變體中攜帶有致命性的變體不多,但仍有問題。比如脂肪肝疾病影響了8000萬美國人,但它有時(shí)候很難被發(fā)現(xiàn),超過50%的人口基因變異增加脂肪肝并發(fā)癥的風(fēng)險(xiǎn)。
優(yōu)生優(yōu)育方面來說,兩位計(jì)劃生孩子的父母可以進(jìn)行基因測序,以此發(fā)現(xiàn)他們生下來的孩子的可能健康情況。通過父母雙方遺傳的疾病相關(guān)的變體,導(dǎo)致后代的患病風(fēng)險(xiǎn)。目前看,全世界的5%人口中患有遺傳性疾病,這些絕大多數(shù)病癥都從上一輩遺傳來的。這些都是可以通過全基因測序進(jìn)行檢測。
減肥方面,目前已經(jīng)發(fā)現(xiàn)基因變體會(huì)影響減肥策略的有效性。這意味著,不同人有不同的有效減肥策略,可以根據(jù)不同人的基因變體制定個(gè)性化的減肥方案。
體育鍛煉方面,基因變體也與體育成績相關(guān),包括耐力、肌肉量、運(yùn)動(dòng)受傷風(fēng)險(xiǎn)等。比如,韌帶撕裂的風(fēng)險(xiǎn)跟膠原蛋白基因的變體相關(guān),對于某些基因變體的人來說,拳擊等運(yùn)動(dòng)中的頭部擊打會(huì)顯著增加腦部疾病的風(fēng)險(xiǎn)。這也意味著,不同的基因變體,對于不同人的運(yùn)動(dòng)機(jī)能影響是不同的。這也就能理解,為什么在運(yùn)動(dòng)場上,有些人可以長達(dá)十年以上的持續(xù)高水平,如足球場上的梅西,而還有些人則是玻璃體質(zhì),雖然天賦很高,但容易受傷。其中部分原因也跟每個(gè)人的基因變體相關(guān)。如果進(jìn)行了基因變體的測序,一是可以測試個(gè)體有沒有持續(xù)的競技水平可能,二是也可以針對性的進(jìn)行預(yù)防和改善。
最后一個(gè)是基因編輯方面?;蚬こ淌紫纫b定出導(dǎo)致身體特征和疾病易感性的基因變體。然后在此基礎(chǔ)上進(jìn)行基因組的編輯。比如,讓肌肉生長抑制素基因失去活力有可能可以治愈退化肌肉疾病。
從產(chǎn)業(yè)需求來看,產(chǎn)業(yè)為什么有這么強(qiáng)的動(dòng)力來獲取基因組數(shù)據(jù)和表型數(shù)據(jù)?
研究人員和生物公司、制藥公司都受制于基因組數(shù)據(jù)缺乏、數(shù)據(jù)質(zhì)量低、數(shù)據(jù)采集效率低、數(shù)據(jù)獲取成本高等因素影響。
基因組數(shù)據(jù)的可用性還很低。原因是因?yàn)槟壳暗臄?shù)據(jù)樣太小,很少有人做過全基因組的測序。如果沒有大的基因組數(shù)據(jù)集,就比較難建立基因變體和性狀之間的關(guān)聯(lián)性。不僅是數(shù)據(jù),還需要通過機(jī)器學(xué)習(xí)來研究,比如深度學(xué)習(xí),通過大量的模型訓(xùn)練,獲得真正有意義的結(jié)果。目前看,基因組學(xué)領(lǐng)域還很難獲得AI學(xué)習(xí)所需的足夠數(shù)據(jù)量。
表型數(shù)據(jù)來看,表型數(shù)據(jù)是指包括所有個(gè)人特征在內(nèi)的信息,也包括病史等。表型數(shù)據(jù)和基因組數(shù)據(jù)一起用來鑒定基因變體和性狀之間的關(guān)聯(lián)。但目前來看,表型數(shù)據(jù)有幾個(gè)問題:一是數(shù)據(jù)需求方對隨機(jī)數(shù)據(jù)集不感興趣,而對具有特定表型的個(gè)體數(shù)據(jù)集感興趣,而是數(shù)據(jù)購買者會(huì)從有某些表型特征的個(gè)人中獲取數(shù)據(jù)。其次,基因組數(shù)據(jù)的擁有者需要有意愿來提供表型數(shù)據(jù),沒有表型數(shù)據(jù),只有基因組數(shù)據(jù)就沒多大作用。最后,目前收集的表型數(shù)據(jù)質(zhì)量不穩(wěn)定,通過中間人收集存在問題。
從數(shù)據(jù)采集看,效率低下。目前現(xiàn)狀是,制藥和生物技術(shù)公司從一些非營利或營利組織獲取基因組的數(shù)據(jù)。但整個(gè)購買流程效率低下,很難滿足需求。一是數(shù)據(jù)采購流程沒有自動(dòng)化,需要簽訂合同、付款、傳輸數(shù)據(jù)等,這些人工勞動(dòng)對數(shù)據(jù)采集來說,不夠高效。二是,不同來源的基因組和表型數(shù)據(jù)通常采用不同的數(shù)據(jù)格式編碼,這讓標(biāo)準(zhǔn)化不同數(shù)據(jù)集變得非常耗時(shí)。這些問題都是生物和制藥技術(shù)公司頭疼的問題。
基因組大數(shù)據(jù)還不是真正的大數(shù)據(jù),很難用作機(jī)器學(xué)習(xí),也不利于后續(xù)的研究發(fā)展。據(jù)估計(jì),目前人類完成基因測序的人口才100萬人,0.02%的人口都不到。即便如此,由于單個(gè)人的基因測序通常會(huì)產(chǎn)生很大的數(shù)據(jù)量,大約能達(dá)到200千兆字節(jié),必須使用計(jì)算密集型計(jì)算處理。這意味著如果未來有上億人口進(jìn)行基因測序的話,會(huì)面臨很大的挑戰(zhàn)。一是需要大量的存儲(chǔ)空間來存儲(chǔ)基因組的數(shù)據(jù)。二是網(wǎng)絡(luò)傳輸?shù)乃俣纫矔?huì)對數(shù)據(jù)共享造成困難。三是基因組大數(shù)據(jù)的處理和分析需要大量的算力支持。
Nebula網(wǎng)絡(luò)存在的目的就是要解決以上的問題。
Nebula模式重塑基因測序行業(yè)
Nebula模型跟傳統(tǒng)模式完全不同。它試圖通過去中心化的模式來重塑基因測序行業(yè),它構(gòu)建的基因組數(shù)據(jù)交易市場,在數(shù)據(jù)掌控權(quán)、數(shù)據(jù)的隱私和安全保護(hù)、經(jīng)濟(jì)體系、大數(shù)據(jù)的準(zhǔn)備等方面都有自己的解決方案。
(傳統(tǒng)模式)
首先是數(shù)據(jù)的控制權(quán)和安全保護(hù)。
在傳統(tǒng)的基因測序行業(yè)的商業(yè)模式中,人們不僅給基因測序公司付費(fèi)以獲取分析結(jié)果,同時(shí),這些公司還會(huì)把這些基因組數(shù)據(jù)進(jìn)行二次獲利,把它們賣給需要這些數(shù)據(jù)的制藥和生物技術(shù)公司。
Nebula模式則不同,個(gè)人付費(fèi)給測序服務(wù)提供者之后,測序的數(shù)據(jù)歸個(gè)人所有(將來測序儀器如果便宜,個(gè)人也可以自行測序)。生物和制藥技術(shù)公司如果要獲得基因測序數(shù)據(jù),必須向用戶購買,而不是向之前的測序公司購買。這改變了基因測序數(shù)據(jù)的歸屬權(quán)問題。
同時(shí)基因測序數(shù)據(jù)還通過Nebula網(wǎng)絡(luò)獲得保護(hù)。個(gè)人的數(shù)據(jù)由個(gè)人存儲(chǔ),包括個(gè)人基因測序和表型數(shù)據(jù)。數(shù)據(jù)所有人控制訪問的權(quán)限。此外,Nebula還使用英特爾的軟件保護(hù)擴(kuò)展(SGX)和同態(tài)加密對共享數(shù)據(jù)進(jìn)行加密和安全分析。
為了保護(hù)個(gè)人的隱私,在數(shù)據(jù)的買賣過程中,數(shù)據(jù)所有者是匿名的,而數(shù)據(jù)購買者必須是透明的。所有的數(shù)據(jù)交易記錄都不可變地存儲(chǔ)在Nebula區(qū)塊鏈中。
其次,token模式而非法幣模式。
在傳統(tǒng)的模式中,個(gè)人向基因測序公司支付法幣以獲得測序結(jié)果,生物和制藥技術(shù)公司也是向基因測序公司支付法幣以獲得研究數(shù)據(jù)。
而Nebula的token經(jīng)濟(jì)模式中,形成了Nebula內(nèi)部的一套經(jīng)濟(jì)體系。
從上圖可以看到Nebula的token主要用于內(nèi)部經(jīng)濟(jì)體系的循環(huán)。個(gè)人在Nebula測序的設(shè)施中獲得個(gè)人的基因測序服務(wù),需要用Nebula 代幣支付,而生物和制藥技術(shù)公司也需要用Nebula代幣來購買基因組數(shù)據(jù)和表型數(shù)據(jù)。
從這個(gè)模型中,Nebula代幣的價(jià)值增長主要根源于整個(gè)Nebula網(wǎng)絡(luò)的增長。它通過降低測序成本,吸引更多個(gè)體加入測序,而同時(shí)行業(yè)的需求也在增加,進(jìn)一步降低測序成本。而隨著基因組數(shù)據(jù)的增加,能夠給用戶帶來更多的好處,比如疾病預(yù)防、減肥、生育管理等,這會(huì)進(jìn)一步提升對基因組數(shù)據(jù)和表型數(shù)據(jù)的需求。而這個(gè)Nebula的經(jīng)濟(jì)體系中,流通的是Nebula代幣,這個(gè)代幣的價(jià)值會(huì)隨著Nebula網(wǎng)絡(luò)整體價(jià)值的提升而增加。
再次,基因測序成本更低。
Nebula通過提供基因測序數(shù)據(jù)交易市場極大降低測序成本。為什么這么說?一是沒有基因測序數(shù)據(jù)的個(gè)人可以加入Nebula網(wǎng)絡(luò)支付token后獲得測序數(shù)據(jù)。由于生物和制藥技術(shù)公司對有表型的個(gè)體感興趣,這樣,這些公司可以提供補(bǔ)貼,降低基因測序成本。同時(shí),隨著參與測序的機(jī)構(gòu)越多,需求也越大,也許某一天,用戶可以免費(fèi)獲得基因測序的服務(wù)。同時(shí),已有基因測序數(shù)據(jù)的用戶也可以通過加入Nebula網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)的售賣獲得收益。
第四,數(shù)據(jù)采集效率更高。
Nebula網(wǎng)絡(luò)通過基因測序市場推動(dòng)用戶測序的意愿。尤其是它對用戶的疾病預(yù)防、減肥、優(yōu)生優(yōu)育等方面都有潛在的積極意義。這導(dǎo)致用戶加入測序的意愿大增。同時(shí),通過Nebula網(wǎng)絡(luò)還可以解決數(shù)據(jù)孤島的問題。它通過去中心化的私有數(shù)據(jù)存儲(chǔ)方式來解決數(shù)據(jù)碎片化問題。所有擁有基因組數(shù)據(jù)的個(gè)人或組織都可在Nebula網(wǎng)絡(luò)上提供數(shù)據(jù),同時(shí)保留數(shù)據(jù)的所有權(quán)。另外,數(shù)據(jù)需求方和提供者可以直接聯(lián)系,能夠有針對性獲得高質(zhì)量的表型數(shù)據(jù)?;贜ebula的智能合約的調(diào)查工具可以幫助數(shù)據(jù)購買者更高效的獲取目標(biāo)數(shù)據(jù)。Nebula網(wǎng)絡(luò)會(huì)提供基因組和表型數(shù)據(jù)的標(biāo)準(zhǔn)格式。最后,智能合約的有效應(yīng)用,也會(huì)促進(jìn)數(shù)據(jù)采購的加速,自動(dòng)簽署合同,自動(dòng)付款和傳輸數(shù)據(jù),這都會(huì)讓比原來的人工過程高效很多。
最后,可為大數(shù)據(jù)爆發(fā)做好準(zhǔn)備。
鑒于基因組數(shù)據(jù)非常龐大,通過讓數(shù)據(jù)所有者存儲(chǔ)自己的數(shù)據(jù),解決了中心化數(shù)據(jù)存儲(chǔ)的問題。Nebula計(jì)劃使用可用的邊緣網(wǎng)絡(luò)存儲(chǔ)空間。此外,為了便于數(shù)據(jù)需求者計(jì)算基因組數(shù)據(jù),Nebula還引入特定的數(shù)據(jù)編碼格式,也方便基因組數(shù)據(jù)在網(wǎng)絡(luò)上快速傳輸。數(shù)據(jù)需求者可方便利用支持英特爾軟件保護(hù)擴(kuò)展(SGX)的任何計(jì)算硬件資源,他們可以在Nebula Genomics提供的計(jì)算節(jié)點(diǎn)、買家自己的節(jié)點(diǎn)或其他第三方節(jié)點(diǎn)上分析數(shù)據(jù)。
Nebula網(wǎng)絡(luò):Blockstack平臺(tái)與Nebula區(qū)塊鏈
Nebula網(wǎng)絡(luò)建立于Blockstack平臺(tái)和以太坊驅(qū)動(dòng)的Nebula區(qū)塊鏈上。那么,Nebula網(wǎng)絡(luò)由哪些節(jié)點(diǎn)組成?它的基因組數(shù)據(jù)是怎么來的?基因組測序數(shù)據(jù)是怎么處理的?又是如何存儲(chǔ)的?如何保證隱私和安全的?測序數(shù)據(jù)和表型數(shù)據(jù)的交易記錄會(huì)記錄在哪里?它后續(xù)會(huì)不會(huì)把測序過程也實(shí)現(xiàn)去中心化?
這些問題都是構(gòu)建真正可落地的基因組數(shù)據(jù)交易市場的重要問題。
首先來看Nebula網(wǎng)絡(luò)的節(jié)點(diǎn)。
Nebula網(wǎng)絡(luò)包括數(shù)據(jù)所有者節(jié)點(diǎn)、數(shù)據(jù)購買者節(jié)點(diǎn)、安全計(jì)算節(jié)點(diǎn)、Nebula服務(wù)器。數(shù)據(jù)所有者節(jié)點(diǎn)包括兩部分主體,一是想要共享基因組數(shù)據(jù)和表型數(shù)據(jù)的個(gè)人,二是擁有基因組數(shù)據(jù)庫的組織。
數(shù)據(jù)購買者節(jié)點(diǎn)一般是制藥和生物技術(shù)公司。他們會(huì)使用Nebula代幣從數(shù)據(jù)所有者中購買基因組和表型數(shù)據(jù),并分析安全計(jì)算節(jié)點(diǎn)上的數(shù)據(jù)。完全計(jì)算節(jié)點(diǎn)運(yùn)行Arvados生物信息開源平臺(tái)以計(jì)算基因組數(shù)據(jù)。安全計(jì)算節(jié)點(diǎn)可以由Nebula Genomics,數(shù)據(jù)購買者或其他第三方操作。
Nebula服務(wù)器處理主要是處理Nebula測序設(shè)施中生成的測序數(shù)據(jù),同時(shí)驗(yàn)證來自外部的基因組數(shù)據(jù),驗(yàn)證數(shù)據(jù)購買者的身份。
其次,Nebula網(wǎng)絡(luò)的基因組數(shù)據(jù)是怎么來的?
Nebula測序設(shè)施預(yù)計(jì)使用下一代的DNA測序技術(shù)。新一代測序技術(shù)會(huì)產(chǎn)生數(shù)十億的約250個(gè)字母的短讀數(shù)。一個(gè)人的基因測序文件大概約10個(gè)測序讀數(shù),大小達(dá)到150-200千兆字節(jié)左右。Nebula Genomics計(jì)劃與Veritas Genetics合作測序。通過與Veritas合作,Nebula Genomics可以符合監(jiān)管,也不用擔(dān)負(fù)“得到認(rèn)證的DNA測序設(shè)施”的相關(guān)運(yùn)營成本。
除了使用Nebula測序設(shè)施產(chǎn)生的基因組數(shù)據(jù),其他來源的數(shù)據(jù)也可以在Nebula網(wǎng)絡(luò)上出現(xiàn)。比如數(shù)據(jù)所有人使用Nebula的工具將它的數(shù)據(jù)轉(zhuǎn)為基因組拼塊格式。Nebula服務(wù)器會(huì)驗(yàn)證數(shù)據(jù)的真實(shí)性。數(shù)據(jù)所有者也需要提供真實(shí)性的證據(jù)。另外,在Nebula網(wǎng)絡(luò)上提供基因組數(shù)據(jù)集的組織則需要Nebula Genomics的工作人員的驗(yàn)證。同時(shí),數(shù)據(jù)所有者也可選擇在未經(jīng)驗(yàn)證情況下提供數(shù)據(jù),由市場買家來決定是否愿意為這一類數(shù)據(jù)付費(fèi)。
除了基因組數(shù)據(jù)之外,為了發(fā)揮數(shù)據(jù)的作用,也需要表型數(shù)據(jù)的配合。而表型數(shù)據(jù)的生成主要依賴于向數(shù)據(jù)所有者發(fā)布調(diào)查問卷。通過調(diào)查問卷反饋提供該個(gè)體的癥狀、處方藥物和診斷等。Nebula也在參與跨數(shù)據(jù)庫的表型數(shù)據(jù)標(biāo)準(zhǔn)相關(guān)工作。
再次,Nebula基因組數(shù)據(jù)是怎么處理的?
當(dāng)前在Nebula網(wǎng)絡(luò)上產(chǎn)生的測序數(shù)據(jù)將在Nebula服務(wù)器上處理。首先將測序讀數(shù)參考人類基因組,對比后重建基因組序列,之后標(biāo)識(shí)出基因變體。同時(shí),為了實(shí)現(xiàn)快速傳輸,變體的編碼列表需要考慮節(jié)省空間。編碼方案還需要考慮支持有效計(jì)算,尤其是支持機(jī)器學(xué)習(xí)。Nebula將采用基因組拼接的編碼方案。
基因組被分成重疊的可變長度序列,每個(gè)拼接塊都由所包含測序的哈希摘要代表。所有拼塊位置中的拼塊變體都收集在拼塊庫中。它們會(huì)隨著新基因測序和新變體的發(fā)展不斷增加。個(gè)體基因組由測序的哈希數(shù)組代表。這些哈希數(shù)組會(huì)轉(zhuǎn)移到數(shù)據(jù)所有者節(jié)點(diǎn),之后可共享給數(shù)據(jù)的需求者。這樣做的好處是可以實(shí)現(xiàn)快速的網(wǎng)絡(luò)傳輸,因?yàn)閭€(gè)體的基因組通過哈希數(shù)組來代表,大小只有10兆字節(jié)。
另外測序讀數(shù)文件也會(huì)傳輸給數(shù)據(jù)所有者節(jié)點(diǎn),文件很大,約有150到200千兆字節(jié),但只需從Nebula服務(wù)器傳輸過去,一次即可。這些數(shù)據(jù)不會(huì)跟買家共享。一旦文件傳輸完成,所有數(shù)據(jù)會(huì)從Nebula服務(wù)器中刪除。
第四,基因組數(shù)據(jù)和表型數(shù)據(jù)是怎么存儲(chǔ)的?
數(shù)據(jù)存儲(chǔ)和訪問的控制會(huì)使用Blockstack平臺(tái),平臺(tái)也可以構(gòu)建去中心化應(yīng)用。Blockstack存儲(chǔ)系統(tǒng)允許用戶選擇自己的存儲(chǔ)提供商,比如Dropbox,并管理其對數(shù)據(jù)的訪問。
Blockstack也支持?jǐn)?shù)據(jù)發(fā)現(xiàn),可實(shí)現(xiàn)表型注冊表。數(shù)據(jù)需求方可以查詢數(shù)據(jù)所有者節(jié)點(diǎn),瀏覽過去的調(diào)查,識(shí)別參與過特定調(diào)查問卷的數(shù)據(jù)所有者。
由代表個(gè)人基因組的哈希數(shù)組引用的拼塊庫會(huì)存儲(chǔ)在公共的存儲(chǔ)中,比如IPFS或BitTorrent。所有Nebula網(wǎng)絡(luò)上的節(jié)點(diǎn)都能夠訪問拼塊庫。尤其是,計(jì)算節(jié)點(diǎn)進(jìn)行數(shù)據(jù)分析時(shí)訪問拼塊庫。
第五,基因組數(shù)據(jù)如何實(shí)現(xiàn)安全計(jì)算的?
Nebula網(wǎng)絡(luò)目前使用Arvados生物信息開源平臺(tái)來處理和管理基因組和表型數(shù)據(jù)。這個(gè)平臺(tái)主要是為基因組和其他大規(guī)模生物醫(yī)學(xué)數(shù)據(jù)設(shè)計(jì),包括IBM Watson等在內(nèi)的不少大型機(jī)構(gòu)客戶也在使用。同時(shí),為了安全計(jì)算,Arvados在適用于安全計(jì)算節(jié)點(diǎn)上的英特爾軟件保護(hù)拓展(簡寫是SGX)區(qū)域內(nèi)運(yùn)行。
SGX是一組指令代碼,可以擴(kuò)展英特爾x86架構(gòu),并允許專用內(nèi)存區(qū)域的創(chuàng)建。其中代碼和數(shù)據(jù)是隔離的,并受到外部處理的保護(hù)。總之,英特爾軟件保護(hù)擴(kuò)展(SGX)允許不受信任的第三方對私有數(shù)據(jù)進(jìn)行安全的遠(yuǎn)程計(jì)算。它實(shí)現(xiàn)了安全計(jì)算,同時(shí)這些計(jì)算比同態(tài)加密數(shù)據(jù)計(jì)算和安全多方計(jì)算的效率要高。
此外,通過將SGX與同態(tài)加密的混合,可以加速特定的計(jì)算。在Nebula網(wǎng)絡(luò)中,數(shù)據(jù)所有者使用安全計(jì)算節(jié)點(diǎn)進(jìn)行加密和共享個(gè)人基因組和表型數(shù)據(jù)。
不少生物信息計(jì)算的第一步是生成列聯(lián)表,包含基因組變體計(jì)數(shù)和相應(yīng)表型。列聯(lián)表計(jì)算僅需加法運(yùn)算,可以使用加性同態(tài)加密方案執(zhí)行計(jì)算。首先,每個(gè)數(shù)據(jù)所有者節(jié)點(diǎn)使用加性同態(tài)加密方案加密值1或0,表示基因組變體存在或不存在。之后,計(jì)算節(jié)點(diǎn)會(huì)對SGX專用內(nèi)存區(qū)域之外的所有加密值求和。加密的求和可以在SGX專用內(nèi)存區(qū)域內(nèi)進(jìn)行解密,執(zhí)行進(jìn)一步計(jì)算。因此,加性同態(tài)加密可以將解密數(shù)量減少至一個(gè)。
由于使用SGX有兩個(gè)主要缺點(diǎn)。一是必須仔細(xì)設(shè)計(jì)軟件以實(shí)現(xiàn)在SGX 專用內(nèi)存區(qū)域內(nèi)部運(yùn)行,同時(shí)不會(huì)把私有數(shù)據(jù)泄漏。二是所有計(jì)算必須在英特爾CPU上執(zhí)行,意味著計(jì)算不能用GPU加速。但后續(xù)的機(jī)器學(xué)習(xí),需要從GPU加速中獲益。
為解決這個(gè)問題,Nebula采用了SGX 專用內(nèi)存區(qū)域和GPU加速計(jì)算中的數(shù)據(jù)保護(hù)混合方法。數(shù)據(jù)會(huì)在SGX 專用內(nèi)存區(qū)域中聚合和預(yù)處理,但是計(jì)算密集型的計(jì)算會(huì)在SGX 專用內(nèi)存區(qū)域之外的GPU執(zhí)行。SGX 專用內(nèi)存區(qū)域的預(yù)處理通過三種方式來保護(hù)數(shù)據(jù)的隱私。一是所有數(shù)據(jù)完全匿名化,SGX預(yù)處理隱藏輸入數(shù)據(jù)的來源。二是只聚合數(shù)據(jù)匯總,比如列聯(lián)表。哈希數(shù)組編碼所有基因組,它們不會(huì)被暴露出來。三是隨機(jī)噪聲會(huì)添加進(jìn)入數(shù)據(jù),以增強(qiáng)安全。
SGX-GPU混合模型的還有一個(gè)好處是Arvados的復(fù)雜性可以保持在SGX專用內(nèi)存區(qū)域之外。這會(huì)極大減少工程量。
第六,Nebula網(wǎng)絡(luò)提供賣家隱私保護(hù)
以太坊區(qū)塊鏈為數(shù)據(jù)所有者節(jié)點(diǎn)提供一定程度匿名保護(hù)。網(wǎng)絡(luò)地址是加密標(biāo)識(shí)符,與任何個(gè)人信息無關(guān)。此外,對于買方需要進(jìn)行驗(yàn)證。從基因組數(shù)據(jù)的所有者角度,他們都想知道自己的數(shù)據(jù)賣給了誰,他們是不是靠譜。為了實(shí)現(xiàn)買家的透明,他們需要提供真實(shí)信息,并在法律上確定不能把數(shù)據(jù)分享給其他第三方。這些認(rèn)證工作由Nebula工作人員完成驗(yàn)證。
第七,Nebula網(wǎng)絡(luò)的區(qū)塊鏈服務(wù)
Nebula基因組數(shù)據(jù)交易市場的所有交易記錄都會(huì)記錄在Nebula區(qū)塊鏈上,這是不可篡改的記錄。
Nebula將為合作伙伴提供測序設(shè)施,包括價(jià)格合理的全基因組測序服務(wù)。該服務(wù)可以使用Nebula代幣支付。同時(shí),隨著DNA測序價(jià)格下降,還會(huì)變得更便宜。另外,數(shù)據(jù)購買者也可以補(bǔ)貼個(gè)人的測序成本。
此外,Nebula調(diào)查工具會(huì)使用以太坊區(qū)塊鏈的智能合約,可以讓數(shù)據(jù)購買者創(chuàng)建高度定制化的調(diào)查。比如可以向所有參與調(diào)查的人支付同樣的Nebula代幣獎(jiǎng)勵(lì),也可以根據(jù)不同的貢獻(xiàn)獎(jiǎng)勵(lì)不同數(shù)量的代幣。
數(shù)據(jù)購買者也可以使用以太坊智能合約來購買個(gè)人基因組數(shù)據(jù)。數(shù)據(jù)所有者收到代幣支付之后,他們的加密基因組數(shù)據(jù)會(huì)傳送到安全計(jì)算節(jié)點(diǎn)進(jìn)行計(jì)算。表型數(shù)據(jù)的購買也采用類似方式。
第八,基于Nebula網(wǎng)絡(luò)也會(huì)產(chǎn)生有價(jià)值的第三方應(yīng)用
跟其他的中心化的應(yīng)用程序平臺(tái)不同,Nebula采用去中心化的模式來匯聚基因組數(shù)據(jù)?;蚪M數(shù)據(jù)由個(gè)體用戶自己控制。
比如,數(shù)據(jù)所有者可以利用Nebula的基因變體解釋器進(jìn)行個(gè)人基因組的數(shù)據(jù)解讀。Nebula的變體解釋器是基于Blockstack的分布式應(yīng)用,在用戶本地?cái)?shù)據(jù)上執(zhí)行。Nebula最初版本的變體解釋器是基于Veritas的變體解釋器。這里還有一個(gè)正向循環(huán)的好處。隨著Nebula數(shù)據(jù)庫的增加,會(huì)發(fā)現(xiàn)更多基因和健康之間的關(guān)聯(lián)關(guān)系,這會(huì)讓Nebula的變體解釋器的表現(xiàn)越來越好。由此吸引更多人加入到Nebula的網(wǎng)絡(luò)。如果實(shí)現(xiàn)了這一點(diǎn),這會(huì)成為一個(gè)自我增強(qiáng)的系統(tǒng)。
最后,Nebula對于測序本身也會(huì)采用去中心化模式嗎?
相比較于傳統(tǒng)模式,通過去中心化的數(shù)據(jù)存儲(chǔ)和安全計(jì)算,Nebula在基因組數(shù)據(jù)保護(hù)方面達(dá)成新的高度。但是,數(shù)據(jù)的生成依然是在中心化的測序設(shè)施中發(fā)生。如果測序設(shè)施的受到攻擊,基因組數(shù)據(jù)也有可能會(huì)被盜取。要避免這種風(fēng)險(xiǎn),唯一辦法是連測序本身也實(shí)現(xiàn)去中心化。
最理想的情況是,個(gè)人購買DNA測序機(jī)器自行測序,這樣就不用通過中心機(jī)構(gòu)的測序設(shè)施來完成測序。當(dāng)然,目前看,還不現(xiàn)實(shí)。因?yàn)楫?dāng)前的DNA測序儀器很大,很貴,價(jià)值可達(dá)100萬美元,也不易操作,普通用戶很難承受。當(dāng)然,技術(shù)也在發(fā)展,也許未來可能誕生手機(jī)一樣的DNA測序儀器,成本也能降至1000美元左右。但是,這需要時(shí)間。在過渡期內(nèi),Nebula Gemonics還會(huì)一直尋求最新技術(shù),幫助個(gè)人實(shí)現(xiàn)可負(fù)擔(dān)的基因測序。而最終的目標(biāo)就是超去中心化的測序模式發(fā)展。
結(jié)語
傳統(tǒng)的基因測序模式很難建立起真正的基因組數(shù)據(jù)交易市場。因?yàn)樗茈y解決基因組數(shù)據(jù)歸用戶所有的問題,無法調(diào)用用戶參與積極性,在獲取大規(guī)模數(shù)據(jù)方面存在天然的障礙。
而利用區(qū)塊鏈的去中心化模式,則帶來改變。以Nebula為例,它首先把基因組數(shù)據(jù)的所有權(quán)歸還給個(gè)體。其次,它構(gòu)建了能夠保護(hù)用戶數(shù)據(jù)的安全計(jì)算。再次,它充分利用智能合約、區(qū)塊鏈技術(shù)以及代幣體系。
這樣的結(jié)果是,Nebula的模式可以實(shí)現(xiàn)基因組數(shù)據(jù)的買家和賣家直接交易,跟傳統(tǒng)的模式不同,數(shù)據(jù)的買家和賣家之間的交易降低了成本。成本的降低導(dǎo)致基因組測序服務(wù)價(jià)格更加便宜,推動(dòng)更多人參與進(jìn)來。更多人參與進(jìn)來,導(dǎo)致數(shù)據(jù)價(jià)值的提升,數(shù)據(jù)價(jià)值的提升能夠讓基因測序服務(wù)本身更有指導(dǎo)意義,包括對醫(yī)療、生育、減肥、保健等方面都重要的影響。
尤其是一旦實(shí)現(xiàn)了基因組測序數(shù)據(jù)、相應(yīng)的表型數(shù)據(jù)與機(jī)器學(xué)習(xí)的結(jié)合,可能會(huì)給人類帶來很多意想不到的新發(fā)現(xiàn),可以為每個(gè)人提供個(gè)性化的健康指導(dǎo)。這對于大多數(shù)人來說,都具有足夠的吸引力。
此外,Nebula通過去中心化的模式也解決了人們對隱私保護(hù)的擔(dān)憂。為了讓人們不用擔(dān)心,Nebula中的基因組數(shù)據(jù)擁有者可以私下存儲(chǔ)自己的基因組數(shù)據(jù),同時(shí)控制訪問權(quán)限。數(shù)據(jù)共享時(shí),也會(huì)采用加密安全計(jì)算等技術(shù)。與此同時(shí),數(shù)據(jù)的擁有者會(huì)保持匿名,數(shù)據(jù)買家則要求是身份完全透明。Nebula的區(qū)塊鏈存儲(chǔ)所有的交易記錄,這些交易記錄都不可篡改。
對于數(shù)據(jù)的需求方來說,通過從個(gè)體用戶直接獲取高質(zhì)量的基因組數(shù)據(jù)和相應(yīng)的表型數(shù)據(jù),可以降低成本,更方便從數(shù)據(jù)中找出規(guī)律,便于研發(fā)新藥,便于為用戶提供個(gè)性化的健康方案。
鑒于基因組測序目前的價(jià)格還不便宜,還有普通用戶在區(qū)塊鏈技術(shù)及相關(guān)技術(shù)的使用上還存在一定的易用性障礙,要形成真正的基因組測序交易市場還有很長的路要走。對此,我們要保持清醒的認(rèn)識(shí),同時(shí)也有充分的耐心。
從以上的闡述可以看到,區(qū)塊鏈技術(shù)和去中心化的模式能夠?qū)蚪M測序行業(yè)產(chǎn)生重塑的作用,期待像Nebula這樣的項(xiàng)目能夠充分利用區(qū)塊鏈,創(chuàng)建出真正的有規(guī)模效應(yīng)的去中心化的基因組數(shù)據(jù)交易市場。一旦走向正向循環(huán),這會(huì)產(chǎn)生前所未有的行業(yè)效應(yīng)。