在勞倫斯伯克利國家實驗室的超級計算中心,我領(lǐng)導(dǎo)國家能源研究科學(xué)計算中心NERSC的數(shù)據(jù)和分析小組。在這個角色上,我追蹤需要大數(shù)據(jù)分析來解決的前沿科學(xué)問題。超過6000個用戶使用了NERSC的超級計算平臺來解決各類科學(xué)問題,從天文學(xué)到有機(jī)生物學(xué),從分子一直到亞原子物理。典型的數(shù)據(jù)集從十萬兆字節(jié)到帕字節(jié)不等。
盡管NERSC已經(jīng)有先進(jìn)的計算和存儲資源可以處理復(fù)雜邏輯,但是真正的挑戰(zhàn)是在于選擇可擴(kuò)展的分析方法和軟件框架。在本文中,我的科研合作者和我評論了在科學(xué)數(shù)據(jù)分析中最難的一些問題,希望能夠邀請更多的數(shù)據(jù)科學(xué)社區(qū)參加到正在發(fā)展中的的科學(xué)研究工作中。
問題一:為宇宙中所有的天體創(chuàng)建目錄
智利帕拉納爾天文臺所與銀河系,這是世界上最先進(jìn)的地面天文觀測站
來源:歐洲南方天文臺/約翰·科洛西莫,F(xiàn)lickr
每一天,世界各地的天文望遠(yuǎn)鏡都在進(jìn)行“巡天”以收集圖像數(shù)據(jù)集。這些數(shù)據(jù)集包含關(guān)于大量恒星、星系和類星體等宇宙天體的位置和結(jié)構(gòu)的有價值信息。不幸的是,這些數(shù)據(jù)集不便于科學(xué)家們進(jìn)行訪問或者共享。
由勞倫斯伯克利國家實驗室的天體物理學(xué)家、統(tǒng)計學(xué)家和計算機(jī)科學(xué)家組成的團(tuán)隊為了尋求這一他們認(rèn)為科學(xué)界最大的圖模型問題的解決方案,正在開發(fā)一個全新的、完全可生成的宇宙模型,稱為“塞萊斯”(Celeste)。通過對龐大的圖形模型使用復(fù)雜的變分推理(一個高可擴(kuò)展的算法)以及分布式蒙特卡洛馬爾科夫鏈推理(MCMC-Markov Chain Monte Carlo),塞萊斯項目旨在為所有在可見宇宙中的天體創(chuàng)建統(tǒng)一的目錄。這意味著從500萬億字節(jié)的圖像數(shù)據(jù)或是約一萬億像素數(shù)據(jù)中推理O(1000億)數(shù)量級的參數(shù)。
主要合作者:大衛(wèi)·施萊格爾(David Schlegel,勞倫斯伯克利國家實驗室),喬恩·麥考利夫(Jon McAuliffe,加州大學(xué)伯克利分校),以瑞恩·亞當(dāng)斯(Ryan Adams,哈佛大學(xué))
問題二:確定宇宙學(xué)的基本常量
由NyX code產(chǎn)生的宇宙模擬,用來在大規(guī)模并行計算器上進(jìn)行大規(guī)模宇宙學(xué)模擬
來源:由普拉伯特(Prabhat)和博倫·洛林(Burlen Loring)完成的數(shù)據(jù)可視化,勞倫斯伯克利國家實驗室,經(jīng)許可使用
如今宇宙中的物質(zhì)結(jié)構(gòu)自從宇宙大爆炸開始便受到將物質(zhì)牽引到一起的重力的引力作用以及暗物質(zhì)的“負(fù)壓力”膨脹的影響。為了理解宇宙的組成(例如,那里有多少物質(zhì),以及暗物質(zhì)是由什么組成的),宇宙學(xué)家研究了從天文調(diào)查中得出的星系分布。隨后,他們的觀察結(jié)果與涉及幾萬億粒子的理論模擬的預(yù)測結(jié)果進(jìn)行了比較。但是,這里就有一個分析問題:由于數(shù)據(jù)集的大小從30到300萬億字節(jié)不等,用于特征化物質(zhì)結(jié)構(gòu)的統(tǒng)計數(shù)據(jù)計算起來太過密集,他們包含了星系的集群、2度關(guān)聯(lián)計算以及3度關(guān)聯(lián)計算。
最近我們開發(fā)了BD-CATS系統(tǒng),這是一個數(shù)據(jù)集群算法DBSCAN的高可擴(kuò)展版本,它可以在超級計算平臺上完整聚集數(shù)萬億粒子數(shù)據(jù)集。BD-CATS正在幫助理解在等離子物理(關(guān)于帶電粒子和流體與電場和磁場相互作用的研究)中粒子加速背后的機(jī)制,并在宇宙學(xué)的數(shù)據(jù)聚合能力方面呈現(xiàn)出優(yōu)越的性能。
主要合作者:黛比·巴德(Debbie Bard,勞倫斯伯克利國家實驗室),澤里亞·盧基奇(Zarija Lukic,勞倫斯伯克利國家實驗室),莫斯托法·帕特瓦里(Mostofa Patwary,英特爾)
問題三:特征化變化氣候中的極端天氣
CAM5 0.25度模擬中水蒸氣的可視化圖形
來源:由普拉伯特(Prabhat)和邁克爾·魏納(Michael Wehner)完成的數(shù)據(jù)可視化,勞倫斯伯克利國家實驗室,經(jīng)許可使用
氣候變化問題是人類最為緊迫的問題之一。在NERSC,我們對于研究未來全球變暖會如何影響氣候的各種方式均深感興趣(遠(yuǎn)遠(yuǎn)不止是平均海平面上升和全球平均溫度上升)。我們還感興趣的是,在極端天氣事件的統(tǒng)計數(shù)據(jù)中檢測是否將會有氣候變化。比如颶風(fēng),在未來我們認(rèn)為颶風(fēng)會變得更弱還是更強(qiáng)?我們認(rèn)為四級和五級颶風(fēng)會更頻繁的登陸嗎?天氣數(shù)據(jù)分析中的一個很大的挑戰(zhàn)性問題是涉及到因果推理:我們是否可以識別異常事件并將它們和一些機(jī)制建立因果關(guān)系?這些機(jī)制在未來會怎樣變化?
通過分析大量數(shù)據(jù)集來識別極端天氣模式與視頻數(shù)據(jù)中的語音檢測相類似,我們不僅需要處理一百萬個網(wǎng)格點(diǎn),每個點(diǎn)又有一大堆變量。解決這樣的挑戰(zhàn)需要我們開發(fā)出高可擴(kuò)展的模式識別能力,讓我們可以挖掘100萬億字節(jié)到1帕字節(jié)的大規(guī)模時空數(shù)據(jù)集。我們已經(jīng)成功應(yīng)用了MapReduce框架(在極端天氣分析工具包(Toolkit for Extreme Climate Analysis)中實現(xiàn)),并且正在積極探索使用深度學(xué)習(xí)來解決這一問題。
主要合作者:普拉伯特(Prabhat,勞倫斯伯克利國家實驗室),邁克爾·魏納(Michael Wehner,勞倫斯伯克利國家實驗室),威廉·德魯·科林斯(William D. Collins,勞倫斯伯克利國家實驗室)
問題四:從科學(xué)文獻(xiàn)中抽取知識
位于紐約約克高地的沃森系統(tǒng),由IBM公司開發(fā)
來源:由Clockready提供于公共維基多媒體
在互聯(lián)網(wǎng)的時代,對于我們來說在一瞬間發(fā)布、交流以及共享結(jié)果變得十分平凡。然而,對海量信息的便捷訪問帶來了獨(dú)有的問題:對于個人而言,對在一般科學(xué)以及特定主題的最新進(jìn)展進(jìn)行追蹤變得難以管理。此外,所有的信息來源并不是同等可信的,我們需要在得出重要的結(jié)論之前考慮的信息的數(shù)量和質(zhì)量。最后,科學(xué)界迫切需要對科學(xué)文獻(xiàn)進(jìn)行自動整理、挖掘和質(zhì)量評估。
與這個問題關(guān)聯(lián)的數(shù)據(jù)分析的挑戰(zhàn)很大程度上與處理出版物中的非結(jié)構(gòu)化數(shù)據(jù)有關(guān)。比如說文本、表格、圖表、圖像、原理圖、等式以及引用。每一個科學(xué)領(lǐng)域都有一個約定的分類法,可能編寫成文也可能沒有。因此,關(guān)鍵的挑戰(zhàn)是要從出版物中根據(jù)主題(比如說疾病或者療法)抽取科學(xué)實體,以知識圖譜的形式建立實體之間的關(guān)系,并且基于多條線索為實體和關(guān)系進(jìn)行加權(quán)。最后,支持基于知識圖譜反饋的流利問答功能,并要具有相當(dāng)置信度和關(guān)聯(lián)推理,這將對改進(jìn)更廣泛的科學(xué)界的生產(chǎn)力十分關(guān)鍵。許多有發(fā)展前景的技術(shù)眼下正在開發(fā)之中:IBM 沃森系統(tǒng)慶祝了廣為人知的勝利,它在Jeopardy!(一個美國人機(jī)智能問答)大賽中戰(zhàn)勝了人類專家。而由斯坦福開發(fā)的DeepDive數(shù)據(jù)管理系統(tǒng)在一些科學(xué)領(lǐng)域展示了令人期待的結(jié)果。未來隨著這些技術(shù)以及類似技術(shù)的更多的定制化開發(fā),征服更多的科學(xué)領(lǐng)域只是時間問題。
主要合作者:亞當(dāng)·阿金(Adam Arkin,勞倫斯伯克利國家實驗室),安納博阿夫·賈恩(Anubhav Jain,勞倫斯伯克利國家實驗室),普拉伯特(Prabhat,勞倫斯伯克利國家實驗室)
問題五:研究關(guān)于語言生成的大腦皮層機(jī)制
DARPA的基于系統(tǒng)的神經(jīng)技術(shù)新興療法項目旨在通過開發(fā)記錄和分析大腦活動的近實時神經(jīng)模擬的療法來降低神經(jīng)性疾病的影響程度
來源:由馬薩諸塞州總醫(yī)院和德雷珀實驗室在維基公共對媒體上提供
數(shù)十年間,人類一直試圖理解人類大腦的神經(jīng)活動是如何看似毫不費(fèi)力地生成語音的。大腦的哪一部分功能性組織負(fù)責(zé)計算并生成語音?功能獨(dú)立的大腦區(qū)域是如何互相溝通來產(chǎn)生協(xié)調(diào)模式并進(jìn)而產(chǎn)生語音?從語言的組織到發(fā)音在大腦皮層上有哪些交互?在這個獨(dú)特的人類能力上的深入理解對于語音修復(fù)學(xué)的發(fā)展的是十分重要的,語音修復(fù)學(xué)旨在為失去語音能力的人恢復(fù)該能力。
理解大腦皮層生成語音的過程要求記錄大面積皮質(zhì)上高時空分辨率的神經(jīng)活動。記錄人類的這一活動只能通過侵入性腦電圖技術(shù)來完成,這使得數(shù)據(jù)非常稀有。我們最初的調(diào)查旨在將大腦活動的時空模式“翻譯”成有意連續(xù)的語音。然而這些數(shù)據(jù)有長時間的時間依賴性、大量的噪聲并且受到樣本數(shù)的限制。當(dāng)前的數(shù)據(jù)集大小約在10兆字節(jié)。此外,將來自多個發(fā)言人樣本的數(shù)據(jù)組合起來是具有挑戰(zhàn)性的,但是也是最后成功的關(guān)鍵所在。
我們使用深度神經(jīng)網(wǎng)絡(luò)在對感覺運(yùn)動皮質(zhì)上的數(shù)據(jù)基于57個元音輔音音節(jié)的分類上取得了最前沿的結(jié)果。此外,為了實現(xiàn)一個混合式連續(xù)分類系統(tǒng),我們正在調(diào)研遞歸網(wǎng)絡(luò)。對于最終為人們開發(fā)的發(fā)聲器來說,用于語音生成相關(guān)的神經(jīng)分析的計算組件必須是實時的且非常低能耗的。
主要合作者:克里斯·布沙爾(Kris Bouchard,勞倫斯伯克利國家實驗室),愛德華·昌(Eddward Chang,加大舊金山分校),彼得·徳內(nèi)斯(Peter Denes,勞倫斯伯克利國家實驗室)
問題六:為生物成像而實現(xiàn)的谷歌地圖
耐甲氧西林金黃色葡萄球菌(MRSA)以及一個死人的中性粒細(xì)胞的掃描電子顯微圖
來源:由NIAID_Flickr在公共維基多媒體上提供
生命是以多尺度的形式組織和持續(xù)的,從單個蛋白質(zhì)到細(xì)胞器,細(xì)胞,以及微生物群到組織,器官到生物有機(jī)體。捕獲這些數(shù)據(jù)在規(guī)模上有巨大差異,從宏觀和中觀到微觀和納米級,這要求多模態(tài)成像。然而,沒有一個單獨(dú)的成像技術(shù)可以捕獲整個范圍。此外,每一種技術(shù)提供的在不同長度、時間、分辨率上有些許互補(bǔ)的數(shù)據(jù)。
這一特定問題的數(shù)據(jù)分析挑戰(zhàn)包括分割技術(shù)、生物實體分類技術(shù)的開發(fā),以及實現(xiàn)一個以地圖為中心的數(shù)據(jù)庫用以執(zhí)行量化分析。這項工作的最終目標(biāo)是整合所有的相關(guān)時空信息(一個大小約在100兆字節(jié)到1萬億字節(jié)的數(shù)據(jù)集)到一個通用的坐標(biāo)系,從而得到統(tǒng)計上有意義的定量的地理信息量(例如計算一個形狀的表面積或者體積),并且將生物實體分類到一個可視化數(shù)據(jù)庫,使得它們可以通過這些地理信息的模式進(jìn)行查詢。這使得生物學(xué)家可以使用定量的信息,通過三維結(jié)構(gòu)標(biāo)識、分子/代謝組成以及核心高分子成分(如蛋白質(zhì))的本地化等,來區(qū)分不同的疾病的狀態(tài)和發(fā)展情況。
主要合作者:曼弗·雷德奧爾(Manfred Auer,勞倫斯伯克利國家實驗室),華金·科雷亞(Joaquin Correa,勞倫斯伯克利國家實驗室)
問題七:執(zhí)行極大規(guī)模基因組序列拼接
脫氧核糖核酸(DNA)的雙螺旋鏈
來源:Pixabay
從頭測序序列拼接是現(xiàn)在基因?qū)W中最重要的計算之一。這個過程涉及到將短小的、隨機(jī)抽樣的“鳥槍”基因序列轉(zhuǎn)化成一個連續(xù)的、準(zhǔn)確的復(fù)雜基因組的重構(gòu)。復(fù)雜基因組的重拼接要求大量序列數(shù)據(jù)。因此,由于海量的計算需求以及拼接大規(guī)?;蚪M和宏基因組的算法復(fù)雜度,從頭拼接已經(jīng)不能跟上洪水般的數(shù)據(jù)(大約在1到10萬億字節(jié))的步伐。例如,高重復(fù)度的小麥基因組比人類的大五倍,從結(jié)合復(fù)雜度和規(guī)模來看,這樣的拼接、映射是特別具有挑戰(zhàn)的。
在從頭測序基因組拼接中,起始處理和數(shù)據(jù)約簡(K-mer分析法)是受到帶寬約束的,隨后的徳布魯金圖(de Bruijn graph)的構(gòu)造和遍歷是受到延遲約束的,序列對齊是受到計算量限制的。許多針對低直徑圖開發(fā)的圖處理技術(shù)不適用于徳布魯金圖,因為它有非常低的度和大直徑。我們通過HipMer系統(tǒng)來解決這一挑戰(zhàn)。這是一個高性能、端對端的基因序列拼接器,通過并行地在一個超級計算機(jī)的多集群上同時執(zhí)行代碼,從而簡化和加速基因組拼接以及映射。以前需要花費(fèi)數(shù)月的處理過程,比如拼接整個人類的基因組,現(xiàn)在能在大約8分鐘之內(nèi)完成。
主要合作者:伊萬格洛斯·喬格納斯(Evangelos Georganas,加州大學(xué)伯克利分校),艾登·布拉克(Aydin Buluc,加州大學(xué)伯克利分校),丹·洛克薩(Dan Rokhsar,加州大學(xué)伯克利分校),凱西·伊列克(Kathy Yelick,勞倫斯伯克利國家實驗室)
問題八:采用精確的毒理學(xué)
淡水加殼水蚤被用于研究化學(xué)物質(zhì)對生態(tài)的影響,最近也被用于研究對人類的影響
來源:由基爾大學(xué)的簡·米歇爾斯(Jan Michels)博士提供,經(jīng)允許使用
大約80%的新藥因為不可預(yù)期的對人體的毒性而失敗。此外,每年有超過500種的基礎(chǔ)工業(yè)用化學(xué)品被開發(fā),其中的大部分將不會接受任何種類的毒性檢測。毒理學(xué)是一種我們所依賴的科學(xué)原理,來保護(hù)我們不受癌癥、出生缺陷、心血管以及神經(jīng)退化性疾病的侵害。對它們的風(fēng)險評估仍然依賴于一個較小集合的模型物種,每種化合物要花費(fèi)超過五年的時間以及超過150萬美元。通過風(fēng)險評估,我們了解到了致命劑量,以及在一些情況下的最小致病劑量。但是我們對于毒理機(jī)制一無所知。
我們每個人有獨(dú)特的生活史、遺傳基因、微生物以及生理特征,它們相互作用產(chǎn)生我們個性化的對周邊環(huán)境挑戰(zhàn)的易受影響的部分和適應(yīng)恢復(fù)的能力。毒物對于胎兒的影響與成人完全不同,在一個基因背景下有效的藥物可能對于另外一個人來說極少的劑量都是致命的。
盡管我們不能在每一種遺傳基因背景,甚至是每一種最終的受眾物種上測試每一種化合物,但是我們可以通過可得到的、性價比高的數(shù)據(jù)將毒物與毒理畫像以及中毒后的分子狀態(tài)關(guān)聯(lián)起來。我們可以認(rèn)識個體易受性的基礎(chǔ),并將我們的易得的疾病和毒性反應(yīng)映射到整個生命樹上。利用生物科學(xué)的潛力來達(dá)到準(zhǔn)確的毒理學(xué)測試將使得在產(chǎn)品的開發(fā)前期就可以進(jìn)行精確的分析和風(fēng)險評估,有助于減少開發(fā)的開銷。
這個問題天生就是一個計算問題,并對我們的社會和星球是一個巨大的挑戰(zhàn)。我們對于這一挑戰(zhàn)的最主要的解決方案是分子系統(tǒng)毒理學(xué)(在多物種環(huán)境下暴露生物體):我們以一小群易馴服的生物為模型進(jìn)行測試,然后使用定量的生物進(jìn)化工具(包括針對多物種分析的新形式的張量回歸、應(yīng)用量子計算的路徑發(fā)現(xiàn)、深度學(xué)習(xí)以及基于隨機(jī)森林的回顧學(xué)習(xí)機(jī))來對公共祖先和所有的現(xiàn)存物種做出預(yù)測。這一方案是通過映射和利用大約18萬億字節(jié)的高容量數(shù)據(jù)集來完成的。在兩年之內(nèi),我們預(yù)期這些數(shù)據(jù)集的大小將會增長到1帕字節(jié)。
主要合作者:本·布朗(Ben Brown,勞倫斯伯克利國家實驗室),約翰·科爾伯恩(John Colbourne,英國伯明翰大學(xué))以及環(huán)境學(xué)和毒理學(xué)協(xié)會
問題九:尋找新設(shè)計材料
部分被孔雀石覆蓋的銅礦石和赤銅礦
來源:由Didier Descouens在公共維基多媒體上提供
技術(shù)創(chuàng)新很大程度上受新材料的發(fā)現(xiàn)所驅(qū)動。我們經(jīng)常被給到一組理想中的材料屬性(例如:硬度、透明度、電導(dǎo)率、可承受電壓等),并要求發(fā)現(xiàn)具有這些屬性的材料的挑戰(zhàn)。如今的計算機(jī)模型可以近似可靠地預(yù)測材料的屬性,并且有收集了上千種這類預(yù)測的數(shù)據(jù)庫可供使用。例如,Materials Project 是一個公開可訪問的數(shù)據(jù)庫,該數(shù)據(jù)庫在NERSC收集了成千上萬種材料的信息。下一步是分析這一龐大的數(shù)據(jù)集(大約100萬億字節(jié)),測試和發(fā)現(xiàn)新的解釋材料行為的科學(xué)原理,展現(xiàn)復(fù)雜的數(shù)據(jù)(例如,周期性三維水晶),并將發(fā)現(xiàn)和開發(fā)新材料所需要的時間從現(xiàn)在的大約20年減少到很短的時間。
材料的自動化分析要求我們解決兩個關(guān)鍵問題:自動化特征學(xué)習(xí)以及高維回歸。一旦這些問題被解決了,那么我們可以想像一個在線系統(tǒng),它能自適應(yīng)地探索材料部分選定的設(shè)計空間來決定最有前景的值得模擬和制造的材料。
主要合作者:安納博阿夫·賈恩(Anubhav Jain,勞倫斯伯克利國家實驗室),克里斯丁·佩爾松(Kristin Persson,勞倫斯伯克利國家實驗室)
問題十:決定物質(zhì)的基本成分
歐洲粒子物理研究的大型強(qiáng)子對撞機(jī)(LHC)的CMS檢測器內(nèi)部視圖,大型強(qiáng)子對撞機(jī)是一個粒子加速器和碰撞器。人們希望大型強(qiáng)子對撞機(jī)成為世界上最大的能量最高的粒子加速器。
來源:由Tighef在公共維基多媒體上提供
高能粒子物理旨在從最基本的亞原子層面了解宇宙的秘密。盡管我們的了解已經(jīng)進(jìn)步了不少,并在最近發(fā)現(xiàn)希格斯玻色子后達(dá)到一個高峰,但是我們知道仍然有許多關(guān)鍵的未解之謎需要解決,比如暗物質(zhì)的來源以及重力在萬物理論中扮演怎樣的角色。探索這些未解之謎需要最龐大最復(fù)雜的實驗設(shè)施。比如,大亞灣反應(yīng)堆中微子實驗就是這樣一個例子,它旨在推進(jìn)我們對于中微子的了解。中微子是由衰減中的放射性元素生成的,比亞原子粒子少一個電子。另外一個例子是大型強(qiáng)子對撞機(jī),它有所有粒子加速器中的最高能量,旨在發(fā)現(xiàn)從未見過的粒子和相互作用。
這些設(shè)備使用了數(shù)十億管道的模式和異常檢測器,以納秒的精確度收集數(shù)據(jù),產(chǎn)生了極大規(guī)模的數(shù)據(jù)管道。其數(shù)據(jù)集大小從上百萬億字節(jié)到上百帕字節(jié),快速而準(zhǔn)確的分析是很有必要的。這一領(lǐng)域已經(jīng)應(yīng)用“模式檢測”技術(shù)有一段時間了,但是用它們直接對物理事件在原始數(shù)據(jù)的規(guī)模下進(jìn)行分類仍然是一個挑戰(zhàn)。我們目前使用深度神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)新的數(shù)據(jù)的高層次表達(dá)方式。轉(zhuǎn)化后的數(shù)據(jù)將會被用于快速的數(shù)據(jù)分析,包括信號和背景源的可視化和特征化。
主要合作者:克雷格·塔爾(Craig Tull,勞倫斯伯克利國家實驗室),瓦希德·佩姆奇(Wahid Bhimji,勞倫斯伯克利國家實驗室),彼得·薩多夫斯基(Peter Sadowski,加州大學(xué)歐文分校)
作者:普拉伯特(Prabhat) 普拉伯特在勞倫斯伯克利國家實驗室以及美國能源部經(jīng)營的國家能源研究科學(xué)計算中心NERSC帶領(lǐng)數(shù)據(jù)和分析服務(wù)小組。他的研究方向包括數(shù)據(jù)分析(統(tǒng)計學(xué)、機(jī)器學(xué)習(xí))、數(shù)據(jù)管理(并行讀寫、數(shù)據(jù)格式、數(shù)據(jù)模型)、科學(xué)可視化以及高性能計算。普拉伯特在2001年獲得布朗大學(xué)計算機(jī)科學(xué)碩士學(xué)位,1999年在印度新德里理工學(xué)院所獲得計算機(jī)科學(xué)與工程學(xué)士學(xué)位。他目前在加州大學(xué)伯克利分校的地球與行星科學(xué)系就讀博士學(xué)位。