就在大家閱讀標(biāo)題的這段時(shí)間當(dāng)中,美國航空航天局可能已經(jīng)從目前處于活躍狀態(tài)的大約100項(xiàng)任務(wù)當(dāng)中收集到高達(dá)1.73 GB數(shù)據(jù)。美國航空航天局(簡稱NASA)正持續(xù)推進(jìn)相關(guān)工作,而數(shù)據(jù)的收集速度亦以指數(shù)方式不斷增長。也正因?yàn)槿绱?,對這部分?jǐn)?shù)據(jù)進(jìn)行管理成為其面臨的一項(xiàng)艱巨任務(wù)。然而,NASA收集到的數(shù)據(jù)亦非常寶貴,并在相關(guān)科學(xué)研究工作當(dāng)中發(fā)揮著巨大作用。NASA方面正在努力簡化這些數(shù)據(jù)的使用流程,將其融入日常工作以及對宇宙變化趨勢的預(yù)測當(dāng)中,同時(shí)希望借此通過創(chuàng)新與創(chuàng)造性方式為全人類謀求福祉。
在公布于2012年的“開放政府計(jì)劃(Open Government Plan)”2.0版本當(dāng)中,NASA曾經(jīng)討論但并未深入剖析“大數(shù)據(jù)”在其工作當(dāng)中的重要價(jià)值——但他們同時(shí)承認(rèn),大數(shù)據(jù)還擁有極為廣泛的探索潛力。
相信大家都很清楚大數(shù)據(jù)的定義與作用,因此這里就不再對具體概念加以贅述。下面,讓我們直奔今天的探討主題。
NASA大數(shù)據(jù)挑戰(zhàn)我們可能普遍認(rèn)為NASA的大數(shù)據(jù)挑戰(zhàn)即是與地球相關(guān)的挑戰(zhàn)——但實(shí)際情況并非如此刻板。大部分大數(shù)據(jù)集由一個重要的元數(shù)據(jù)進(jìn)行定義,但這些大數(shù)據(jù)集亦給當(dāng)前及未來的數(shù)據(jù)管理實(shí)踐帶來嚴(yán)峻挑戰(zhàn)。一般來講,NASA方面的主要任務(wù)在于從太空中的航天器處持續(xù)獲取信息,而且其生成速度要遠(yuǎn)高于當(dāng)前的數(shù)據(jù)管理、存儲與分析速度。NASA主要擁有兩種航天器類型,其一為深空飛船,其二則為近地軌道衛(wèi)星。深空飛船的作用在于以每秒MB量級向地球發(fā)回?cái)?shù)據(jù),而近地衛(wèi)星盡管在運(yùn)轉(zhuǎn)機(jī)制上與深空飛船類似,但傳輸?shù)臄?shù)據(jù)量卻為每秒GB級別。NASA利用激光等通信技術(shù)將大規(guī)模數(shù)據(jù)的下載能力加速至上千倍。但就目前而言,NASA無法處理這么多數(shù)據(jù),而其顯然有必要為此做好準(zhǔn)備。事實(shí)上,當(dāng)下NASA設(shè)定的目標(biāo)為在一天之內(nèi)處理24 TB數(shù)據(jù)。如果我們將其整體數(shù)據(jù)量視為單一任務(wù),那么其單日數(shù)據(jù)處理量將達(dá)到國會圖書館的2.4倍。
NASA專注于從大量數(shù)據(jù)當(dāng)中收集最為重要的信息,而非存儲全部數(shù)據(jù)——這是因?yàn)閺暮教炱魈帉?shù)據(jù)轉(zhuǎn)移至NASA數(shù)據(jù)中心將帶來極為高昂的成本。而在數(shù)據(jù)中心內(nèi)數(shù)據(jù)量的積累過程中,NASA亦面臨著對這批數(shù)據(jù)進(jìn)行存儲、管理、可視化以及分析的一系列后續(xù)任務(wù)。為了對NASA需要處理的任務(wù)規(guī)模擁有初步了解,我們這里分享一項(xiàng)實(shí)例:截至2030年底,全球氣候變化數(shù)據(jù)庫的規(guī)模預(yù)計(jì)會增加至230 PB。更確切地進(jìn)行比對,美國一年之內(nèi)郵政服務(wù)所發(fā)送的全部信件總數(shù)據(jù)量僅相當(dāng)于5 PB。
除了航天器之外,NASA還需要處理來自在線平臺、低成本傳感器以及移動設(shè)備的數(shù)據(jù)。2012年10月,《哈弗商業(yè)評論》雜志發(fā)表的一篇文章將這項(xiàng)任務(wù)描述為“我們每個人都相當(dāng)于一臺會走動的數(shù)據(jù)生成器”。與其它眾多機(jī)構(gòu)一樣,NASA的大數(shù)據(jù)挑戰(zhàn)似乎同樣極難得到解決。
而且可以想象,數(shù)據(jù)量的增長并非NASA面臨的惟一挑戰(zhàn)。隨著數(shù)據(jù)規(guī)模的提升,與之相關(guān)的轉(zhuǎn)移、索引以及搜索等各類挑戰(zhàn)都在呈指數(shù)級增長。除此之外,算法與設(shè)備的復(fù)雜性亦在持續(xù)走高,技術(shù)更新速度加快且預(yù)算水平趨于下降,這一切都在NASA的大數(shù)據(jù)處理工作當(dāng)中產(chǎn)生了重大影響。幸運(yùn)的是,目前美國政府正在高度關(guān)注大數(shù)據(jù)挑戰(zhàn)。 2012年3月,奧巴馬政府公布了“大數(shù)據(jù)研究與開發(fā)計(jì)劃”,其重點(diǎn)在于利用所需技術(shù)與工具加強(qiáng)從大量數(shù)字資料當(dāng)中獲取、組織及訪問信息的能力。這項(xiàng)計(jì)劃的目標(biāo)在于轉(zhuǎn)變政府對大數(shù)據(jù)的利用方式,并借此令數(shù)據(jù)在生物醫(yī)學(xué)與環(huán)境研究、教育、國家安全乃至科學(xué)發(fā)現(xiàn)等領(lǐng)域中迸發(fā)更大潛力。
現(xiàn)有方案
NASA正考慮構(gòu)建新的處理方案,旨在對最高優(yōu)先級數(shù)據(jù)進(jìn)行可視化處理、分析與解釋。而在政府內(nèi)部,現(xiàn)實(shí)狀況亦要求其以自下而上與自上而下兩種方式對大數(shù)據(jù)進(jìn)行有效處理。NASA立足于“任務(wù)目標(biāo)(包括技術(shù)、科學(xué)、人類空間探索、航空與作戰(zhàn))”角度,通過“開放政府計(jì)劃”2.0版本發(fā)現(xiàn)了多種大數(shù)據(jù)的處理方案與實(shí)際舉措。
在大數(shù)據(jù)的歸檔、存儲、管理、可視化、分析以及實(shí)際使用等層面,NASA帶來了堪稱全球領(lǐng)先的以下各項(xiàng)處理實(shí)例:
管理與處理
任務(wù)數(shù)據(jù)處理與控制系統(tǒng)(Mission Data Processing and Control System,簡稱MDPCS)展示了NASA處理及管理大規(guī)模數(shù)據(jù)的具體方法。最近,火星探測器好奇號即使用了這套方案。MDPCS與深空框架相結(jié)合,旨在確保NASA的好奇號火星偵察飛行器提供現(xiàn)場數(shù)據(jù),并對這些原始數(shù)據(jù)進(jìn)行實(shí)時(shí)處理。在此之前,整個過程需要數(shù)小時(shí)甚至數(shù)天才能完成計(jì)算。另外,飛行器操作團(tuán)隊(duì)還在任務(wù)執(zhí)行當(dāng)中利用到了由該系統(tǒng)構(gòu)建的定制化數(shù)據(jù)可視化方案(Custom Data Visualizations)。
存儲
NASA的戈達(dá)德空間研究研究所以及全球建模與同化辦公室主要使用NASA氣候模擬中心(簡稱NCCS),后者專門負(fù)責(zé)為NASA提供大數(shù)據(jù)存儲方案。NCCS的主要著眼點(diǎn)在于天氣與氣候數(shù)據(jù),其目前的數(shù)據(jù)總量為32 PB,占用的總存儲空間則達(dá)到37 PB。NCCS還使用一套高級可視化工具,即一塊17英尺x16英尺的可視化墻。該工具提供高分辨率界面,允許科學(xué)家們用以顯示NCCS數(shù)據(jù)的相關(guān)動畫內(nèi)容、圖像與視頻。
歸檔與分發(fā)
大氣科學(xué)數(shù)據(jù)中心(簡稱ASDC)的重點(diǎn)領(lǐng)域?yàn)榈厍蚩茖W(xué)與行星數(shù)據(jù)系統(tǒng)(簡稱PDS),主要關(guān)注行星科學(xué)領(lǐng)域。ASDC的運(yùn)作方式直觀展示了NASA對于大數(shù)據(jù)的歸檔與處理。ASDC位于NASA蘭利研究中心,負(fù)責(zé)NASA地球科學(xué)數(shù)據(jù)的分發(fā)、歸檔與處理。ASDC提供的大氣數(shù)據(jù)對于了解全球氣候變化以及人類活動對氣候變化之影響起著至關(guān)重要的作用,且目前其已經(jīng)收集到多年氣候數(shù)據(jù)。PDS將科學(xué)數(shù)據(jù)納入NASA實(shí)驗(yàn)室建立的行星測量與天文觀測網(wǎng)站之內(nèi),其目前提供超過100 TB太空圖像、模型、遙測以及過去30年間與行星任務(wù)相關(guān)的各類信息。
分析
NASA的Pleiades超級計(jì)算機(jī)提供強(qiáng)大的分析能力,且支持從太空氣候、太陽耀斑到空間全功能車輛設(shè)計(jì)的各項(xiàng)任務(wù)。Pleiades近期被用于處理NASA自開普勒航天器處收集到的大量星形數(shù)據(jù)。開普勒航天器負(fù)責(zé)在銀河系當(dāng)中搜尋與地球大小相近的行星。美國本土有約1200名用戶依賴這套系統(tǒng)處理復(fù)雜而龐大的計(jì)算任務(wù)。另外,Pleiades亦被開發(fā)者們用于進(jìn)行Bolshoi宇宙學(xué)模擬——此項(xiàng)目對過去數(shù)十億年來各星系乃至全宇宙的大規(guī)模結(jié)構(gòu)演變進(jìn)行分析。
可視化
NASA Earth Exchange虛擬實(shí)驗(yàn)室(簡稱NEX)利用協(xié)作技術(shù)與社交網(wǎng)絡(luò)將數(shù)據(jù)可視化、數(shù)據(jù)系統(tǒng)、模型與算法、超級計(jì)算機(jī)以及超大規(guī)模在線數(shù)據(jù)加以整合。在NEX建立之前,科學(xué)家們投入了大量時(shí)間與精力以構(gòu)建高端計(jì)算方法,這直接導(dǎo)致其無法集中精神處理真正的科學(xué)問題。現(xiàn)在,科學(xué)家們能夠利用超級計(jì)算機(jī)對地球科學(xué)數(shù)據(jù)集進(jìn)行可視化處理,同時(shí)共享并運(yùn)行建模算法并立足現(xiàn)有或者新型項(xiàng)目開展協(xié)作。最近,NEX環(huán)境被美國的一支研究團(tuán)隊(duì)用于對大氣觀測影像進(jìn)行拼接,旨在以30米為單位分辨率觀測全球植被密度。這一總像素?cái)?shù)量達(dá)340億個的綜合素材在Pleiades超級計(jì)算機(jī)上只花了數(shù)小時(shí)即完成處理,使得團(tuán)隊(duì)能夠輕松對各類新型方法與算法進(jìn)行實(shí)驗(yàn)。NASA還為地球科學(xué)界提供了大量知識共享與協(xié)作平臺,這一涵蓋了工作流管理、地球系統(tǒng)建模、NASA遙感數(shù)據(jù)源以及超級計(jì)算機(jī)的綜合體得以為研究人員提供一套可直接使用的整體解決方案。
商業(yè)云計(jì)算服務(wù)
火星科學(xué)實(shí)驗(yàn)室的任務(wù)執(zhí)行結(jié)果證明,NASA當(dāng)前采取的大數(shù)據(jù)現(xiàn)代化方法確實(shí)行之有效,且其中大量利用到商業(yè)化云存儲解決方案及云計(jì)算服務(wù)。NASA在不到4個月之內(nèi)即將網(wǎng)站遷移至Amazon Web Services及內(nèi)容管理系統(tǒng)當(dāng)中?;鹦强茖W(xué)實(shí)驗(yàn)室過去曾高度依賴于關(guān)鍵性任務(wù)應(yīng)用程序,但這些應(yīng)用分布在約10座數(shù)據(jù)中心之內(nèi),且任何故障都有可能影響其面向公眾、科學(xué)家以及操作人員的約每秒150 Gb數(shù)據(jù)流交付能力?,F(xiàn)在,該團(tuán)隊(duì)開發(fā)的解決方案能夠從好奇號處直接下載遙測數(shù)據(jù)及原始圖像的解決方案。來自火星的全部圖像皆以數(shù)據(jù)流的形式面向云端進(jìn)行交付、上傳、存儲與處理。憑借著具備高可用性與可擴(kuò)展性的數(shù)據(jù)庫,相關(guān)數(shù)據(jù)進(jìn)行分類并通過一個Restful接口發(fā)布給應(yīng)用程序及用戶。如此一來,火星網(wǎng)站的內(nèi)容管理者即可利用強(qiáng)大的實(shí)時(shí)圖像提供相關(guān)信息。這套方案幫助NASA在一夜之間交付高達(dá)120 TB的動態(tài)內(nèi)容與30 TB的靜態(tài)內(nèi)容,從而充分滿足其網(wǎng)站每分鐘超過800萬次的點(diǎn)擊請求。另外,該團(tuán)隊(duì)亦能夠借此充分發(fā)揮JPL Nebula與JPL Galaxy超級計(jì)算機(jī)的威能。這兩臺超級計(jì)算機(jī)能夠在24小時(shí)之內(nèi),以每項(xiàng)任務(wù)20 GB速率處理約200項(xiàng)蒙特卡洛模擬任務(wù)。
NASA在現(xiàn)實(shí)生活中的大數(shù)據(jù)應(yīng)用將大數(shù)據(jù)技術(shù)納入NASA不僅給美國政府帶來諸多助益,同時(shí)亦給普通民眾帶來切實(shí)影響。作為NASA將大數(shù)據(jù)技術(shù)領(lǐng)域的專長應(yīng)用于現(xiàn)實(shí)生活的絕佳案例,正在于航空安全領(lǐng)域。NASA從飛機(jī)當(dāng)中收集數(shù)據(jù)以發(fā)現(xiàn)各類能夠幫助商業(yè)航空公司改進(jìn)現(xiàn)有維護(hù)流程的安全隱患,同時(shí)成功避免各類設(shè)備故障。利用先進(jìn)的算法,NASA得以從大量非結(jié)構(gòu)化數(shù)據(jù)當(dāng)中提取相關(guān)信息,用于預(yù)見并避免安全問題。利用被稱為多內(nèi)核異常檢測(簡稱MKAD)的開源算法,NASA能夠在兩種持續(xù)性數(shù)據(jù)網(wǎng)絡(luò)或者數(shù)據(jù)流之間找到共通點(diǎn),而后利用單一框架檢測其內(nèi)容以建立模式認(rèn)知,從而自動檢測其與之前曾經(jīng)出現(xiàn)的飛行故障事件之間的關(guān)聯(lián)。
大數(shù)據(jù)帶來機(jī)遇
從實(shí)時(shí)觀測全球氣候變化到對太陽等離子體噴射的研究,到大多數(shù)大型工程設(shè)計(jì)與現(xiàn)代化任務(wù)處理的具體方式,NASA已經(jīng)當(dāng)之無愧地成為大數(shù)據(jù)應(yīng)用領(lǐng)域的領(lǐng)導(dǎo)者。在NASA,科學(xué)家們正在努力利用創(chuàng)新方法以控制不斷變化的環(huán)境,進(jìn)而幫助政府應(yīng)對由此帶來的眾多挑戰(zhàn)以及NASA自身開展業(yè)務(wù)的具體方式。NASA在大數(shù)據(jù)領(lǐng)域的探索方面無疑擁有幾乎無限的發(fā)展機(jī)遇。
開放政府計(jì)劃當(dāng)中對NASA在大數(shù)據(jù)探索領(lǐng)域的具體舉措作出了概述。目前NASA已經(jīng)建立起data.nasa.gov網(wǎng)站作為其數(shù)據(jù)參考門戶,而我們亦可將其視為NASA所提供的惟一且極為卓越的簡單數(shù)據(jù)目錄。NASA也在利用這些能力為用戶提供更易于使用的高質(zhì)量工具與相關(guān)數(shù)據(jù)應(yīng)用途徑。
NASA的科學(xué)家們設(shè)定了一項(xiàng)目標(biāo),即“為NASA的大數(shù)據(jù)發(fā)展機(jī)遇創(chuàng)造更多協(xié)作空間,同時(shí)加強(qiáng)與其它組織的合作關(guān)系,”旨在借此鼓勵普通民眾使用這些原始數(shù)據(jù)集并支持相關(guān)應(yīng)用的構(gòu)建以及NASA的自身使命。NASA亦協(xié)同了美國能源部科學(xué)與國家科學(xué)基金會辦公室在“TopCoder”平臺上舉辦了“大數(shù)據(jù)挑戰(zhàn)(Big Data Challenge)”大賽。各參賽選手需要開發(fā)相關(guān)移動應(yīng)用程序,旨在從政府信息部門所掌握的離散數(shù)據(jù)當(dāng)中發(fā)現(xiàn)新價(jià)值,而后思考如何走出個別孤島的限制將其納入跨機(jī)構(gòu)通用型解決方案進(jìn)行共享。這是一種與NASA之間的全新合作機(jī)遇與發(fā)展方向,亦有助于幫助政府建立起實(shí)現(xiàn)未來成功的新型思考與獨(dú)特進(jìn)步觀念。立足于此,我們也得以一窺NASA在有效處理大數(shù)據(jù)并利用突破性工作充分發(fā)揮其作用的具體考量??梢钥隙ǖ刂v,如果能夠有效管理大數(shù)據(jù),我們即可更多地運(yùn)用這些數(shù)據(jù)。另外,憑借著在NASA這類重要組織機(jī)構(gòu)內(nèi)的廣泛普及,大數(shù)據(jù)也迎來了光明的發(fā)展前景。目前具備大數(shù)據(jù)培訓(xùn)資質(zhì)的人才數(shù)量日益增多,而世界各地的眾多頂級機(jī)構(gòu)也在積極招納此類人才。因此,獲取大數(shù)據(jù)領(lǐng)域的知識儲備與認(rèn)證資質(zhì)亦有助于在世界各地知名機(jī)構(gòu)內(nèi)獲得理想的就業(yè)機(jī)會。
查看英文原文:http://highscalability.com/blog/2017/7/5/what-is-nasa-doing-with-big-data-check-this-out.html