美國(guó)國(guó)家科學(xué)基金會(huì)(NSF)想要探索新的方式,以利用新的商業(yè)大數(shù)據(jù)工具來(lái)處理研究科學(xué)計(jì)算的數(shù)據(jù)管理和分析挑戰(zhàn)。
NSF向來(lái)自亞利桑那大學(xué)、埃默里大學(xué)、印第安納州、堪薩斯州、羅格斯大學(xué)、弗吉尼亞理工大學(xué)和猶他州大學(xué)的大學(xué)團(tuán)隊(duì)撥款500萬(wàn)美元來(lái)贊助該項(xiàng)目,被稱為用于數(shù)據(jù)密集型分析和科學(xué)的中間件(MIDAS)。
“很多科學(xué)問(wèn)題依賴于分析和計(jì)算大量數(shù)據(jù)的能力,”美國(guó)國(guó)家科學(xué)基金會(huì)在其資助公告中稱,“這種分析往往不能很好地?cái)U(kuò)展;其有效性受到不斷增加的數(shù)據(jù)數(shù)量、種類和變化率的影響。”
該項(xiàng)目將會(huì)整合傳統(tǒng)高性能計(jì)算(HPC)(例如科學(xué)圖書館、通信和資源管理中間件)的功能與商業(yè)大數(shù)據(jù)生態(tài)系統(tǒng)中的豐富的功能集。
“這包括軟件系統(tǒng),例如Hadoop,”NSF表示,Hadoop來(lái)自于Apache開源社區(qū)。Hadoop是一個(gè)開源框架,主要用于跨不同存儲(chǔ)和計(jì)算集群處理大型數(shù)據(jù)集。
美國(guó)國(guó)家科學(xué)基金會(huì)將會(huì)涉及MIDAS中間件,該中間件將會(huì)實(shí)現(xiàn)可擴(kuò)展的應(yīng)用程序,這些應(yīng)用程序具有HPC的性能,以及商品Apache大數(shù)據(jù)堆棧的豐富功能。
美國(guó)國(guó)家科學(xué)基金會(huì)將會(huì)在七個(gè)不同的科學(xué)社區(qū)解決主要的數(shù)據(jù)挑戰(zhàn),包括生物分子模擬、計(jì)算社會(huì)科學(xué)、計(jì)算機(jī)視覺(jué)、病理信息學(xué)和地理信息系統(tǒng)。
與這些研究領(lǐng)域相關(guān)的項(xiàng)目庫(kù)將會(huì)被開發(fā)為可擴(kuò)展和可互操作,跨越各種計(jì)算系統(tǒng),例如云計(jì)算、集群和超級(jí)計(jì)算機(jī)。