大數(shù)據(jù)激發(fā)集中化方法來進(jìn)行高性能計(jì)算

責(zé)任編輯:editor004

2013-12-03 17:57:12

摘自:TechTarget中國

典型的例子是與另一個備受矚目的舉措密切相關(guān)的PennOmics研究數(shù)據(jù)倉庫:賓夕法尼亞大學(xué)醫(yī)學(xué)院高性能計(jì)算集群(HPCC)。最低層面上說,最大的挑戰(zhàn)是從順序分析儀傳輸遺傳學(xué)結(jié)果數(shù)據(jù)到HPCC并進(jìn)入大型研究數(shù)據(jù)庫。

IT治理能力如今似乎特別的供不應(yīng)求。對賓大醫(yī)學(xué)院IT領(lǐng)導(dǎo)者M(jìn)ichael Restuccia和Brian Wells也是如此。他們把賓夕法尼亞大學(xué)醫(yī)學(xué)中心帶入了大數(shù)據(jù)挖掘和高性能計(jì)算的軌道。他們認(rèn)為,這在很大程度上收效于一個不同尋常并且自上而下的治理結(jié)構(gòu)。接下來我們可以進(jìn)一步了解關(guān)于該CIO團(tuán)隊(duì)通過有效治理收獲的突破性工作和大數(shù)據(jù)優(yōu)勢。

幾周后,賓夕法尼亞大學(xué)醫(yī)學(xué)院首席信息官M(fèi)ichael Restuccia和衛(wèi)生技術(shù)和學(xué)術(shù)運(yùn)算助理副總裁Brian Wells,將使來自被稱為PennOmics的倡議組織的第一個數(shù)據(jù)量達(dá)到TB級別的數(shù)據(jù)庫成為現(xiàn)實(shí)。作為全國范圍內(nèi)極少數(shù)的此類數(shù)據(jù)庫, PennOmics研究數(shù)據(jù)庫結(jié)合了從醫(yī)療中心臨床試驗(yàn)管理系統(tǒng)得來的病人護(hù)理信息和研究實(shí)驗(yàn)室的癌癥基因組學(xué)數(shù)據(jù)。隨著感恩節(jié)的到來,研究人員將能夠在自己的實(shí)驗(yàn)室通過互聯(lián)網(wǎng)連接來訪問數(shù)據(jù)。他們將能夠就數(shù)據(jù)進(jìn)行提問,假設(shè)測試,并希望能夠探索到新的籌資機(jī)會—包括與業(yè)界合作伙伴的臨床試驗(yàn),或者獲得更多的聯(lián)邦補(bǔ)助金。

“這是一個非同尋常的舉措,”Wells說。沒有多少學(xué)術(shù)醫(yī)療機(jī)構(gòu)有臨床系統(tǒng)和足夠的研究分量來推出一個這種規(guī)模的數(shù)據(jù)項(xiàng)目。賓夕法尼亞州衛(wèi)生系統(tǒng)大學(xué)在東南賓夕法尼亞州和新澤西州南部的部分地區(qū)擁有四家醫(yī)院, 2000多名醫(yī)生和6,000名臨床醫(yī)生。成立于1765年的全國第一所醫(yī)學(xué)院-佩雷爾曼醫(yī)學(xué)學(xué)校,擁有1,000名教師和800名學(xué)生。 PennOmics卻有一些不以規(guī)模而論的東西,Restuccia和Wells解釋說。

賓夕法尼亞大學(xué)的醫(yī)學(xué)院和醫(yī)療系統(tǒng)均向同一個實(shí)體負(fù)責(zé),醫(yī)學(xué)院長辦公室。在實(shí)驗(yàn)室進(jìn)行的研究會被集成到病人的護(hù)理中——這是賓夕法尼亞大學(xué)醫(yī)學(xué)院提供 “精準(zhǔn)醫(yī)療”的承諾, Restuccia說。這個任務(wù)的背后,是被稱為高級IT治理委員會的一個強(qiáng)大集團(tuán)。該委員會每月至少會面一次來討論技術(shù)要求,計(jì)劃,項(xiàng)目現(xiàn)狀,挑戰(zhàn)和目標(biāo)等。

“最高管理層由醫(yī)學(xué)院和衛(wèi)生系統(tǒng)的領(lǐng)導(dǎo)者構(gòu)成,”和Wells一起作為該領(lǐng)導(dǎo)層必然成員的Restuccia說。 “有十二個人進(jìn)行概覽和監(jiān)督,并向我及Brian和其他人指明我們需要行動的明確方向。 ”

所以,因?yàn)镻ennOmics項(xiàng)目, 在Restuccia和Wells從整個賓州系統(tǒng)搜出半打不相關(guān)遺傳學(xué)數(shù)據(jù)之前;在Wells一個一個實(shí)驗(yàn)室向心臟科,腫瘤科,神經(jīng)科醫(yī)師們和其他專家推銷分享數(shù)據(jù)的價(jià)值之前;在與甲骨文公司合作來微調(diào)廠商的基因數(shù)據(jù)模型之前;實(shí)際上,在他們購買甲骨文轉(zhuǎn)化研究中心的硬件和軟件套件之前,這兩位IT領(lǐng)導(dǎo)者很大程度上依靠該委員會的“集成領(lǐng)導(dǎo)方法”。

一個擺在PennOmics倡議組織面前的緊迫問題是,例如,到底是購買還是建造研究數(shù)據(jù)倉庫的軟件。委員會認(rèn)為該項(xiàng)目是對賓州醫(yī)學(xué)使命至關(guān)重要的,所以做了購買的決定。從合同談判到實(shí)施花了九個月時(shí)間,Wells說,相對于采取內(nèi)部開發(fā)系統(tǒng)可能需要的多年時(shí)間。

治理委員會的介入也從該項(xiàng)目的其他方面證明了其重要性。PennOmics數(shù)據(jù)庫的一個創(chuàng)新是,它就會從不同的來源獲取數(shù)據(jù)。大約三分之二的數(shù)據(jù)來自現(xiàn)有的IT團(tuán)隊(duì)已經(jīng)維護(hù)了六年的病人護(hù)理數(shù)據(jù)庫。其它數(shù)據(jù)來自IT知之甚少的環(huán)境- Penn研究實(shí)驗(yàn)室的分散化世界,其中的數(shù)據(jù)往往是雜亂無章的,而其接入途徑相對協(xié)作來說更為“自我”。 “他們有很多善于收集信息和存儲信息的系統(tǒng),但卻沒有方法來共享信息,并鏈接回衛(wèi)生系統(tǒng)的數(shù)據(jù)庫,”Wells說。

Restuccia說Wells加快研究系統(tǒng)和文化速度的能力非比尋常,對濱州醫(yī)學(xué)來說是一個“巨大的區(qū)別”。但是,一個背負(fù)如此多希望的項(xiàng)目,不單單需要快速的學(xué)習(xí)。

“它需要治理的原因是因?yàn)槲覀儚男l(wèi)生系統(tǒng)和研究方面都要獲取數(shù)據(jù), ” Restuccia說。 “我們必須獲得領(lǐng)導(dǎo)者的資源來創(chuàng)建它,以及貢獻(xiàn)數(shù)據(jù)和支持整個決策。 ”

非但沒有成為IT的拖累,治理不僅帶給了賓夕法尼亞大學(xué)醫(yī)學(xué)院大數(shù)據(jù)的優(yōu)勢,據(jù)該CIO團(tuán)隊(duì)說,而且也造就了一個更有效的IT組織。“IT能夠更迅速地能夠定義我們的方向,更有效地利用我們有限的美元,我們在制定決策中不是排外而是更具包容性,” Restuccia說。 “浪費(fèi)的時(shí)間減少了。團(tuán)隊(duì)讓我們專注于最重要的事情。”

集中化方法來進(jìn)行高性能計(jì)算

事實(shí)上,這種關(guān)系是雙向的。 Restuccia和Wells已經(jīng)建立起的與醫(yī)療保健系統(tǒng)和醫(yī)學(xué)院的信任關(guān)系,使IT挑戰(zhàn)極限變成了可能。

典型的例子是與另一個備受矚目的舉措密切相關(guān)的PennOmics研究數(shù)據(jù)倉庫:賓夕法尼亞大學(xué)醫(yī)學(xué)院高性能計(jì)算集群(HPCC)。集成到PennOmics倡議組織的癌癥基因組學(xué)數(shù)據(jù)很大 - 每名患者的基因組大約一兆位元組。 “如果你在臨床試驗(yàn)中有400名患者而且你在給他們每個人測序- 好吧,管理400 TB的數(shù)據(jù)對于我們來說是很陌生的,” Restuccia說。也不是由放在研究者實(shí)驗(yàn)室工作臺下的普通電腦就能夠輕易管理的那么大小的數(shù)據(jù)。瓶頸促進(jìn)IT推動了利用醫(yī)療中心數(shù)百名研究人員運(yùn)行他們算法而實(shí)現(xiàn)的校園集中高性能計(jì)算中心。 (參見邊欄上的新HPCC能力。 )

該計(jì)算集群在2012年春天被購買并于2013年1月投入運(yùn)營。“我們能夠?yàn)榭蛻舾斓奶峁┙鉀Q方案,而且比他們自己去做更為經(jīng)濟(jì),這是一個人們得到共同利益的實(shí)例, ”Wells說。

集中式方法還有助于保護(hù)包含在數(shù)據(jù)中的敏感的病人的健康信息( PHI )。大部分的處理在防火墻的后面進(jìn)行。研究人員有一個“云溢出方案”用來向外擴(kuò)展,“但我們不允許任何可識別的PHI上傳到云上,”Wells說。讓云服務(wù)供應(yīng)商簽訂的服務(wù)水平協(xié)議,以滿足賓州醫(yī)學(xué)嚴(yán)格安全要求,以保護(hù)此類型數(shù)據(jù)的艱巨的工作正在進(jìn)行中。“我們還沒有完成,”他說。

最低層面上說,最大的挑戰(zhàn)是從順序分析儀傳輸遺傳學(xué)結(jié)果數(shù)據(jù)到HPCC并進(jìn)入大型研究數(shù)據(jù)庫。 “你能獲取的從你辦公室墻壁(或任何你的順序分析儀在的地方)到數(shù)據(jù)中心的速度是每秒1千兆。這意味著它需要大約三個小時(shí)來傳輸一個TB的數(shù)據(jù),這可是挺長的時(shí)間,”Wells說。IT部門正在與網(wǎng)絡(luò)供應(yīng)商聯(lián)系以獲取10甚至40千兆網(wǎng)絡(luò)帶寬,以及一次可裝入多達(dá)10至30 TB數(shù)據(jù)的便攜式分析存儲陣列。

該項(xiàng)目再次展現(xiàn)了IT領(lǐng)導(dǎo)治理委員會的價(jià)值,不僅由于集中高性能計(jì)算集群在整個企業(yè)獲得共識,而且把他們的專業(yè)領(lǐng)域知識帶入IT項(xiàng)目。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號