“高效制勝、擴(kuò)展無限—Dell HPC 行業(yè)應(yīng)用實(shí)踐交流會”于2012年6月20日在北京悠唐皇冠假日酒店盛大召開,戴爾技術(shù)專家及行業(yè)技術(shù)精英和與會者切磋交流,共商HPC發(fā)展之大計(jì)。
以下是現(xiàn)場快遞。(聲明:本稿件來源為現(xiàn)場速記,可能有筆誤和別字,僅供參考)
主持人:非常感謝陳工的精彩演講,接下來有請Dell(中國)大客戶及公共事業(yè)部高級市場經(jīng)理李毅為我們分享高性能計(jì)算中Dell服務(wù)器解決方案,有請。
Dell(中國)大客戶及公共事業(yè)部高級市場經(jīng)理李毅
李毅:大家好,今天非常高興有這個(gè)機(jī)會跟大家一起交流Dell12代服務(wù)器,怎么樣幫助推動高性能運(yùn)算集群事業(yè)的發(fā)展。
我們首先看一下整個(gè)業(yè)界的趨勢,Dell看到整個(gè)業(yè)界有三大趨勢所組成,一個(gè)是整個(gè)IT業(yè)界,現(xiàn)在移動互聯(lián)越來越多,需要隨時(shí)隨地去訪問數(shù)據(jù),而且數(shù)據(jù)才能越來越多,大家現(xiàn)在手上都有智能手機(jī),智能平板電腦等等,移動數(shù)據(jù)隨時(shí)地要接入到我們數(shù)據(jù)中心進(jìn)行處理,對于處理大數(shù)據(jù)提出了新的挑戰(zhàn)。另外是虛擬化,主要從整個(gè)提高IT架構(gòu)的利用率角度來提的,同時(shí)我們高性能運(yùn)算也是一個(gè)重點(diǎn),因?yàn)樘摂M化主要是從利用率這個(gè)角度,而我們高性能計(jì)算對每個(gè)單個(gè)服務(wù)器的CPU、內(nèi)存利用率相當(dāng)高,所以我們的任務(wù)是怎么樣進(jìn)一步突破這個(gè)瓶頸,等會我會跟大家分享我們第12代服務(wù)器是怎么樣在這些方面幫助運(yùn)算集群客戶,實(shí)現(xiàn)他們的目標(biāo)。
還有一點(diǎn)就是云計(jì)算,云計(jì)算這兩年也是比較熱點(diǎn)的話題,其實(shí)云計(jì)算很早以前,由高性能計(jì)算這邊提起的,后來又高性能計(jì)算的網(wǎng)格,有這么三種云,一種叫做公共云,公共云一般是大型的互聯(lián)網(wǎng)商,比如新浪等等,還有一些是屬于企業(yè)的私有云,私有云是建立我們在現(xiàn)有的IT基礎(chǔ)架構(gòu)之上,然后進(jìn)行擴(kuò)展,把現(xiàn)有資源做一個(gè)資源池進(jìn)行有效管理。還有混合云,把你的一些數(shù)據(jù),一方面存在你現(xiàn)有的企業(yè)私有云下,然后可以把其他的一些數(shù)據(jù),特別是保密要求不是很高的數(shù)據(jù)存在公共云。
然后對于客戶來講,存在著三大主要的問題,第一個(gè)是缺少容量,主要是指的缺少進(jìn)一步發(fā)展的能力,比如說咱們在CPU,在內(nèi)存的帶寬,在這方面現(xiàn)在都是制約著的高性能計(jì)算進(jìn)一步的發(fā)展。另外就是復(fù)雜的技術(shù),現(xiàn)在各個(gè)廠商都有服務(wù)器,然后有各種各樣的存在,還有各種各樣的網(wǎng)絡(luò)架構(gòu),整個(gè)就是要管理這么一個(gè)復(fù)雜架構(gòu)現(xiàn)在是非常大的挑戰(zhàn)。我們曾經(jīng)做過一個(gè)7700多個(gè)客戶,17個(gè)國家,橫跨四大洲的調(diào)查,發(fā)現(xiàn)IT的復(fù)雜性來說,都是我們IT管理人員最關(guān)心的問題,怎么樣解決這個(gè)復(fù)雜性的問題。還有一個(gè)就是我們數(shù)據(jù)的安全,怎么樣能夠迅速的訪問我們的數(shù)據(jù),同時(shí)又能保證我們的數(shù)據(jù)安全,也是大家關(guān)心的話題。
Dell的第12代服務(wù)器,正是基于這三點(diǎn)推出來的,我們目標(biāo)在于通過我們的硬件架構(gòu)以及管理方式,能夠進(jìn)一步提高我們的生產(chǎn)率,待會我會介紹我們從CPU到GPU到內(nèi)部存儲到I/O方面我們有哪些進(jìn)步,另外怎樣將工作負(fù)載管理自動化,高性能計(jì)算來講的話,可能要管理成百臺上千的服務(wù)器,這樣的話怎么樣提高IT管理人員的管理效率,怎么樣把日常非常乏味的管理工作,比如像一些驅(qū)動程序的更新,讓機(jī)器來做,這個(gè)就是我們12代服務(wù)器能夠幫助大家做到的一點(diǎn)。
另外就是最大程度的提高效率,效率有兩個(gè)方面,一個(gè)效率是指咱們在相同的時(shí)間完成的工作更多,還有一個(gè)效率是在相同的成本完成的工作更多。這方面會有幾個(gè)方式實(shí)現(xiàn),一個(gè)是提高IT管理效率,還有就是提高咱們整個(gè)數(shù)據(jù)中心,特別是對咱們高性能計(jì)算運(yùn)算集群來講非常重要,提高整個(gè)數(shù)據(jù)中心的能耗管理水平。
Dell我們是從92年開始做服務(wù)器的,到現(xiàn)在為止我們在服務(wù)器在全球已經(jīng)是排名非常靠前了,如果是X86服務(wù)器的話現(xiàn)在排名第二,而且在中國我們?nèi)ツ昱琶谝弧U麄€(gè)服務(wù)器這塊非常強(qiáng),而且現(xiàn)在我們的存儲,我們的網(wǎng)絡(luò)解決方案也非常強(qiáng)。
另外就是網(wǎng)絡(luò)解決方案,Dell我們是以Powerconned為主,現(xiàn)在我們在刀片上已經(jīng)可以提供40萬兆的MSL,在這塊對于追求高速以太網(wǎng)互連的客戶是非常吸引的。還有我們的服務(wù)以及我們的合作伙伴,Intel是我們非常重要的合作伙伴。還有Dell的服務(wù),以及使用和管理,這塊都有很成熟的表現(xiàn)。
我們談到HPC,高性能計(jì)算集群,HPC是作為整個(gè)一個(gè)工作負(fù)載的部分,我們把整個(gè)工作負(fù)載分成這么五大塊,一塊就是一般來說的企業(yè)業(yè)務(wù)處理,主要做一些ERP這些性能,還有一塊是決策支持,主要是后端數(shù)據(jù)庫的處理,還有一塊是我們HPC最關(guān)心的,就是行業(yè)的研發(fā),這塊包括像工程、技術(shù)。還有就是給整個(gè)企業(yè)提供IT和網(wǎng)絡(luò)的基礎(chǔ)架構(gòu),還有一塊日常的發(fā)郵件,分享文件的合作。
首先我們談一下HPC的應(yīng)用,在座的都是各行各業(yè)的專家,剛才張?jiān)迫蠋熞步榻B了整個(gè)HPC應(yīng)用情況,特別是在國內(nèi)有哪些行業(yè),有哪些企業(yè)使用HPC。我也講一下Dell是怎么看待的。一個(gè)是制造業(yè),制造業(yè)主要是像有些汽車、飛機(jī)、航空航天,在做設(shè)計(jì)的時(shí)候,大家如果注意到,我們在外面有一個(gè)演示,那個(gè)演示就是汽車碰撞的HPC簡單演示的視頻,大家可以看一看。另外還有就是能源和地質(zhì)科學(xué),石油石化,通過爆炸,研究地震的數(shù)據(jù)發(fā)現(xiàn)一些礦藏。還有生命科學(xué),早上我們放的視頻有介紹。還有就是高能物理,主要在大學(xué)里面,像Dell就幫中國科大安裝了HPC整個(gè)一套東西。還有現(xiàn)在比較新興的,就是在金融行業(yè),金融行業(yè)分析股票,分析期貨,然后他現(xiàn)在不是簡單的就是看那個(gè)趨勢度,而是他分析眾多的因素,模擬運(yùn)算,推斷期貨和股票價(jià)值,這個(gè)在國內(nèi)還是屬于剛剛新興的行業(yè),但是在華爾街已經(jīng)是非常流行的了。
我們再談一下,整個(gè)HPC對服務(wù)器有什么新的要求。大家可以看到,一個(gè)是CPU,CPU現(xiàn)在要求支持核數(shù)越來越多,處理器主頻和TDP大致不變,每核性能不斷提高。內(nèi)存的瓶頸存在著內(nèi)存帶寬,內(nèi)存通道,還有整個(gè)內(nèi)存支持的插座,這些都在不斷的提高。但是內(nèi)存的提高速度,目前還是落后于CPU提高的速度,這塊也是對我們整個(gè)服務(wù)器的設(shè)計(jì)提出了新的挑戰(zhàn),怎么去進(jìn)一步提高你的內(nèi)存擴(kuò)展能力?,F(xiàn)在越來越多是使用一種叫做重核的技術(shù),這是一個(gè)新的技術(shù),待會我也會介紹我們12代服務(wù)器在也方面有哪些新的進(jìn)步可以跟大家分享的?,F(xiàn)在CPU越來越快,內(nèi)存帶寬越來越寬,但是你還需要PCIE速度也要進(jìn)一步的提高,現(xiàn)在在新一代服務(wù)器都從第2代的PCIE轉(zhuǎn)到第3代的PCIE。然后我還有網(wǎng)絡(luò)鏈接,現(xiàn)在的速度也是越來越快,InfiniBandQDR及以上的技術(shù),Ethemef萬兆及以上。怎么提高它的制冷和散熱,還有數(shù)據(jù)的存儲以及提取這塊都是新的挑戰(zhàn)。
所以我們整個(gè)12代服務(wù)器,它的一個(gè)宗旨,就是進(jìn)一步把我們計(jì)算能力轉(zhuǎn)化成您的生產(chǎn)力,進(jìn)一步提高,作為學(xué)校也好,作為工業(yè)企業(yè)也好,提高您在市場上的競爭力,學(xué)校有什么競爭力呢,學(xué)校當(dāng)然有了,如果有更大的高性能集群計(jì)算規(guī)模的話,在整個(gè)教育部的排行里面排得更先,得到國家的支持更多,同樣在美國也是這樣的,所以這個(gè)也是非常重要的。整個(gè)來說的話,我們12代服務(wù)器,我們的核比11代多了30%的核,而且每秒執(zhí)行的浮點(diǎn)運(yùn)算提高了兩倍。
Dell是全面的解決方案,所以我們有一個(gè)強(qiáng)有力的聯(lián)盟。還有一個(gè)全面的服務(wù),還有一個(gè)我們針對250個(gè)結(jié)點(diǎn)以下整合的解決方案,還有一個(gè)是智能化的基礎(chǔ)伏安的實(shí)施,這些都是Dell針對整個(gè)高性能計(jì)算的解決方案。
大家可以看一下,這張圖分成三個(gè)集團(tuán),首先是計(jì)算集團(tuán),CPU這塊,業(yè)界主要的這些CPU廠商,以及GPU的廠商都有密切的合作,有Intel,有AMD都有合作,在操作系統(tǒng)跟微軟這邊也都有一些合作。存儲,從網(wǎng)絡(luò)文件存儲到高性能存儲,還有歸檔解決方案都有合作。所以是一個(gè)非常全面的解決方案。
這也得益于咱們客戶對Dell的支持,在這里我再次感謝咱們在座的客戶對戴爾服務(wù)器的支持,特別是高性能計(jì)算Dell成長非???,從去年開始加速的成長。大家可以看出來,在去年四個(gè)季度,根據(jù)IDC的報(bào)告,Dell連續(xù)三個(gè)季度是市場占有率第一,我們從第二季度開始,二、三、四季度都是市場占有率第一。所以我們通過服務(wù)大量的客戶,從而積累了豐富的經(jīng)驗(yàn),這些就是整個(gè)戴爾服務(wù)器簡單的介紹。
接下來我會再談?wù)?2代服務(wù)器有哪些亮點(diǎn),一個(gè)亮點(diǎn)就是功能強(qiáng)大,另外一個(gè)是業(yè)務(wù)持續(xù),還有一個(gè)是效率提高,跟咱們前面客戶追求那三個(gè)亮點(diǎn)是相吻合的。功能強(qiáng)大這塊,一個(gè)是在CPU和GPU的運(yùn)算上面,還有在I/O這方面,還有現(xiàn)在我們在服務(wù)器里面提供了內(nèi)置的服務(wù)硬盤,能夠滿足客戶對追求得到更快的效果的這么一個(gè)目標(biāo)。還有是一效率的提高,一個(gè)是從管理方面下功夫,我們推出了遠(yuǎn)程管理卡,有兩大特點(diǎn),一個(gè)特點(diǎn)是免代理程序服務(wù)器管理,隨時(shí)隨地開展管理,可以在你開機(jī)以后,操作啟動之前自動發(fā)現(xiàn)更新部件,幫助你去更新,這個(gè)東西我們是在業(yè)界首先推出的,還有就是更好的電力監(jiān)控控制,能耗成本是非常重要的因素,我們現(xiàn)在跟Intel這邊的結(jié)點(diǎn)管理器合作我們有一個(gè)OPEN電源管理中心,不但可以管理服務(wù)器層級,還可以管理機(jī)架層級的,甚至整個(gè)數(shù)據(jù)中心的電源管理都可以實(shí)現(xiàn),在網(wǎng)絡(luò)這塊也有非常多的進(jìn)步。
我們再談一下CPU這塊有什么進(jìn)步,Intel也跟大家分享了,在同樣功耗級別上,跟前一代比較,整個(gè)性能提高了80%,特別是高性能計(jì)算,在這塊提高得更快。還有一些Intel的技術(shù),剛才陳江已經(jīng)介紹得非常詳細(xì),我就不一一再講了。從CPU這塊是的確有非常大的提高。
另外,我們現(xiàn)在把GPU整合在我們的機(jī)架式服務(wù)器里面,在我們的幾款產(chǎn)品里面提供了內(nèi)置式的GPU,現(xiàn)在可以真正實(shí)現(xiàn)GPU和CPU的混合運(yùn)算?,F(xiàn)在目前我所知道惠普有相類似的技術(shù),但是惠普提供GPU的功率是不如Dell的,因?yàn)镈ell提供的更強(qiáng),Dell是300W,惠普是150W左右,Dell非??粗乜蛻舻男枨螅瑢σ恍┎⑿羞\(yùn)算,整個(gè)GPU加CPU混合運(yùn)算速度可以增加8倍左右,對追求更快速度的企業(yè)是非常有吸引力的。
還有就是高性能計(jì)算是非常吃內(nèi)存的運(yùn)算,我們更看重內(nèi)存的頻率和擴(kuò)展率,頻率已經(jīng)可以達(dá)到160兆,擴(kuò)展率這塊,整個(gè)12代服務(wù)器,我們主流服務(wù)器現(xiàn)在已經(jīng)可以擴(kuò)展到24個(gè)內(nèi)存插槽,最多可以768GB的內(nèi)存,擴(kuò)展能力非常強(qiáng)。在刀片式服務(wù)器,由于它的空間非常小,大家如果有空可以到外面看一看,我們有刀片式服務(wù)器的展示。我們的M620可以擴(kuò)展到24個(gè)內(nèi)存插槽,這是非常難做到的,現(xiàn)在目前友商最多擴(kuò)展到18個(gè)或者16個(gè),這塊內(nèi)存擴(kuò)展能力是非常強(qiáng)的。
還有固態(tài)硬盤,PCIE的固態(tài)硬盤,對于追求高數(shù)據(jù)的轉(zhuǎn)換率,高的吞吐量這些客戶比較有吸引力,以前傳統(tǒng)的PCIE的卡是插在后面的,現(xiàn)在我們已經(jīng)做到可以把它放在前面,就是跟普通的2.5寸一樣,但是他有一根線連到后面的PCIE,直接跟CPU是相通的。16塊傳統(tǒng)的硬盤還不如現(xiàn)在一塊PCIE硬盤的十分之一,整個(gè)速度提高非???。
還有一個(gè)就是免代理的監(jiān)控,不管用不同的操作系統(tǒng),甚至在操作系統(tǒng)沒有啟動之前,都可以進(jìn)行監(jiān)控和管理。還可以進(jìn)行自動更新,像主板的更換,像網(wǎng)卡,網(wǎng)絡(luò)識別器,這些如果更新可以自動發(fā)現(xiàn)幫你更新這些物件和驅(qū)動程序。
我們提到從服務(wù)器到機(jī)架,到行列,和整個(gè)機(jī)房進(jìn)行電源的控制。說到節(jié)能我再提一個(gè),現(xiàn)在我們12代服務(wù)器,全部主流服務(wù)器已經(jīng)是白金級的電源轉(zhuǎn)化效率,甚至我們現(xiàn)在已經(jīng)有推出鈦金級的了,從能耗這塊也是大大的提高了電源的利用率。
還有更多的網(wǎng)絡(luò)選擇,現(xiàn)在我們在主流的12代服務(wù)器,比如R7.0上面,我們提供了精選網(wǎng)絡(luò)適配器的產(chǎn)品,取代了傳統(tǒng)的網(wǎng)卡,客戶有更多的選擇,不同的網(wǎng)速可以選擇千兆可以選擇萬兆的網(wǎng)速,可以宣傳不同的協(xié)議,給客戶更多的自由選擇的權(quán)利。
分區(qū)存儲,大家有沒有聽過Cachecode這個(gè)技術(shù),把熱點(diǎn)數(shù)據(jù)到固態(tài)硬盤里面,一般的數(shù)據(jù)存到普通的硬盤里面,這樣的話,實(shí)現(xiàn)你的速度和成本有效平衡,這樣一方面提高你的速度,一方面節(jié)省你的添置硬盤的成本。
還有就是保持動態(tài)數(shù)據(jù),我們整個(gè)緩存已經(jīng)可以達(dá)到1G,而且性能比前一代提高兩倍。
管理從四個(gè)層面,從部署一直到變更更新,一直到監(jiān)控,一直到維護(hù)正常運(yùn)行,整個(gè)都有提高,特別是在這塊,不依賴代理監(jiān)控這塊,這塊我們可以實(shí)現(xiàn)不依賴操作系統(tǒng)的監(jiān)控,不會浪費(fèi)CPU的周期,還有一點(diǎn)就是變更,可以自動發(fā)現(xiàn)你的這些組件進(jìn)行變更,還有是部署這塊。
整個(gè)產(chǎn)品線,紅色這部分是我們更新的12代服務(wù)器主要的產(chǎn)品,我們最大的是在機(jī)架式服務(wù)器這塊,在刀片式服務(wù)器,我們整個(gè)從4/1高的刀片,一直到半高的刀片,一直到全高的刀片全部都有,而且刀片這邊我們實(shí)現(xiàn)了新的冷卻技術(shù),在90%的濕度,45度的環(huán)境下,每年還可以運(yùn)行90個(gè)小時(shí)左右,在40度環(huán)境可以運(yùn)行到900個(gè)小時(shí),所以有斷電可以延長數(shù)據(jù)中心在沒有空調(diào)環(huán)境下工作的時(shí)間。
M620有一個(gè)最大的特點(diǎn),它的內(nèi)存擴(kuò)展是大大的加強(qiáng)了,現(xiàn)在咱們M620可以支持24個(gè)內(nèi)存,最多支持768GB的內(nèi)存,他支持PCIE的硬盤。
我們在5月底的時(shí)候,我們又推出了新一撥的刀片服務(wù)器,M420,這是業(yè)界首先推出的4/1高的刀片服務(wù)器,核數(shù)可以達(dá)到512個(gè),是非常強(qiáng)大的計(jì)算能力,大家追求密度的話可以考慮這個(gè),如果要是追求價(jià)格和性能的平衡可以考慮我們M520,內(nèi)存擴(kuò)展可以到12個(gè)內(nèi)存槽位。
整個(gè)覆蓋HPC的工作負(fù)載,從頭結(jié)點(diǎn)到計(jì)算節(jié)點(diǎn)我們產(chǎn)品線非常全了,如果追求更高內(nèi)存帶寬,可以選擇Intel的R820,還有一款是刀片服務(wù)器,M820,再加上C6145,還有GPU的計(jì)算,有410。
整個(gè)來說,從HPC的客戶所追求的幾個(gè)點(diǎn),像可用性,高性能,高網(wǎng)絡(luò)性能,高可用性,還有整體用戶成本這塊,更加節(jié)能。
同樣我們也得到了非常多的客戶贊譽(yù),這邊列的是國外客戶,比如像美國的猶他大學(xué),R620怎么樣幫助里昂高等師范學(xué)院,提高它的高性能計(jì)算技術(shù)。還有很多媒體也是提出了贊揚(yáng)。
國內(nèi)也是一樣,新浪、清華大學(xué)、首都在線,都對新一代12代服務(wù)器有所贊譽(yù)。
總共來講,我們12代服務(wù)器幫助大家更好的提高工作效率,有效的減少成本,同時(shí)提供更強(qiáng)大的計(jì)算平臺,幫助大家完成更復(fù)雜的工作負(fù)載。憑借虛擬化提高利用率,這三點(diǎn)是我們12代服務(wù)器的特點(diǎn)。
非常感謝大家!