omniture

中南大學(xué) 建設(shè)高校算力最強(qiáng)的智算平臺(tái)

2020-09-23 09:19 9740
2020年9月4日,浪潮集團(tuán)“智驅(qū)新時(shí)代-浪潮云數(shù)智中國(guó)行”長(zhǎng)沙站活動(dòng)現(xiàn)場(chǎng),中南大學(xué)信息與網(wǎng)絡(luò)中心代表以“智算中南”為主題,介紹了中南大學(xué)高性能計(jì)算公共服務(wù)平臺(tái)建設(shè)有關(guān)情況。

北京2020年9月22日 /美通社/ -- 2020年9月4日,浪潮集團(tuán)“智驅(qū)新時(shí)代-浪潮云數(shù)智中國(guó)行”長(zhǎng)沙站活動(dòng)現(xiàn)場(chǎng),中南大學(xué)信息與網(wǎng)絡(luò)中心代表以“智算中南”為主題,介紹了中南大學(xué)高性能計(jì)算公共服務(wù)平臺(tái)建設(shè)有關(guān)情況。中南大學(xué)與浪潮攜手打造的國(guó)內(nèi)首個(gè)高校智算平臺(tái)即將落成,不僅將有力地支持中南大學(xué)的學(xué)科建設(shè)和人才培養(yǎng),推動(dòng)高校高性能計(jì)算的發(fā)展,更是智慧時(shí)代開(kāi)展科學(xué)研究強(qiáng)有力的基礎(chǔ)設(shè)施,“智算中南”將著力推進(jìn)以算力為基礎(chǔ)、以算法為核心、以模擬和仿真為手段的科學(xué)研究數(shù)字生態(tài)體系建設(shè),賦能各行業(yè)的創(chuàng)新研究。

以下為演講現(xiàn)場(chǎng)實(shí)錄。

尊敬的各位領(lǐng)導(dǎo),各位來(lái)賓、IT屆的朋友們,上午好!今天非常高興,借浪潮公司巡展的機(jī)會(huì),分享中南大學(xué)高性能計(jì)算平臺(tái)建設(shè)的一點(diǎn)體會(huì)。我的匯報(bào)題目是“智算中南”,實(shí)際上是借“智算中南”建設(shè)案例,向大家匯報(bào)中南大學(xué)信息與網(wǎng)絡(luò)中心在高性能計(jì)算平臺(tái)建設(shè)方面的一些做法,以期拋磚引玉。

智算中南建設(shè)背景

首先,從國(guó)家高等教育的宏觀視角來(lái)觀察,那就是“雙一流”建設(shè)戰(zhàn)略的大背景。2017年9月21日,教育部、財(cái)政部、國(guó)家發(fā)改委聯(lián)合發(fā)布《關(guān)于公布世界一流大學(xué)和一流學(xué)科建設(shè)高校及建設(shè)學(xué)科名單的通知》,正式公布“雙一流”建設(shè)高校及建設(shè)學(xué)科名單?!半p一流”建設(shè)主要圍繞五個(gè)方面開(kāi)展,包括一流師資團(tuán)隊(duì)的建設(shè)、拔尖創(chuàng)新人才的培養(yǎng)、科學(xué)研究水平的提升、優(yōu)秀文化的傳承創(chuàng)新以及科研成果的轉(zhuǎn)化推進(jìn)?!半p一流”建設(shè)和人們熟知的“211工程”、“985工程”比較,有一點(diǎn)顯著的不同,“雙一流”建設(shè)引入了優(yōu)勝劣汰的動(dòng)態(tài)競(jìng)爭(zhēng)機(jī)制,這種動(dòng)態(tài)競(jìng)爭(zhēng)的制度安排,使得各個(gè)高校面臨新的機(jī)遇和挑戰(zhàn)。


其次,從學(xué)校當(dāng)前的需求來(lái)分析,中南大學(xué)是教育部直屬全國(guó)重點(diǎn)大學(xué)、國(guó)家“211工程”和“985工程”高校,是世界一流大學(xué)A類建設(shè)高校?!半p一流”建設(shè)的內(nèi)容就包括科學(xué)研究、人才培養(yǎng)和創(chuàng)新驅(qū)動(dòng),在“雙一流”建設(shè)的大背景下,學(xué)校的科學(xué)研究水平、科研成果產(chǎn)出以及拔尖創(chuàng)新人才培養(yǎng)需要更上一層樓。我們都知道,科學(xué)研究包括理論研究和實(shí)驗(yàn)研究?jī)蓚€(gè)基本范式,自從計(jì)算機(jī)出現(xiàn)以后,我們又多了一種從事科學(xué)研究的手段,那就是計(jì)算,通過(guò)高性能計(jì)算系統(tǒng)的模擬和仿真,來(lái)開(kāi)展科學(xué)研究。

《論語(yǔ)》中孔子說(shuō):“工欲善其事,必先利其器”。建設(shè)一個(gè)硬件先進(jìn)、功能齊全、資源豐富,面向全校師生提供高性能計(jì)算公共服務(wù)的開(kāi)放性基礎(chǔ)設(shè)施,不僅可以為學(xué)校的科學(xué)研究和工程計(jì)算提供優(yōu)質(zhì)的服務(wù),而且還是人才培養(yǎng)的重要基地,更是參與國(guó)內(nèi)外高性能計(jì)算領(lǐng)域?qū)W術(shù)交流、科研合作和創(chuàng)新的重要平臺(tái)。因此,建設(shè)智算平臺(tái)提供公共計(jì)算服務(wù)的緊迫性就顯得尤為突出,我們的理念是時(shí)不我待,只爭(zhēng)朝夕。

再者,從學(xué)校高性能計(jì)算應(yīng)用層面來(lái)剖析,智算平臺(tái)建設(shè)之前存在四個(gè)方面的問(wèn)題:


第一是小規(guī)模計(jì)算集群,學(xué)校各科研團(tuán)隊(duì)采購(gòu)小規(guī)模集群,存在使用效率低、資源有限、運(yùn)維困難、安全隱患大,缺乏高水平專業(yè)運(yùn)維和用戶服務(wù)技術(shù)人員,以及存在分散重復(fù)建設(shè)等問(wèn)題;第二是昂貴的社會(huì)計(jì)算資源,租用校外計(jì)算資源存在費(fèi)用高、數(shù)據(jù)傳輸困難,難以滿足個(gè)性化需求等問(wèn)題;第三是對(duì)計(jì)算資源的持續(xù)投入不足,學(xué)校2009年建設(shè)了校級(jí)高性能計(jì)算公共服務(wù)平臺(tái),盡管在2013年和2018年分別進(jìn)行過(guò)升級(jí)更新,但總體而言,缺乏持續(xù)的滾動(dòng)投入,導(dǎo)致計(jì)算能力嚴(yán)重不足,而且,早年建設(shè)的高性能計(jì)算設(shè)施即將面臨淘汰;第四是調(diào)研表明學(xué)校公共計(jì)算資源不足,通過(guò)統(tǒng)計(jì)學(xué)校二級(jí)學(xué)院自建計(jì)算集群存量、梳理資產(chǎn)部門(mén)計(jì)算設(shè)備采購(gòu)清單,以及調(diào)研用戶對(duì)高性能計(jì)算資源的需求,發(fā)現(xiàn)學(xué)校公共計(jì)算資源存在明顯的短板。

最后,調(diào)研國(guó)內(nèi)外高水平大學(xué)高性能計(jì)算平臺(tái)建設(shè)表明,近年來(lái)清華大學(xué)、中國(guó)科學(xué)技術(shù)大學(xué)、上海交通大學(xué)分別投入數(shù)千萬(wàn)資金開(kāi)展高性能計(jì)算平臺(tái)的建設(shè),滿足學(xué)??蒲袑?duì)算力的需求。從全球HPC TOP 500排行榜來(lái)觀察,國(guó)外高水平大學(xué)也不例外??傊?,國(guó)內(nèi)外高水平大學(xué)在高性能計(jì)算領(lǐng)域的投入日趨增大,建設(shè)規(guī)模早已進(jìn)入千萬(wàn)億次級(jí)別(P級(jí)別),國(guó)家層面,E級(jí)別超算已提上議事日程。

基于上述背景,針對(duì)“智算中南”解決方案,我們提出滿足用戶需求,考慮前瞻性,重點(diǎn)服務(wù)學(xué)?!半p一流”建設(shè)的三個(gè)建設(shè)原則,精心設(shè)計(jì)、用心打造“智算中南”高性能計(jì)算平臺(tái)。

智算平臺(tái)四大優(yōu)勢(shì)

2020年上半年,中南大學(xué)攜手浪潮開(kāi)始“智算中南”的建設(shè),智算平臺(tái)共有上千臺(tái)設(shè)備,采用浪潮成熟穩(wěn)定的高性能計(jì)算和人工智能服務(wù)器以及浪潮AI微模塊數(shù)據(jù)中心解決方案,合計(jì)42個(gè)高密度IT機(jī)柜,設(shè)備布局科學(xué)合理、密度高、功耗分布均勻且無(wú)熱點(diǎn)。單IT機(jī)柜設(shè)計(jì)功率達(dá)到19千瓦,機(jī)房面積195平米,以前幾乎無(wú)法想象在195平米的空間內(nèi),計(jì)算集群可以達(dá)到五千多萬(wàn)億次的超高算力。


中南大學(xué)智算平臺(tái)具有四大優(yōu)勢(shì):

首先是超強(qiáng)算力,智算平臺(tái)由1058個(gè)浪潮高密度HPC計(jì)算節(jié)點(diǎn)和AI服務(wù)器節(jié)點(diǎn)組成,采用英特爾高性能CPU和英偉達(dá)Tesla系列GPU,合計(jì)50896個(gè)計(jì)算核心,CPU理論計(jì)算能力為4856萬(wàn)億次,GPU理論計(jì)算能力為788萬(wàn)億次,整個(gè)計(jì)算集群聚合計(jì)算能力達(dá)到5644萬(wàn)億次,計(jì)算能力位于當(dāng)前國(guó)內(nèi)高校頂尖水平

第二是超強(qiáng)作業(yè)調(diào)度和管理能力,智算平臺(tái)采用浪潮自主研發(fā)的Cluster Engine集群作業(yè)調(diào)度管理軟件和AIStation人工智能資源平臺(tái),實(shí)現(xiàn)整個(gè)平臺(tái)計(jì)算資源的統(tǒng)一調(diào)度和管理,科學(xué)分配高性能計(jì)算和深度學(xué)習(xí)等計(jì)算資源。

第三是超高性能的并行存儲(chǔ)系統(tǒng),智算平臺(tái)采用國(guó)際領(lǐng)先的DDN商業(yè)版Lustre并行文件系統(tǒng)和統(tǒng)一集中式存儲(chǔ)架構(gòu),可用存儲(chǔ)容量超過(guò)2PB,最大持續(xù)讀寫(xiě)帶寬達(dá)到20GB/s。

第四是超大IB高速計(jì)算網(wǎng)絡(luò),智算平臺(tái)采用Mellanox公司最新的HDR InfiniBand交換機(jī),構(gòu)建高帶寬、低時(shí)延的計(jì)算網(wǎng)絡(luò),實(shí)現(xiàn)千余臺(tái)設(shè)備的100Gb完全無(wú)擁塞高速互聯(lián)。在成千上萬(wàn)的計(jì)算機(jī)組成超大規(guī)模計(jì)算集群中,節(jié)點(diǎn)或服務(wù)器之間的吞吐和速度極為重要,這也是“智算中南”解決方案選擇InfiniBand實(shí)現(xiàn)集群高速互聯(lián)的原因。


“智算中南”高性能計(jì)算平臺(tái)將于今年9月底建成,目前正在按計(jì)劃開(kāi)展系統(tǒng)加電測(cè)試、機(jī)房環(huán)境系統(tǒng)測(cè)試、網(wǎng)絡(luò)連通性測(cè)試、集群管理軟件測(cè)試、并行編譯環(huán)境測(cè)試、內(nèi)存帶寬測(cè)試、IB高速計(jì)算網(wǎng)絡(luò)測(cè)試、存儲(chǔ)系統(tǒng)測(cè)試、動(dòng)環(huán)監(jiān)控系統(tǒng)測(cè)試以及HP Linpack測(cè)試等。下一步將結(jié)合具體的專業(yè)領(lǐng)域應(yīng)用,與學(xué)校不同學(xué)科的專家、教授一道,開(kāi)展專業(yè)應(yīng)用軟件測(cè)試,預(yù)計(jì)10月份投入試運(yùn)行。我們相信,隨著平臺(tái)的投入使用,必將有力地推動(dòng)學(xué)??茖W(xué)研究水平的提升,進(jìn)一步促進(jìn)科研成果的產(chǎn)出和拔尖創(chuàng)新人才的培養(yǎng),為學(xué)校的“雙一流”建設(shè)做出貢獻(xiàn)。


結(jié)束語(yǔ)

各位來(lái)賓,科學(xué)技術(shù)是第一生產(chǎn)力,創(chuàng)新是引領(lǐng)發(fā)展的源泉,“智算中南”高性能計(jì)算平臺(tái)不僅僅定位于服務(wù)中南大學(xué)“雙一流”建設(shè),同時(shí),我們歡迎各高等院校、科研單位、大型企業(yè)的研發(fā)機(jī)構(gòu)和中南大學(xué)攜手,基于中南大學(xué)智算平臺(tái)強(qiáng)大的算力,在學(xué)術(shù)研究、科研創(chuàng)新、成果轉(zhuǎn)化、人才培養(yǎng)、產(chǎn)品開(kāi)發(fā)方面開(kāi)展全方位的緊密合作,引領(lǐng)創(chuàng)新潮流,探索未知世界!

消息來(lái)源:浪潮
China-PRNewsire-300-300.png
全球TMT
微信公眾號(hào)“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營(yíng)動(dòng)態(tài)、財(cái)報(bào)信息、企業(yè)并購(gòu)消息。掃描二維碼,立即訂閱!
collection