北京2022年1月29日 /美通社/ -- 中南大學是教育部直屬全國重點大學、國家“211工程”首批重點建設高校、國家“985工程”部省重點共建高水平大學和國家“2011計劃”首批牽頭高校,2017年9月入選世界一流大學A類建設高校。學?!半p一流”建設對算力的需求與日俱增,需要建設面向全校師生提供計算服務的開放性公共平臺,一方面為學校的基礎研究、前沿科學技術研究,以及促進科學探索和重大發(fā)現(xiàn)提供算力支撐,另一方面為促進學校的人才培養(yǎng)以及學校改革發(fā)展的“四個轉型”夯實基礎,以期在基礎研究和科技前沿領域有所突破,從而進一步提升學校整體科研水平。
強強聯(lián)手,打造高密度、低能耗5萬核智算平臺
中南大學與浪潮信息強強聯(lián)手,打造了高密度、低能耗、易管理的智算平臺,平臺共有上千臺設備,采用浪潮成熟穩(wěn)定的計算和人工智能服務器以及浪潮AI微模塊數(shù)據(jù)中心解決方案。在需要多數(shù)據(jù)計算的場景下,CPU會與內存進行頻繁通信,浪潮信息NF5180服務器作為管理節(jié)點、登錄節(jié)點以及計算節(jié)點,在1U緊湊空間內搭配兩顆處理器,12根16GB的DDR4內存,極大限度地融合了各部件的優(yōu)勢,顯著提高了內存帶寬,降低了內存延遲,從而為每個CPU提供了訪問本地內存資源的快速通道,相比傳統(tǒng)2U服務器極大提高了部署密度,節(jié)約數(shù)據(jù)中心空間一半以上。
高密度部署的計算集群,空間被極限壓縮,單位空間內堆疊更多的存儲和計算單元,高密度的計算和數(shù)據(jù)傳輸伴隨著設備的散熱問題,如何破解服務器的大功耗、解決散熱問題成為解決方案需要考慮的重要問題,這既是對產品質量的考驗,更是對浪潮信息技術團隊綜合能力的挑戰(zhàn)。浪潮NF5180導入無孔機箱,在機器堆疊場景下無需按照傳統(tǒng)機架部署的方式預留散熱空間,從而實現(xiàn)高密度部署需求;在通用計算場景下,單節(jié)點能耗將達到550W-800W,而在高強度高頻次計算的時候,單節(jié)點能耗達可到1000W-1300W,CPU幾乎滿載負荷,所以浪潮NF5180在機器內部結構設計上,采用更具性價比的高密極致EVAC散熱方案,消除散熱不均引起的性能瓶頸問題,優(yōu)化風扇轉速,實現(xiàn)相同環(huán)境風壓風流的情況下,散熱能力提高30%;對風扇進行調優(yōu)的同時導入蜂窩狀波導網,對風扇入風處風流做整流處理,提高了風扇進風口的流速并且減少了紊流的產生。浪潮信息工程師團隊通過在浪潮澎湃實驗室的大量仿真模擬實驗發(fā)現(xiàn),加大波導網厚度還可以進一步提高空氣壓力,產生平行穩(wěn)定且強勁的氣流,從而帶來更多的散熱收益,使得機械硬盤的RV性能提升10%,讓硬盤穩(wěn)定性更佳。
除了技術的創(chuàng)新,NF5180產品的穩(wěn)定性在中南大學智算平臺也得到了充分驗證,在試運行測試階段,模擬全部斷電的極端場景進行測試,斷電重啟后浪潮信息服務器設備全部點亮,沒有一臺出現(xiàn)故障,這完全得益于安全可靠的產品設計。浪潮NF5180從硬件、系統(tǒng)、固件等多個層面,多方位保障客戶的信息安全和資產安全。通過雙層電源防護設計,在PDU端及主板端增加保險裝置,防止功率過載時對主板及元器件造成損壞。同時NF5180還導入了AMT技術,開機即對內存進行更為細致的自檢,全面保障業(yè)務系統(tǒng)安全。在結構設計上,機箱選擇了更好的鋼結構材料,保障機箱不彎、不斷、不碎、不變形。為應對嚴苛環(huán)境如跌落、振動帶來的形變等安全隱患,浪潮研發(fā)工程師在最新服務器底板上設計了一條“拱橋”,在不影響出風散熱、機器運維的情況下對機箱結構進行優(yōu)化、加固,大幅提升結構強度,新的機箱通過了9級烈度抗震測試。
浪潮信息的服務器在出廠之前都要經過浪潮澎湃實驗室科學、全面、嚴苛的測試驗證,浪潮澎湃實驗室下轄氣候環(huán)境、機械環(huán)境、結構散熱、電磁兼容、系統(tǒng)驗證、精密測量、失效分析和數(shù)據(jù)中心共8大實驗室,包括40余項測試大類,共2000余項常規(guī)測試以及30余項極限測試。數(shù)字技術已全面應用于實驗室的各個測試流程,實現(xiàn)了服務器從設計、生產到出廠的全流程數(shù)字化、智能化品控測試管理。在過去近30年中,為浪潮信息從中國服務器市場第一躍升至全球第二提供了重要的品質保障。
自動化智能的精確納管,為運維減負
中南大學智算平臺架構先進、軟硬件完備、功能齊全,并可為用戶提供充沛的算力資源,滿足了學校科研人員大量的計算資源需求。但是,大量集中部署對管理和運維人員也提出了前所未有的挑戰(zhàn),傳統(tǒng)運維模式已難以實現(xiàn)對計算服務器集群算力的精細化管理、調度和科學合理分配計算資源,算力應用處于黑箱模式,類似于盲人摸象,不清楚、不清晰,無法實現(xiàn)對計算集群快速且精準的有效運維,也造成了運維人員的沉重負擔。面對如此窘境,浪潮信息采用ISPIM(Inspur Physical Infrastructure Manager)浪潮信息物理基礎設施管理平臺作為中南大學智算平臺的運維管理系統(tǒng),以“1+1+N高可用模式”,在5臺服務器上部署ISPIM系統(tǒng),主動采集頻率為45min,監(jiān)控指標可達150W+,覆蓋智算平臺內的所有設備。ISPIM系統(tǒng)高可用模式部署的示意圖如下。
通過ISPIM提供標準的北向接口與CE(Cluster Engine)計算平臺對接,可獲取到集群計算節(jié)點中CPU、GPU、內存、網絡、負載等信息及計算節(jié)點狀態(tài),實現(xiàn)算力的統(tǒng)一分配、調度、管理,配合內置的浪潮信息管理驅動軟件Teye,可實現(xiàn)對設備帶內性能指標的秒級實時采集及歷史信息匯聚。同時ISPIM會基于AI算法,對采集到的所有設備的能耗、溫度、氣流、CUPS以及機房環(huán)境數(shù)據(jù)進行實時智能分析,推送能耗管理與優(yōu)化建議,通過可視化拓撲呈現(xiàn),3D建模展示數(shù)據(jù)中心內機柜位置、功耗、溫度狀態(tài)信息,實現(xiàn)對整個數(shù)據(jù)中心的細粒度管理。
通過部署浪潮信息ISPIM系統(tǒng),中南大學智算平臺實現(xiàn)了集中自動化管理,大大減輕了運維負擔,另一方面,通過對算力數(shù)據(jù)的精準獲取、調度,使得算力的管控集中化、智能化,同時通過對平臺的監(jiān)測,實現(xiàn)能耗可查、可管、可控。運維人員通過ISPIM平臺可隨時隨地監(jiān)控整個平臺的運行狀態(tài),故障報警能夠以秒級的速度精準定位,保障中南大學智算平臺的高效有序運轉,節(jié)約了人力資源,運維效率大幅提升。
隨著整個社會數(shù)字化轉型進程的加快,科學技術成為第一生產力,算力作為核心動能,不斷為創(chuàng)新發(fā)展提供源動力,中南大學智算平臺將有效地促進中南大學科學研究水平的提升,進一步推動科研成果的不斷產出和拔尖創(chuàng)新人才的培養(yǎng),為學校的“雙一流”建設做出貢獻。浪潮信息攜手中南大學打造高校智算平臺,取得了很好的效果,實現(xiàn)了合作共贏,相互成就。