北京2021年11月17日 /美通社/ -- 隨著信息技術(shù)的飛速發(fā)展,高性能計(jì)算已成為繼理論和實(shí)驗(yàn)之后開展科學(xué)研究的第三大支柱,中國高校信息化進(jìn)程走過二十余載,從最初的校園信息化建設(shè)到如今的智慧校園,數(shù)字化轉(zhuǎn)型下的高校教學(xué)、科研、管理和服務(wù)對算力的需求也在不斷攀升。
中南大學(xué)是教育部直屬全國重點(diǎn)大學(xué)、國家“211工程”首批重點(diǎn)建設(shè)高校、國家“985工程”部省重點(diǎn)共建高水平大學(xué)和國家“2011計(jì)劃”首批牽頭高校,2017年9月入選世界一流大學(xué)A類建設(shè)高校。中南大學(xué)智算平臺作為一個硬件先進(jìn)、功能齊全、資源豐富,面向全校師生提供高性能計(jì)算服務(wù)的開放性公共服務(wù)基礎(chǔ)設(shè)施,一方面為學(xué)校的基礎(chǔ)研究、前沿科學(xué)技術(shù)研究,促進(jìn)科學(xué)探索和重大發(fā)現(xiàn)提供算力支撐,另一方面為促進(jìn)學(xué)校的“雙一流”建設(shè)以及學(xué)校改革發(fā)展的“四個轉(zhuǎn)型”夯實(shí)基礎(chǔ),以期在基礎(chǔ)研究和科技前沿領(lǐng)域有所突破,從而進(jìn)一步提升學(xué)校整體科研水平。中南大學(xué)智算平臺目前擁有高達(dá)上千臺各種類型的計(jì)算服務(wù)器,一方面滿足了科研人員大量的計(jì)算資源需求,另一方面大量集中部署的計(jì)算服務(wù)器集群對管理和運(yùn)維人員提出了新的挑戰(zhàn)。
傳統(tǒng)運(yùn)維盲人摸象,成本高企
中南大學(xué)智算平臺的硬件資源十分豐富,基于傳統(tǒng)運(yùn)維模式已無法對計(jì)算服務(wù)器集群的算力進(jìn)行管理、調(diào)度和科學(xué)合理分配計(jì)算資源,算力應(yīng)用處于黑箱模式,類似于盲人摸象,不清楚、不清晰,無法實(shí)現(xiàn)對計(jì)算集群快速而精準(zhǔn)的有效運(yùn)維,也造成了運(yùn)維人力資源的沉重負(fù)擔(dān)。隨著高性能計(jì)算服務(wù)器集群規(guī)模越來越大,運(yùn)維人員的工作量與日劇增,大量重復(fù)冗余的枯燥工作難免掛一漏萬。由于運(yùn)維人員缺乏自動化的運(yùn)維管理工具,借助經(jīng)驗(yàn)診斷故障,極易造成故障的漏判、誤判。因此,中南大學(xué)智算平臺迫切需要一個統(tǒng)一集中的自動化智能運(yùn)維管理平臺,將監(jiān)控與運(yùn)維進(jìn)行有效整合,實(shí)現(xiàn)平臺的自動化智能管理和運(yùn)維。
另外,計(jì)算服務(wù)器、計(jì)算網(wǎng)絡(luò)、存儲系統(tǒng)等設(shè)施在不斷消耗大量電力,UPS、新風(fēng)空調(diào)系統(tǒng)等機(jī)房設(shè)施也需要能源開銷,這些都導(dǎo)致智算平臺的運(yùn)行成本高企,計(jì)算服務(wù)器數(shù)量越多,運(yùn)行維護(hù)成本就越高,如何對平臺進(jìn)行精細(xì)化的能耗管理、實(shí)時(shí)獲取計(jì)算服務(wù)器和機(jī)房的能耗信息,從而進(jìn)行計(jì)算資源的科學(xué)管理和調(diào)度,也是目前業(yè)界亟待解決的重要問題。
精確納管,運(yùn)維效率大幅提升
針對傳統(tǒng)人力運(yùn)維管理面臨的窘境,浪潮信息提出了以ISPIM (Inspur Physical Infrastructure Manager) 浪潮信息物理基礎(chǔ)設(shè)施管理平臺為核心的自動化運(yùn)維解決方案。ISPIM平臺是浪潮信息根據(jù)市場需求,遵循NFV標(biāo)準(zhǔn),自主研發(fā)的一款高可用、高性能、高可擴(kuò)展、高可維護(hù)的行業(yè)數(shù)據(jù)中心物理基礎(chǔ)設(shè)施管理平臺。該平臺具備資源管理、故障監(jiān)控、性能監(jiān)控、能耗管理、報(bào)表統(tǒng)計(jì)、拓?fù)湔故?、服?wù)器故障診斷、自動報(bào)修、固件升級/配置、OS部署等功能,可保障數(shù)據(jù)中心安全、可靠、穩(wěn)定的運(yùn)行。
通過實(shí)地考察、調(diào)研并與中南大學(xué)HPC平臺管理和技術(shù)人員進(jìn)行多次反復(fù)的交流、溝通和分析、研究,浪潮信息研發(fā)工程師最終決定以“1+1+N高可用模式”,在5臺服務(wù)器上部署ISPIM系統(tǒng),主動采集頻率為45min,監(jiān)控指標(biāo)可達(dá)150W+,覆蓋智算平臺內(nèi)的所有設(shè)備。ISPIM系統(tǒng)高可用模式部署的示意圖如下。
通過ISPIM提供標(biāo)準(zhǔn)的北向接口與CE(Cluster Engine)高性能平臺對接,可獲取到集群計(jì)算節(jié)點(diǎn)中CPU、GPU、內(nèi)存、網(wǎng)絡(luò)、負(fù)載等性能信息及計(jì)算節(jié)點(diǎn)狀態(tài),實(shí)現(xiàn)算力的統(tǒng)一分配、調(diào)度、管理,配合內(nèi)置的浪潮信息管理驅(qū)動軟件Teye,可實(shí)現(xiàn)對設(shè)備帶內(nèi)性能指標(biāo)的秒級實(shí)時(shí)采集及歷史信息匯聚。此外,ISPIM平臺還具備全網(wǎng)設(shè)備硬件狀態(tài)監(jiān)控、性能指標(biāo)實(shí)時(shí)監(jiān)控的能力,基于浪潮信息故障專家?guī)?,?lián)通浪潮信息360度專家服務(wù),實(shí)現(xiàn)了浪潮信息服務(wù)器智能故障診斷、故障根源定位、專家維修建議、設(shè)備自動報(bào)修等一系列自動運(yùn)維功能,幫助運(yùn)維人員實(shí)時(shí)掌控設(shè)備狀態(tài),提高運(yùn)維效率,縮短維修周期,同時(shí)極大程度上避免故障誤判,能夠?qū)收线M(jìn)行及時(shí)且有針對性的處理。
自動化智能運(yùn)維,魅力四射
浪潮信息ISPIM系統(tǒng)基于AI算法,對采集到的所有設(shè)備的能耗、溫度、氣流、CUPS以及機(jī)房環(huán)境數(shù)據(jù)進(jìn)行實(shí)時(shí)智能分析,推送能耗管理與優(yōu)化建議,通過可視化拓?fù)涑尸F(xiàn),3D建模展示數(shù)據(jù)中心內(nèi)機(jī)柜位置、位置、功耗、溫度狀態(tài)信息,實(shí)現(xiàn)對整個數(shù)據(jù)中心的細(xì)粒度管理。
一方面通過部署浪潮信息ISPIM系統(tǒng),中南大學(xué)智算平臺實(shí)現(xiàn)了集中自動化管理,大大減輕了運(yùn)維負(fù)擔(dān),通過對算力數(shù)據(jù)的精準(zhǔn)獲取、調(diào)度,使得算力的管控集中化、智能化,另一方面通過對平臺的監(jiān)測,實(shí)現(xiàn)能耗可查、可管、可控。運(yùn)維人員通過ISPIM平臺可隨時(shí)隨地監(jiān)控整個平臺的運(yùn)行狀態(tài),故障報(bào)警能夠以秒級的速度精準(zhǔn)定位,保障中南大學(xué)的智算平臺高效有序運(yùn)轉(zhuǎn),節(jié)約了人力資源,運(yùn)維效率大幅提升。
隨著整個社會數(shù)字化轉(zhuǎn)型進(jìn)程的加快,大型企業(yè)或組織對大規(guī)模計(jì)算服務(wù)集群的需求與日俱增,數(shù)據(jù)中心事實(shí)上已經(jīng)成為組織的核心生產(chǎn)力和重要資產(chǎn)。浪潮信息ISPIM平臺可同時(shí)實(shí)現(xiàn)對數(shù)萬臺不同品牌服務(wù)器、存儲、網(wǎng)絡(luò)設(shè)備等設(shè)施的統(tǒng)一監(jiān)控、運(yùn)維和告警管理,保障客戶大規(guī)模數(shù)據(jù)中心安全、穩(wěn)定、可靠運(yùn)行。用戶普遍反饋,浪潮信息ISPIM平臺在推進(jìn)新基建、領(lǐng)跑數(shù)字化轉(zhuǎn)型方面魅力四射,極具推廣價(jià)值。