SC20浪潮發(fā)布新一代ClusterEngine，支持HPC+AI多負(fù)載業(yè)務(wù)

浪潮

2020-11-20 16:49 5518

11月19日，在2020全球超算大會（SC20）上，浪潮發(fā)布新一代HPC集群管理平臺ClusterEngineV5。

北京2020年11月20日 /美通社/ -- 11月19日，在2020全球超算大會（SC20）上，浪潮發(fā)布新一代HPC集群管理平臺ClusterEngineV5，支持超算中心HPC及AI計算負(fù)載，提供涵蓋硬件運維、業(yè)務(wù)管理和應(yīng)用性能分析的全棧式高效管理，幫助系統(tǒng)管理者輕松管理上萬節(jié)點，大幅提升HPC集群的資源利用率和應(yīng)用計算效率，滿足面向未來的新型超算中心的創(chuàng)新業(yè)務(wù)增長需求。

近年來TOP500超算榜單中，近30%系統(tǒng)擁有加速卡/協(xié)處理器，也就是說，越來越多的超算系統(tǒng)配有大量低精度算術(shù)邏輯單元，用來支撐人工智能計算能力需求?？梢灶A(yù)見的是，未來超算中心將承擔(dān)更多的AI計算負(fù)載，這給超算中心的運維管理帶來了更大的挑戰(zhàn)。傳統(tǒng)HPC集群管理軟件通常是面向HPC負(fù)載設(shè)計的，往往只能管理單一的硬件或業(yè)務(wù)，而且監(jiān)控數(shù)據(jù)不能打通。為了幫助超算中心更高效、更方便地管理HPC和AI負(fù)載，浪潮推出了新一代HPC集群管理平臺ClusterEngineV5，包含硬件運維、業(yè)務(wù)管理、應(yīng)用性能分析三大模塊。

ClusterEngineV5的智能化硬件運維平臺

面對底層硬件，ClusterEngineV5提供一體化硬件運維監(jiān)控平臺，實現(xiàn)服務(wù)器、存儲、網(wǎng)絡(luò)設(shè)備的全生命周期自動化運維，有效地幫助用戶提高運維效率、降低運維成本。平臺可實現(xiàn)7*24小時大規(guī)模硬件監(jiān)控管理，快速識別200+類問題，內(nèi)置30000+專家級大數(shù)據(jù)規(guī)則庫，快速診斷故障根因并提供解決方案。同時可以自動監(jiān)測數(shù)據(jù)中心功耗，進行智能分析、遠(yuǎn)程控制、功耗管理，幫助用戶節(jié)省30%以上的功耗。

ClusterEngineV5的HPC業(yè)務(wù)管理平臺

面對核心業(yè)務(wù)，ClusterEngineV5為上萬節(jié)點HPC集群提供穩(wěn)定、高效、易用的HPC業(yè)務(wù)管理平臺?？蓪崿F(xiàn)HPC和AI應(yīng)用的統(tǒng)一管理，作業(yè)提交流程極簡化。并能根據(jù)用戶業(yè)務(wù)需求實現(xiàn)靈活的作業(yè)調(diào)度和管理策略，保證資源充分利用。同時支持容器化，用戶可快速部署應(yīng)用，在多節(jié)點并行計算時，保證各節(jié)點系統(tǒng)環(huán)境一致，并且可通過容器快速部署開發(fā)環(huán)境，提升開發(fā)工作效率。

ClusterEngineV5的HPC應(yīng)用性能分析工具

并且，ClusterEngineV5提供獨有的HPC應(yīng)用性能分析工具，幫助用戶診斷應(yīng)用瓶頸，提升HPC應(yīng)用優(yōu)化效率及質(zhì)量。該工具可對異構(gòu)集群進行全方位性能分析，針對AI計算提供函數(shù)級應(yīng)用性能分析，及時定位性能異常，幫助用戶深入分析和發(fā)現(xiàn)計算性能優(yōu)化空間?；谠摴ぞ叩姆治鼋Y(jié)果，用戶可結(jié)合自身平臺的資源使用情況及設(shè)備特征，提升應(yīng)用計算效率及資源利用率。

浪潮ClusterEngineV5打通了硬件監(jiān)控、業(yè)務(wù)管理和應(yīng)用性能分析，提供了一套面向HPC與AI應(yīng)用場景的全棧式超算中心管理解決方案，涵蓋全生命周期集群硬件智能運維、全方位集群監(jiān)控、應(yīng)用性能監(jiān)控、異構(gòu)集群算力調(diào)度分析和調(diào)優(yōu)等，幫助管理人員高效管理HPC和AI負(fù)載，降低集群部署和管理門檻，提高資源利用率和計算效率，實現(xiàn)降本增效，推動面向未來的超算中心業(yè)務(wù)創(chuàng)新。

消息來源：浪潮