北京2022年12月13日 /美通社/ -- 隨著5G、人工智能、云計算、大數(shù)據(jù)等新興技術的飛速發(fā)展,數(shù)據(jù)正在經(jīng)歷爆炸式增長,對算力規(guī)模和算力能力的需求快速提升,數(shù)據(jù)中心向著規(guī)?;?、集約化、綠色化不斷進階,這對數(shù)據(jù)中心的建設、運維和管理都提出了更高的要求。
盡管許多企業(yè)對在數(shù)據(jù)中心的投資十分重視,但卻往往卻忽略了后期運營管理的成本,在提高計算力部署的同時,后期的運維和管理也相當重要。對此,憑借多年來在數(shù)據(jù)中心運維和管理經(jīng)驗,浪潮信息M6服務器采用了自主研發(fā)的服務器遠程管理系統(tǒng)ISBMC,可提供硬件狀態(tài)監(jiān)控、部署、節(jié)能、安全等系列管理工具,ISBMC已支持多種管理接口,這其中就包括IPMI 2.0、SNMPv3、Web GUI和基于RESTful架構的Redfish等接口,通過多種保障來強化服務器自身的管理能力,構建現(xiàn)代數(shù)據(jù)中心的可靠基礎,幫助用戶高效地管理算力平臺。
基于開放標準 模塊化、精細化管理
故事要從1988年講起,為了擺脫需要人工在數(shù)據(jù)中心現(xiàn)場運維服務器的困境,行業(yè)推出了IPMI作為行業(yè)標準,它指定了一組接口,以提供獨立于主機系統(tǒng)的CPU、固件和操作系統(tǒng)(OS)的帶外管理和監(jiān)視功能。然而,由于技術不斷發(fā)展優(yōu)化,有越來越多碎片化的需求,致使特定的解決方案不能滿足向外擴展的數(shù)據(jù)中心用戶的功能和安全需求,IPMI也在2015年后便不再更新。此后迎來了Redfish的新時代。
Redfish是由國際標準化組織DMTF(Distributed Management Task Force,分布式管理任務組)發(fā)布的開放式行業(yè)標準規(guī)范,旨在對平臺硬件進行現(xiàn)代化和安全的管理,由多個軟硬件廠商參與,在標準設立之初就設定了四項基本目標: 安全、高可擴展管理、可讀取界面、基于現(xiàn)有硬件可實現(xiàn)。目前,浪潮信息已成為DMTF Leadership 會員和Redfish Promoter 會員。Redfish標準的應用讓眾多互聯(lián)網(wǎng)、通信、金融客戶可以更加方便快捷的對超大規(guī)模的數(shù)據(jù)中心進行管理和運維。標準開放的接口,為客戶數(shù)據(jù)中心構建了一個開放的生態(tài),大幅度降低運維難度,但是基礎的功能實現(xiàn),并不是浪潮信息研發(fā)團隊的目標,“源于開源、高于開源”,讓生態(tài)有更強的活力,為客戶帶來更多價值,才是浪潮信息服務器研發(fā)團隊引入Redfish的“本心”。
據(jù)統(tǒng)計,企業(yè)IT設備的更新頻率一般是3-5年,那就意味著每臺服務器的生命周期要達到3年以上,可想而知,周而復始每天對服務器狀態(tài)進行不間斷監(jiān)控,定期對服務器出具安全性能檢測報告,特別對于超大規(guī)模數(shù)據(jù)中心而言,無疑是需要投入大量的人力和精力。所以,浪潮信息的工程師決定通過優(yōu)化產(chǎn)品設計,尋求突破。
想打造具有高可靠、高可維護性的服務器,以解決上述超大規(guī)模數(shù)據(jù)中心客戶的運維難題,就要用好Redfish的特性,通過覆蓋Public、AccountService、SessionService、Chassis、Systems、Managers、UpdateService、TaskService等功能模塊,定義不同接口的URL,讓服務器的管理實現(xiàn)模塊化和精細化。
依托自身技術優(yōu)勢,浪潮信息在M6系列服務器ISBMC固件上遵照Redfish 1.8.0規(guī)范和Redfish 2019.2 Schema進行開發(fā),ISBMC不僅在Redfish標準的節(jié)點資源有較高的覆蓋率,還結合浪潮服務器自身特性功能及客戶領先性訴求,進行功能開發(fā),如通信行業(yè)客戶對包括lldpService、電源設置、部件信息獲取與設置服務器在內(nèi)的上百個需求功能點,以及頭部科技行業(yè)客戶的通電開機策略、多個Redfish故障診斷需求等。
為了讓大多數(shù)企業(yè)也可以享受到先進技術帶來的便利,浪潮信息也將先進的功能融入到ISBMC通用版本,同時增加更多的系統(tǒng)監(jiān)控動作幫助客戶解決運維和管理難題,實現(xiàn)包括用戶管理、獲取服務器信息、管理模塊信息、配置服務器、修改BIOS、升級固件等功能,可提供硬件狀態(tài)監(jiān)控、部署、節(jié)能、安全等系列管理工具,以標準化接口構建更加完善的服務器管理生態(tài)系統(tǒng),確保服務器底層硬件和固件的安全。浪潮信息同時開創(chuàng)了特有的異步多線程Redfish架構,實現(xiàn)了Redfish的高度模塊化,可快速地實現(xiàn)跨多平臺移植,并在響應時間、并發(fā)數(shù)等接口性能參數(shù)上相比上代產(chǎn)品有30%以上的提升,API平均響應小于100ms。
打開上帝視角 讓運維更簡單
攻克了單一產(chǎn)品的難題后,浪潮信息工程師也在從數(shù)據(jù)中心的整體運維上進行思考,通過與大量的大型數(shù)據(jù)中心客戶交流發(fā)現(xiàn),數(shù)據(jù)中心的運維工作大量集中在問題爆發(fā)后解決的過程中,而在解決過程中對日志的排查、機器的檢測、系統(tǒng)的修復等工作需要不斷反復,這給運維人員的工作造成了極大的挑戰(zhàn),而且問題一旦發(fā)生必將對業(yè)務造成影響。如何解放運維人員的雙手,讓問題在沒有發(fā)生前就能有效解決,堅守現(xiàn)在,預見未來,讓運維人員打開上帝視角,是數(shù)據(jù)中心運維的終極目標。
所以除了產(chǎn)品本身,為了給客戶提供多維合一的自動管理方案,浪潮信息推出面向數(shù)據(jù)中心的集中管理軟件——浪潮信息物理基礎設施管理平臺(ISPIM),并采用了Redfish作為主要通信協(xié)議。ISPIM具備資源管理、故障監(jiān)控、性能監(jiān)控、能耗管理、自動部署、報表統(tǒng)計、網(wǎng)絡拓撲和3D視圖等功能,可同時對數(shù)萬臺不同品牌服務器、存儲、網(wǎng)絡等設備進行統(tǒng)一監(jiān)控、運維、告警管理,運維效率提升2倍,基于浪潮信息故障專家?guī)斓拇髷?shù)據(jù)規(guī)則故障診斷功能,可將故障診斷準確率提升到93%,并且可在快速處理故障的同時極大程度降低數(shù)據(jù)泄露風險,幫助用戶打造無人值守數(shù)據(jù)中心,提高運維效率并降低運維成本,保障數(shù)據(jù)中心安全、可靠、穩(wěn)定的運行。
最終,面向數(shù)據(jù)中心運維的各種痛點與難題,逐一被擊破,浪潮信息M6系列服務搭配ISPIM管理軟件,基于這一套產(chǎn)品組合可滿足企業(yè)從單一產(chǎn)品到超大數(shù)據(jù)中心的由“點”到“面”可管理運維的全鏈條優(yōu)化,保障數(shù)據(jù)中心高效運維,為業(yè)務提供高效穩(wěn)定的運行基礎。