北京2023年9月22日 /美通社/ -- 隨著人工智能、云計算等技術(shù)的快速發(fā)展,算力需求爆發(fā),服務(wù)器設(shè)計呈現(xiàn)多元異構(gòu)特征,如何快速適配多種通用計算處理器、多種異構(gòu)加速器和各類部件,實現(xiàn)服務(wù)器高效、穩(wěn)定、可靠運行,對服務(wù)器管理的兼容性、精細(xì)度、定制化和快速迭代能力提出了一系列新的挑戰(zhàn),BMC作為服務(wù)器管理和監(jiān)控的核心部件,相關(guān)技術(shù)和發(fā)展趨勢備受關(guān)注。
近日,在ODCC峰會"數(shù)據(jù)中心管理的開放之路"的圓桌對話上,來自英特爾、三星和浪潮信息的技術(shù)專家,從多元算力時代下管理固件面臨的挑戰(zhàn)、OpenBMC社區(qū)的發(fā)展現(xiàn)狀、管理固件未來發(fā)展趨勢等方向,暢聊數(shù)據(jù)中心固件管理開放之路,深度探討OpenBMC為數(shù)據(jù)中心固件管理發(fā)展帶來的全新機遇與變革路徑。
數(shù)據(jù)中心規(guī)模化發(fā)展,點燃BMC管理固件開源開放
BMC是在服務(wù)器中嵌入的復(fù)雜而獨立SoC(System on Chip)系統(tǒng),硬件上由BMC處理器、內(nèi)存、Flash和外圍I/O組成,連接著服務(wù)器的處理器、存儲、傳感器等各類組件,軟件上基于Linux內(nèi)核構(gòu)建了嵌入式操作系統(tǒng)固件。BMC固件是服務(wù)器、整機柜到數(shù)據(jù)中心IT設(shè)備管理的關(guān)鍵核心, BMC不僅可以通過遠(yuǎn)程控制、故障診斷、配置部署、固件升級等各類運維管理功能,保障服務(wù)器安全可靠運行,也可以為整機柜、數(shù)據(jù)中心管理平臺提供Redfish、IPMI、SNMP等API接口,實現(xiàn)海量服務(wù)器遠(yuǎn)程集中運維管理和批量部署,是數(shù)據(jù)中心高效管理的核心組件。
英特爾云計算系統(tǒng)架構(gòu)師劉凌云在回顧BMC的演進(jìn)過程中表示,BMC固件以往依賴IBV(Independent BMC Vendor,獨立BMC固件提供商)設(shè)計的閉源商業(yè)方案。但隨著超大規(guī)?;ヂ?lián)網(wǎng)應(yīng)用場景的增多,傳統(tǒng)BMC開發(fā)周期長、線上故障響應(yīng)不及時、安全需求及功能固化等問題日益突出。2014年,Meta(Facebook)面對傳統(tǒng)BMC開發(fā)周期長、問題處理響應(yīng)慢、黑盒代碼不安全等問題,設(shè)計并開源了其管理固件解決方案,2015年Meta、谷歌、IBM、英特爾、微軟共同發(fā)起成立OpenBMC社區(qū),點燃了管理固件開源開放的星星之火。
對此,浪潮信息服務(wù)器固件研發(fā)經(jīng)理王興隆補充道:"服務(wù)器管理固件的產(chǎn)業(yè)生態(tài)是在數(shù)據(jù)中心規(guī)模不斷擴大的背景下逐漸成熟,而傳統(tǒng)BMC開發(fā)模式封閉、代碼閉源、架構(gòu)陳舊,已無法滿足大規(guī)模數(shù)據(jù)中心更加精細(xì)化、深層次的管理需求,OpenBMC應(yīng)運而生,OpenBMC通過先進(jìn)的軟件架構(gòu)讓各功能模塊深度解耦,甚至能夠按需加載功能模塊,提升了代碼的可移植性,顯著縮短了固件開發(fā)周期;開源開放讓上下游廠商能夠共同參與貢獻(xiàn),促進(jìn)了產(chǎn)業(yè)合作與發(fā)展。隨著2018年OpenBMC被Linux基金會接納,行業(yè)對其認(rèn)可程度逐年提升。"
同時,借助OpenBMC,服務(wù)器、部件等領(lǐng)域的固件創(chuàng)新也在加強,三星電子西安電子研究所資深高級工程師李寧分享了三星和浪潮信息合作的SSD帶外管理創(chuàng)新項目。三星通過優(yōu)化SSD內(nèi)部架構(gòu),設(shè)計獨立的帶外管理控制器監(jiān)控SSD的主控部件,將SSD的管理和主控分離,管理控制器獨立供電,不僅帶來更強大的帶外管理能力,控制邏輯也更加可靠。同時浪潮信息基于OpenBMC實現(xiàn)BMC與SSD的帶外管理信息交互,實現(xiàn)了資產(chǎn)信息獲取、SSD健康狀態(tài)監(jiān)控、運行日志抓取、主動告警等功能特性,相比傳統(tǒng)BMC,明顯提升協(xié)同開發(fā)調(diào)試效率,縮短了開發(fā)周期,加快了產(chǎn)品落地進(jìn)度。
智算崛起 數(shù)據(jù)中心管理固件開放成為剛需
如果說數(shù)據(jù)中心的規(guī)?;l(fā)展點燃了BMC固件管理開源開放的"星星之火",那么數(shù)據(jù)中心算力的多元化將讓開放的BMC管理固件形成"燎原之勢"。劉凌云指出,通用服務(wù)器BMC需管理的硬件主要有CPU、存儲、網(wǎng)絡(luò)、散熱風(fēng)扇等,但在AIGC平臺上,BMC需要管理的硬件不但數(shù)量多,類型也百花齊放,從之前的單一的GPU卡到現(xiàn)在新興的GPGPU卡、AI加速卡、FPGA卡等各種異構(gòu)加速器,以及其他的通用計算平臺。面對眾多的芯片,需要定義更加開放的BMC管理接口標(biāo)準(zhǔn),以實現(xiàn)數(shù)據(jù)中心高效管理。
王興隆進(jìn)一步解釋說:傳統(tǒng)BMC固件架構(gòu)落后,可擴展性差,無法快速適配兼容不同的處理器、加速器。開放的OpenBMC固件基于分層解耦的軟件架構(gòu),功能模塊之間通過一致的系統(tǒng)總線接口協(xié)議進(jìn)行交互,擴展性高,能夠?qū)崿F(xiàn)靈活的模塊化開發(fā),同一套OpenBMC固件代碼能夠同時兼容多種處理器平臺、多種異構(gòu)加速器等關(guān)鍵部件,對于新增部件能夠快速適配兼容,大幅縮短迭代周期,提升開發(fā)效率。
除了多元算力對BMC固件擴展性、定制化的需求,劉凌云還表示,高算力帶來的高功耗也在推動數(shù)據(jù)中心散熱體系變革,風(fēng)冷式、冷板式、浸沒式液冷方案持續(xù)并存,這些都需要BMC的統(tǒng)一管理調(diào)度。面對超大型互聯(lián)網(wǎng)、人工智能等應(yīng)用場景,新興服務(wù)器硬件種類繁多、快速迭代,OpenBMC已經(jīng)不是錦上添花,而是"非你莫屬"了。
王興隆指出,在異構(gòu)多元算力需求不斷提升的背景下,算力縱向擴展瓶頸越來越明顯,橫向擴展成為趨勢,為提升算力資源協(xié)同利用率,浪潮信息設(shè)計實現(xiàn)融合架構(gòu)3.0原型系統(tǒng),將通用計算、異構(gòu)加速計算、內(nèi)存、存儲、I/O等資源池化,實現(xiàn)硬件解耦,同時面向不同應(yīng)用場景需要通過軟件定義進(jìn)行硬件資源重構(gòu),形成適用于不同應(yīng)用負(fù)載的服務(wù)器系統(tǒng),而OpenBMC為軟硬件協(xié)同承擔(dān)了更多軟件定義的角色。
傳統(tǒng)BMC or OpenBMC,企業(yè)何去何從
OpenBMC勢不可擋,但是否意味著傳統(tǒng)BMC走向末路了呢?對此,劉凌云認(rèn)為傳統(tǒng)的BMC和OpenBMC當(dāng)前是兩條技術(shù)路線,適應(yīng)于不同的應(yīng)用場景。中小規(guī)模的數(shù)據(jù)中心用戶關(guān)注業(yè)務(wù)穩(wěn)定性,關(guān)注管理固件的兼容性,對定制化要求不高,固件管理的技術(shù)投入資源有限,對技術(shù)類別不敏感,傳統(tǒng)的BMC在這種場景仍然有著廣闊空間。而對于大型、超大型互聯(lián)網(wǎng)客戶,快速響應(yīng),更高性能、更精細(xì)化的管理、定制化等訴求則更適合采用OpenBMC。目前處理器廠商正在圍繞帶外管理,運用OpenBMC更精細(xì)的管理數(shù)據(jù)中心設(shè)備,在故障診斷、預(yù)警、安全等方面進(jìn)行固件技術(shù)創(chuàng)新,以保證較高可用性、可靠性和可管理性。
OpenBMC經(jīng)過近十年的發(fā)展,已經(jīng)形成較為穩(wěn)定的基礎(chǔ)代碼,國內(nèi)大型CSP已發(fā)布OpenBMC方案,服務(wù)器廠商也在持續(xù)開發(fā)OpenBMC相關(guān)產(chǎn)品和配套解決方案,在剛剛結(jié)束的ODCC開放數(shù)據(jù)中心產(chǎn)業(yè)峰會上,浪潮信息發(fā)布了基于OpenBMC的最新服務(wù)器管理固件解決方案,面向通用客戶實現(xiàn)OpenBMC落地應(yīng)用。
產(chǎn)業(yè)界上下游攜手,加速OpenBMC發(fā)展
出席"大咖來了"的三位嘉賓一致認(rèn)為OpenBMC是大勢所趨,數(shù)據(jù)中心管理固件的開源開放將推動和強化服務(wù)器、部件、處理器等多方面的協(xié)同,并為數(shù)據(jù)中心高效管理提供更優(yōu)的解決方案。從部件角度,三星未來將聚焦于存儲部件帶外管理,基于OpenBMC開源代碼進(jìn)行固件創(chuàng)新,提供增強的帶外管理能力,比如產(chǎn)品內(nèi)部各組件監(jiān)控,設(shè)備壽命預(yù)測,智能化故障分析,異?;謴?fù)和設(shè)備認(rèn)證數(shù)據(jù)加密等方面。同時,基于OpenBMC的設(shè)備帶外管理標(biāo)準(zhǔn)化對推動產(chǎn)業(yè)上下游協(xié)同至關(guān)重要,三星攜手浪潮信息在近期的ODCC峰會中發(fā)布了《服務(wù)器插入式設(shè)備帶外管理白皮書》,希望通過定義部件管理的軟硬件接口,加速部件與主機BMC適配效率。
從英特爾角度來看,OpenBMC最重要的功能就是帶外監(jiān)控和管理,未來管理會更加智能化、細(xì)粒度和更安全,從而提升數(shù)據(jù)中心SLA降低TCO。例如內(nèi)存故障預(yù)測隔離,能顯著降低服務(wù)器故障率;在線無縫的固件升級,還有對CPU狀態(tài)性能監(jiān)測功耗的優(yōu)化管理會也更加精細(xì),以及對硬件的保護(hù)提升安全性等等。此外OpenBMC做為開源開放平臺,在GPU卡、節(jié)能散熱等方面建立標(biāo)準(zhǔn)化管理接口也是未來英特爾研究的方向。
浪潮信息則認(rèn)為OpenBMC的發(fā)展會更加開放,更廣泛的產(chǎn)品應(yīng)用和更穩(wěn)定的社區(qū)基礎(chǔ)代碼,將吸引更多的上下游廠商參與到社區(qū)的建設(shè)當(dāng)中。同時OpenBMC將會更加標(biāo)準(zhǔn)化,當(dāng)前面向用戶側(cè)的管理接口已通過Redfish規(guī)范進(jìn)行了標(biāo)準(zhǔn)化,但在服務(wù)器內(nèi)部的部件管理標(biāo)準(zhǔn)化程度還不夠,相信OpenBMC將推動內(nèi)部管理接口標(biāo)準(zhǔn)化。目前,為了滿足數(shù)據(jù)中心多元化的算力需求,浪潮信息開發(fā)了基于OpenBMC的服務(wù)器管理固件平臺InBry,并對接數(shù)據(jù)中心集群管理平臺InManage,推動形成從部件到服務(wù)器到數(shù)據(jù)中心的全生命周期精細(xì)化管理。
未來,OpenBMC產(chǎn)品化應(yīng)用更為廣泛,更多用戶將會從OpenBMC受益,OpenBMC持續(xù)健康發(fā)展將為數(shù)據(jù)中心產(chǎn)業(yè)的綠色高質(zhì)量發(fā)展創(chuàng)造更大價值。