omniture

創(chuàng)新服務(wù)器系統(tǒng)設(shè)計 浪潮信息發(fā)布融合架構(gòu)3.0

2023-08-15 18:50 3613

北京2023年8月15日 /美通社/ -- 日前,在第五屆OCP China Day 2023(開放計算中國技術(shù)峰會)上,浪潮信息正式推出融合架構(gòu)3.0原型系統(tǒng),以開創(chuàng)性的系統(tǒng)架構(gòu)設(shè)計實現(xiàn)了計算資源、存儲資源、內(nèi)存資源、異構(gòu)加速資源等核心IT資源徹底解耦與池化,支持池化資源異步升級、支持細粒度多主機共享高并發(fā)存儲、亞微秒級遠端內(nèi)存共享訪問等特性,可通過軟件定義實現(xiàn)"一套系統(tǒng),N類應(yīng)用",有效緩解當前數(shù)據(jù)中心 "內(nèi)存墻"、"I/O墻"、"功耗墻"等瓶頸。

融合架構(gòu)3.0原型系統(tǒng)的發(fā)布,將有望發(fā)展出一種全解耦、全池化、高可擴展、易部署、易管理的新型硬件基礎(chǔ)架構(gòu),實現(xiàn)軟硬高度協(xié)同,加速數(shù)據(jù)中心釋放數(shù)字生產(chǎn)力,促進數(shù)字經(jīng)濟發(fā)展以及與實體經(jīng)濟的深度融合。


智算時代,計算體系架構(gòu)亟待突破

當前,數(shù)字化、智能化轉(zhuǎn)型已成為企業(yè)發(fā)展、科研創(chuàng)新和社會治理的剛性需求,也催生了云計算、大數(shù)據(jù)、人工智能等數(shù)字技術(shù)的蓬勃發(fā)展。然而,越來越多樣化的應(yīng)用對底層硬件資源的需求存在差異,導(dǎo)致使用傳統(tǒng)架構(gòu)的云、數(shù)、智、邊、端等各類技術(shù)平臺彼此獨立,硬件資源難以共享復(fù)用,造成資源浪費的同時也使得運維管理難度激增。

比如,以大模型為代表的AIGC技術(shù)需要基于海量數(shù)據(jù)集,在擁有成百上千AI加速卡的集群上對千億級參數(shù)的AI大模型進行分布式訓(xùn)練,對異構(gòu)算力的需求更高;科學(xué)計算要求更高的計算精度,對通用算力的需求更高;內(nèi)存計算則希望讓更多應(yīng)用程序的數(shù)據(jù)駐留在內(nèi)存之中,使得數(shù)據(jù)和算力更接近,以提高處理速率,對內(nèi)存容量要求更高。但傳統(tǒng)架構(gòu)下,IT資源的擴展是以整機形態(tài)來完成的,即便用戶亟需的是某種特定資源,但仍然需要為整機附帶的額外資源付費,這勢必增加了IT支出并造成資源閑置浪費。


與此同時,在算力供給側(cè)摩爾定律逐漸放緩和登納德縮放定律走向終結(jié),現(xiàn)有的計算體系架構(gòu)先天性不足被成倍放大,數(shù)據(jù)中心計算體系架構(gòu)的創(chuàng)新已迫在眉睫。

浪潮信息服務(wù)器產(chǎn)品線總經(jīng)理趙帥表示:"當前數(shù)據(jù)中心遇到的‘內(nèi)存墻'、‘I/O墻'、‘功耗墻'等現(xiàn)象,并不是孤立存在,它們是現(xiàn)有計算體系架構(gòu)不足放大后的體現(xiàn)。只有通過計算體系架構(gòu)的整體創(chuàng)新,才能徹底解決各種瓶頸帶來的挑戰(zhàn)。"

融合架構(gòu)3.0:以數(shù)據(jù)為中心的新架構(gòu)

在此背景下,浪潮信息推出融合架構(gòu)3.0原型系統(tǒng),打破了以往"以CPU為中心"的設(shè)計理念,而是從整體出發(fā),通過系統(tǒng)架構(gòu)創(chuàng)新解耦重構(gòu)服務(wù)器系統(tǒng),突破性實現(xiàn)了計算資源、存儲資源、內(nèi)存資源、異構(gòu)加速資源等核心IT資源徹底解耦與池化,可支持多種通用處理器平臺與GPU、FPGA、DPU等多種異構(gòu)加速單元的協(xié)同計算,并可通過軟件定義實現(xiàn)資源協(xié)同動態(tài)調(diào)度。

這種基于硬件重構(gòu)技術(shù)而開發(fā)的新一代基礎(chǔ)架構(gòu),將實現(xiàn)更加自由的資源隨需定義,為上層軟件定義系統(tǒng)提供更出色的靈活性,使其能夠根據(jù)應(yīng)用特點,以高度自動化的方式分配與重新配置硬件資源,不再受到非動態(tài)設(shè)置的硬件基礎(chǔ)設(shè)施的限制,讓數(shù)據(jù)中心內(nèi)部的人工智能、科學(xué)計算、云計算、大數(shù)據(jù)等各類應(yīng)用統(tǒng)一運行于同一架構(gòu)之上,實現(xiàn)多技術(shù)平臺融合,加速業(yè)務(wù)創(chuàng)新及數(shù)字化轉(zhuǎn)型。


與傳統(tǒng)的CPU為中心的計算架構(gòu)不同,融合架構(gòu)3.0原型系統(tǒng)以數(shù)據(jù)為中心,實現(xiàn)計算節(jié)點內(nèi)部各種算力芯片共享內(nèi)存數(shù)據(jù)、統(tǒng)一編址和協(xié)同工作;在跨節(jié)點之間則通過智能數(shù)據(jù)處理單元和高速網(wǎng)絡(luò)形成分布式互連交換,實現(xiàn)CPU、GPU、FPGA等各種加速芯片的算力協(xié)同以及內(nèi)存池化、新型存儲資源池化,具有節(jié)點間的數(shù)據(jù)訪問延遲極低,支持高效彈性擴展等優(yōu)勢。此外,融合架構(gòu)系統(tǒng)可以實現(xiàn)更為靈活的資源重構(gòu),為人工智能、大數(shù)據(jù)等多種應(yīng)用場景提供強大的算力支撐。

內(nèi)存解耦與池化一直是業(yè)界的熱點與難點,隨著以CXL為代表的串行緩存一致性總線的出現(xiàn),給主機和遠端共享內(nèi)存之間提供了低延時的訪問路徑以及緩存一致性保證,為大規(guī)模內(nèi)存擴展與內(nèi)存資源池化提供了可能。融合架構(gòu)3.0原型系統(tǒng)突破內(nèi)存解耦池化關(guān)鍵技術(shù),研制新型應(yīng)用串行緩存一致性總線及其交換技術(shù)的內(nèi)存模組和內(nèi)存池化系統(tǒng),保障主機系統(tǒng)對大容量、高帶寬內(nèi)存的應(yīng)用需求。

趙帥介紹,融合架構(gòu)3.0原型系統(tǒng)首創(chuàng)JBOM獨立內(nèi)存資源池設(shè)計,創(chuàng)新實現(xiàn)高密度內(nèi)存擴展方案,主機系統(tǒng)遠端內(nèi)存擴展技術(shù)領(lǐng)先業(yè)界。通過軟件定義系統(tǒng)設(shè)計及CXL高性能交換技術(shù),率先實現(xiàn)內(nèi)存資源池化與細粒度多主機共享。

系統(tǒng)互連設(shè)計方面,解耦與池化帶來了新的互連挑戰(zhàn),整系統(tǒng)通過設(shè)計供電控制、復(fù)位、時鐘鎖定等協(xié)同工作方式實現(xiàn)解耦單元整體運行。此外,隨著數(shù)據(jù)速率的不斷攀升和系統(tǒng)鏈路變得更加復(fù)雜,解耦池化系統(tǒng)互連鏈路互連延展已經(jīng)接近極限,系統(tǒng)針對復(fù)雜鏈路高速互連進行高精度的擬合仿真研究,準確分析系統(tǒng)互連鏈路多樣化拓撲和傳輸速率的極限。

此外,融合架構(gòu)3.0原型系統(tǒng)開發(fā)軟件定義管理系統(tǒng),實現(xiàn)拓撲切換、端口動態(tài)管理、多主機資源共享與資源動態(tài)分區(qū)等高級功能;開發(fā)資源管理軟件,實現(xiàn)設(shè)備利用率監(jiān)控、設(shè)備分配情況配置與管理、I/O吞吐量監(jiān)控和鏈路健康診斷,保障主機系統(tǒng)硬件資源的動態(tài)部署與高效管理。

趙帥表示:"融合架構(gòu)3.0原型系統(tǒng)效率可比上一代軟件虛擬化系統(tǒng)提升一到兩個數(shù)量級,可擴展性提高2~4倍,系統(tǒng)延時降低90%,PUE低于1.1。隨著數(shù)字經(jīng)濟、人工智能持續(xù)發(fā)展,企業(yè)的各項業(yè)務(wù)越來越依賴數(shù)據(jù)及其價值,算力技術(shù)也需要不斷演進,融合架構(gòu)3.0原型系統(tǒng)的發(fā)布,有助于企業(yè)提升數(shù)據(jù)管理效率,最大化釋放數(shù)據(jù)價值。"

消息來源:浪潮信息
China-PRNewsire-300-300.png
全球TMT
微信公眾號“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營動態(tài)、財報信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection