北京2023年8月16日 /美通社/ -- 8月10日,在OCP China Day 2023(開放計(jì)算中國技術(shù)峰會)上,浪潮信息重磅發(fā)布融合架構(gòu)3.0原型系統(tǒng),以開創(chuàng)性的系統(tǒng)架構(gòu)設(shè)計(jì)實(shí)現(xiàn)了計(jì)算資源、存儲資源、內(nèi)存資源、異構(gòu)加速資源等核心IT資源徹底解耦與池化,支持池化資源異步升級、支持細(xì)粒度多主機(jī)共享高并發(fā)存儲、亞微秒級遠(yuǎn)端內(nèi)存共享訪問等特性,可通過軟件定義實(shí)現(xiàn)"一套系統(tǒng),N類應(yīng)用"。
融合架構(gòu)3.0原型系統(tǒng)的發(fā)布,將有望發(fā)展出一種全解耦、全池化、高可擴(kuò)展、易部署、易管理的新型硬件基礎(chǔ)架構(gòu),緩解馮·諾依曼架構(gòu)瓶頸,實(shí)現(xiàn)軟硬高度協(xié)同,加速數(shù)據(jù)中心釋放數(shù)字生產(chǎn)力,促進(jìn)數(shù)字經(jīng)濟(jì)發(fā)展以及與實(shí)體經(jīng)濟(jì)的深度融合。
多數(shù)字技術(shù)融合亟需硬件基礎(chǔ)架構(gòu)創(chuàng)新
當(dāng)前,數(shù)字化、智能化轉(zhuǎn)型已成為企業(yè)發(fā)展、科研創(chuàng)新和社會治理的剛性需求,也催生了云計(jì)算、大數(shù)據(jù)、人工智能等數(shù)字技術(shù)的蓬勃發(fā)展。然而,越來越多樣化的應(yīng)用對底層硬件資源的需求存在差異,導(dǎo)致使用傳統(tǒng)架構(gòu)的云、數(shù)、智、邊、端等各類技術(shù)平臺彼此獨(dú)立,硬件資源難以共享復(fù)用,造成資源浪費(fèi)的同時也使得運(yùn)維管理難度激增。
同時,應(yīng)用數(shù)量的增多以及應(yīng)用規(guī)模的擴(kuò)大,也在進(jìn)一步推動數(shù)據(jù)中心向集中化、規(guī)?;l(fā)展。即便數(shù)據(jù)中心已普遍采用分布式架構(gòu),但設(shè)備間的互連網(wǎng)絡(luò)帶寬遠(yuǎn)低于主板內(nèi)和設(shè)備內(nèi)的互連帶寬,并且網(wǎng)絡(luò)協(xié)議復(fù)雜、層次眾多,協(xié)議的轉(zhuǎn)換和處理占用了大量系統(tǒng)資源,使得業(yè)務(wù)系統(tǒng)擴(kuò)展性受到嚴(yán)重限制,需要一種可擴(kuò)展性更優(yōu)、易管理性更好的硬件基礎(chǔ)架構(gòu),從而實(shí)現(xiàn)數(shù)據(jù)中心的輕松擴(kuò)容。
此次浪潮信息發(fā)布的融合架構(gòu)3.0原型系統(tǒng),通過系統(tǒng)架構(gòu)創(chuàng)新解耦重構(gòu)服務(wù)器系統(tǒng),突破性實(shí)現(xiàn)了計(jì)算資源、存儲資源、內(nèi)存資源、異構(gòu)加速資源等核心IT資源徹底解耦與池化,可支持多種通用處理器平臺與GPU、FPGA、DPU等多種異構(gòu)加速單元的協(xié)同計(jì)算,并可通過軟件定義實(shí)現(xiàn)資源協(xié)同動態(tài)調(diào)度。這種基于硬件重構(gòu)技術(shù)而開發(fā)的新一代基礎(chǔ)架構(gòu),將實(shí)現(xiàn)更加自由的資源隨需定義,為上層軟件定義系統(tǒng)提供更出色的靈活性,使其能夠根據(jù)應(yīng)用特點(diǎn),以高度自動化的方式分配與重新配置硬件資源,不再受到非動態(tài)設(shè)置的硬件基礎(chǔ)設(shè)施的限制,讓數(shù)據(jù)中心內(nèi)部的人工智能、科學(xué)計(jì)算、云計(jì)算、大數(shù)據(jù)等各類應(yīng)用統(tǒng)一運(yùn)行于同一架構(gòu)之上,實(shí)現(xiàn)多技術(shù)平臺融合,加速業(yè)務(wù)創(chuàng)新及數(shù)字化轉(zhuǎn)型。
融合架構(gòu)3.0原型系統(tǒng)顛覆傳統(tǒng):一套架構(gòu),N類應(yīng)用
"一套架構(gòu),N類應(yīng)用"是融合架構(gòu)3.0原型系統(tǒng)的核心價值所在。一切數(shù)字化、一切智能化,實(shí)際上是物理世界和數(shù)字世界逐步深度融合的過程,需要多種多樣的數(shù)字技術(shù)支撐,但不同的技術(shù)對硬件架構(gòu)的要求不同,各技術(shù)平臺之間很難實(shí)現(xiàn)資源共享復(fù)用。比如,以大模型為代表的AIGC技術(shù)需要基于海量數(shù)據(jù)集,在擁有成百上千AI加速卡的集群上對千億級參數(shù)的AI大模型進(jìn)行分布式訓(xùn)練,對異構(gòu)算力的需求更高;科學(xué)計(jì)算要求更高的計(jì)算精度,對通用算力的需求更高;內(nèi)存計(jì)算則希望讓更多應(yīng)用程序的數(shù)據(jù)駐留在內(nèi)存之中,使得數(shù)據(jù)和算力更接近,以提高處理速率,對內(nèi)存容量要求更高。但傳統(tǒng)架構(gòu)下,IT資源的擴(kuò)展是以整機(jī)形態(tài)來完成的,即便用戶亟需的是某種特定資源,但仍然需要為整機(jī)附帶的額外資源付費(fèi),這勢必增加了IT支出并造成資源閑置浪費(fèi)。
融合架構(gòu)3.0原型機(jī)打破了以往"以CPU為中心"的設(shè)計(jì)理念,而是從整體出發(fā),以系統(tǒng)為中心,通過硬件解耦將異構(gòu)計(jì)算、內(nèi)存、存儲等資源轉(zhuǎn)變?yōu)榭瑟?dú)立擴(kuò)展的資源池,用戶可以根據(jù)應(yīng)用需求實(shí)現(xiàn)資源自由擴(kuò)展。其中,內(nèi)存解耦不僅實(shí)現(xiàn)了亞微秒級遠(yuǎn)端內(nèi)存訪問,并且構(gòu)建出一種邏輯上可遠(yuǎn)端共享的內(nèi)存資源池,讓多臺主機(jī)訪問同一個內(nèi)存池,大大提高數(shù)據(jù)交換的效率,讓Spark、Hadoop和機(jī)器學(xué)習(xí)等使用分布式數(shù)據(jù)框架的應(yīng)用,能夠更順暢地實(shí)現(xiàn)框架內(nèi)各節(jié)點(diǎn)間的數(shù)據(jù)交換與協(xié)作,顯著提升數(shù)據(jù)處理效率。同時,內(nèi)存解耦解除了與主機(jī)的綁定,也能讓大規(guī)模、超大規(guī)模數(shù)據(jù)中心通過減少孤置的內(nèi)存來提高內(nèi)存資源的利用率,實(shí)現(xiàn)動態(tài)內(nèi)存擴(kuò)展,從而降低成本支出。此外,內(nèi)存池化共享還可以通過本地和遠(yuǎn)端的內(nèi)存,開發(fā)更多高級數(shù)據(jù)功能,比如內(nèi)存數(shù)據(jù)流動或者內(nèi)存數(shù)據(jù)高可用技術(shù)等。
融合架構(gòu)3.0原型系統(tǒng)采用整機(jī)柜形態(tài),所有的主機(jī)與資源均通過統(tǒng)一的管理、散熱、供電實(shí)現(xiàn)高度集成,整體形成一個異構(gòu)高算力、I/O資源和內(nèi)存資源可按需拓展,資源靈活調(diào)度分配的新型"服務(wù)器"。其中,多層次多協(xié)議整系統(tǒng)管理、高壓直流供電和負(fù)壓真空CDU液冷等創(chuàng)新技術(shù)的開發(fā)應(yīng)用,在實(shí)現(xiàn)數(shù)據(jù)中心細(xì)粒度、智能化管理的同時,也極大緩解了大量使用高功耗處理器引發(fā)的"功耗墻"問題。
融合架構(gòu)是浪潮信息于2014年提出的技術(shù)理念,核心在于通過硬件解耦實(shí)現(xiàn)資源的物理池化和動態(tài)重構(gòu),通過軟件定義實(shí)現(xiàn)業(yè)務(wù)感知的按需資源組合與配置,滿足系統(tǒng)的彈性伸縮和超大規(guī)模的持續(xù)擴(kuò)展,實(shí)現(xiàn)軟硬高度協(xié)同發(fā)展。浪潮信息將融合架構(gòu)的發(fā)展劃分為三個階段,分別為 "服務(wù)器即計(jì)算機(jī)(Server as a Computer)" ,"機(jī)柜即計(jì)算機(jī)(Rack as a Computer)"以及最終的"數(shù)據(jù)中心即計(jì)算機(jī)(Data Center as a Computer)"。此次融合架構(gòu)3.0原型系統(tǒng)的發(fā)布,意味著浪潮信息正向融合架構(gòu)的終極目標(biāo)邁進(jìn)。