omniture

浪潮網(wǎng)絡(luò):算力、存儲高速增長 讓高階網(wǎng)絡(luò)互連持續(xù)精進(jìn)

2022-08-08 14:57 4407

北京2022年8月8日 /美通社/ -- 據(jù)工信部發(fā)布的信息顯示,我國近五年算力年均增速超過30%。其中,在用數(shù)據(jù)中心的服務(wù)器規(guī)模為1900萬臺,存儲容量達(dá)到800EB(1EB=1024PB)。面對算力、存儲的高速增長,網(wǎng)絡(luò)作為數(shù)據(jù)中心三大關(guān)鍵要素之一,它的技術(shù)發(fā)展日益成為業(yè)界關(guān)注的焦點。

針對高性能計算、數(shù)據(jù)中心領(lǐng)域中的高階網(wǎng)絡(luò)互連技術(shù)發(fā)展,在由高效能服務(wù)器和存儲技術(shù)國家重點實驗室和開放計算中國社區(qū)聯(lián)合主辦的"第六期開放計算技術(shù)沙龍:網(wǎng)絡(luò)技術(shù)研究與實踐"線上研討會中,來自清華大學(xué)的教授、博士生導(dǎo)師向東老師以《高性能高階(High-Radix)網(wǎng)絡(luò)互連架構(gòu)及通訊協(xié)議》為主題,針對業(yè)內(nèi)主流的蜻蜓網(wǎng)絡(luò)(Dragonfly)架構(gòu)以及相關(guān)的網(wǎng)絡(luò)架構(gòu)特點、優(yōu)勢進(jìn)行了詳細(xì)解讀。針對Dragonfly網(wǎng)絡(luò)適用于高端市場的應(yīng)用情況,浪潮網(wǎng)絡(luò)推出了更加具備市場貼合度的無損網(wǎng)絡(luò)解決方案。以采用RoCE技術(shù)的數(shù)據(jù)中心以太網(wǎng)交換機為核心,具備網(wǎng)絡(luò)流控、死鎖消除以及存儲即插即用等特點。

萬級、十萬級、百萬級互連節(jié)點 彰顯蜻蜓網(wǎng)絡(luò)魅力

Dragonfly網(wǎng)絡(luò)憑借較低的網(wǎng)絡(luò)直徑和較低的部署成本,已經(jīng)在高性能計算領(lǐng)域得到了廣泛應(yīng)用。向東教授認(rèn)為,Dragonfly網(wǎng)絡(luò)所具備的特點,同樣也適用于當(dāng)下算力需求增長迅速、算力多樣化的數(shù)據(jù)中心網(wǎng)絡(luò)之中。"Dragonfly網(wǎng)絡(luò)作為一個二級全連接網(wǎng)絡(luò),其網(wǎng)絡(luò)設(shè)計成本遠(yuǎn)低于3-DTorus及胖樹等其他網(wǎng)絡(luò)架構(gòu),不僅適合于搭建超級計算機,同時也適用于數(shù)據(jù)中心。"向東教授說道。

當(dāng)前,高性能計算的網(wǎng)絡(luò)設(shè)計成本主要取決于機柜間的全局光纖數(shù)目,減少光纖數(shù)目及交換機端口數(shù)目是降低設(shè)計成本的核心要素。Dragonfly網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)可以將數(shù)據(jù)包傳輸路徑的全局光纖數(shù)目降低為1。當(dāng)高性能計算集群達(dá)到1萬個計算節(jié)點以上的規(guī)模時,采用Dragonfly網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)平臺所需交換機芯片的端口數(shù)目僅需30多個左右。當(dāng)集群節(jié)點規(guī)模達(dá)到10萬時,采用Dragonfly網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的交換機芯片端口數(shù)目則在55左右。

Dragonfly網(wǎng)絡(luò)是一個二階全連接網(wǎng)絡(luò),分別由Router(路由器)、Group(組)以及整個System(系統(tǒng))構(gòu)成。Group中的Router與終端進(jìn)行連接,Router之間實現(xiàn)Intra-group interconnection network全連接。與此同時,Group之間也實現(xiàn)了Inter-group interconnection network。其中,Group中采用電纜實現(xiàn)Router之間的互連,Group之間則采用光纖互連。

Dragonfly網(wǎng)絡(luò)雖然在成本方面、降低交互芯片連接端口數(shù)量較低等優(yōu)勢,但是面對超算、數(shù)據(jù)中心計算節(jié)點的增多,包括Dragonfly、Dragonfly+等網(wǎng)絡(luò)結(jié)構(gòu)依然要面臨網(wǎng)絡(luò)連線較為復(fù)雜,網(wǎng)絡(luò)總體設(shè)計成本仍然偏高,以及整體網(wǎng)絡(luò)所需的全局光纖數(shù)仍然偏高等挑戰(zhàn)。

向東教授及其團(tuán)隊為此研發(fā)設(shè)計出CLHR,即基于通訊局部化的高階互連網(wǎng)絡(luò)以及相應(yīng)的路由算法。通過采用CLHR,一套擁有15萬臺服務(wù)器且采用Dragonfly網(wǎng)絡(luò)結(jié)構(gòu)的超算平臺,其交換芯片端口數(shù)可控制在30個以內(nèi)。當(dāng)整體服務(wù)器規(guī)模達(dá)到100萬臺以上時,交換芯片的端口數(shù)量也可以控制在50個以內(nèi)。向東教授指出,采用CLHR,相比二階全聯(lián)接的Dragonfly網(wǎng)絡(luò),端口總體數(shù)量得到有效降低。此外,數(shù)據(jù)通訊不需要虛擬通道,不需要設(shè)計Misrouting算法,任何節(jié)點間通訊可使用多條最短路徑。

智算普惠 無損網(wǎng)絡(luò)釋放更多價值

無論是高性能計算領(lǐng)域中較為普遍采用的Dragonfly網(wǎng)絡(luò),還是針對其進(jìn)行優(yōu)化、改進(jìn)的CLHR,向東教授認(rèn)為這些技術(shù)上的創(chuàng)新都是為了實現(xiàn)無損網(wǎng)絡(luò)所作出的努力。以往,傳統(tǒng)數(shù)據(jù)中心會采用無損網(wǎng)絡(luò)技術(shù),但面對數(shù)據(jù)中心的算力攀升、算力的多樣化,向東教授認(rèn)為打造無損網(wǎng)絡(luò)已經(jīng)成為一種趨勢,這需要在網(wǎng)絡(luò)架構(gòu)的設(shè)計上更加精致,需要網(wǎng)絡(luò)平臺具備高效的流控能力、嚴(yán)格避免PFC死鎖情況的出現(xiàn)。

目前,浪潮網(wǎng)絡(luò)所提供的無損網(wǎng)絡(luò)解決方案已經(jīng)成功的應(yīng)用到南京智能計算中心項目的建設(shè)之中。通過融合浪潮的計算、存儲、網(wǎng)絡(luò)和人工智能開發(fā)平臺整體解決方案,構(gòu)建端到端、無損、低延時的RDMA(遠(yuǎn)程直接內(nèi)存訪問)承載網(wǎng)絡(luò)。

浪潮網(wǎng)絡(luò)推出的無損網(wǎng)絡(luò)解決方案,不僅有效的應(yīng)對了智算中心算力增長、算力需求多樣、存儲指數(shù)級攀升的需求。同時,也為現(xiàn)有的高性能計算平臺構(gòu)建低延遲、高帶寬的網(wǎng)絡(luò)平臺,提供了在性價比和未來發(fā)展前景上都不錯的一種選擇。

 

消息來源:浪潮網(wǎng)絡(luò)
China-PRNewsire-300-300.png
全球TMT
微信公眾號“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營動態(tài)、財報信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection