omniture

浪潮云海聯(lián)合多方共同發(fā)布《一云多芯算力調度研究報告》

2025-01-07 11:50 1266

1顆X處理器相當幾顆Y處理器?一云多芯算力評估計算器來了!

北京2025年1月6日 /美通社/ -- 近日,浪潮云海聯(lián)合中國軟件評測中心、騰訊云等10余家核心機構、廠商共同發(fā)布了《一云多芯算力調度研究報告》(以下簡稱報告)。報告指出,當前一云多芯正從混合部署、資源統(tǒng)管的第一階段,向業(yè)務牽引、分層解耦、架構升級的第二階段過渡,為保障應用高效適配、自由遷移與性能調優(yōu),算力量化調度成為當下重要關注點。因此,報告從算力調度架構維度,對一云多芯實際落地過程中存在的挑戰(zhàn)進行詳細剖析,針對算力等價調度難題設計了量化方法,推出算力評估計算器,并提出一云多芯算力調度整體參考設計,為行業(yè)用戶實現(xiàn)應用的跨架構遷移提供重要的評估依據(jù)。

1中國軟件評測中心、浪潮云海等聯(lián)合發(fā)布
1中國軟件評測中心、浪潮云海等聯(lián)合發(fā)布

一云多芯走向第二階段 算力量化調度成為關注重點

當前,隨著行業(yè)"上云用數(shù)賦智"進程的不斷加速和深化,應用場景呈現(xiàn)多樣化趨勢,尤其是近幾年AIGC大模型、跨學科科學計算等興起,數(shù)據(jù)中心的計算場景呈現(xiàn)計算精度橫向擴展與數(shù)據(jù)的數(shù)量級縱向增長相交織的態(tài)勢,實時性要求不斷提升。為更好地滿足當前多元異構算力場景需求,越來越多的數(shù)據(jù)中心開始采用一云多芯架構,以確保多元異構算力即便在功能、性能和可靠性等方面存在差異,依然可以高效穩(wěn)定地實現(xiàn)應用跨處理器低成本或自由切換,保障關鍵業(yè)務長期穩(wěn)定運行。

一云多芯并非一蹴而就,而是跟隨用戶需求的動態(tài)調整來持續(xù)演進。一云多芯需要基于以系統(tǒng)設計為核心的思維,采用以場景驅動的"硬件重構+軟件定義"的融合架構,通過"三步走"實現(xiàn)最終的目標。當前第一階段混合部署、資源統(tǒng)管的階段目標基本實現(xiàn),一云多芯正在向第二階段過渡,圍繞業(yè)務牽引、分層解耦、架構升級,實現(xiàn)應用跨架構平滑切換和線性彈性伸縮。

一云多芯發(fā)展到當前階段,用戶已經(jīng)不再滿足于資源池的納管,而是開始關注一云多芯場景下的算力如何更高效、高質量的使用,從而使得算力量化調度能力成為重要關注點。然而,在真實生產(chǎn)環(huán)境中,由于異構芯片在指令集上各有千秋,在性能上也存在較大差異,導致應用在跨架構切換時仍面臨一些棘手難題。比如說,當應用跨架構遷移時,性能可能會出現(xiàn)較大波動,導致服務質量降低,無法達到預期;在新老副本切換流量過程中可能引發(fā)短暫的延遲、中斷或錯誤,造成應用響應異常等等。

2一云多芯發(fā)展路線圖
2一云多芯發(fā)展路線圖

報告指出,應從算力調度出發(fā),建立多層次的算力衡量體系,實現(xiàn)應用性能的精確衡量,從而確保應用可以跨架構平滑切換及線性彈性伸縮,同時通過構建標準化的算力調度架構,提升整體系統(tǒng)的靈活與可擴展性。

算力量化調度:從"等價"開始

算力量化調度針對用戶目前普遍面臨的應用遷移效果難以預估的問題,希望通過對算力的精確衡量以及架構感知的算力有向調度等手段,實現(xiàn)應用的跨架構等價運行,從而確保應用的一致性體驗并降低運維復雜度。

應用的跨架構等價運行中的"等價性"主要體現(xiàn)在功能的等價性和性能的等價性,其目的是保障應用的跨架構高效穩(wěn)定運行,從而實現(xiàn)用戶體驗的一致性。功能的等價性主要面臨的挑戰(zhàn)是異構處理器之間指令集的差異,對于操作系統(tǒng)及應用程序的跨架構可運行性提出了更高的要求;性能的等價性主要面臨的挑戰(zhàn)是異構處理器之間性能的差異,通過建立科學、全面的算力量化評估模型,準確分析不同架構的處理能力、運算速度等方面的特性,為應用在跨架構運行時提供資源分配(例如CPU、內存、副本數(shù)等)的依據(jù),成為保障其在不同架構下性能等價的有效方法。

報告指出,算力量化是實現(xiàn)應用等價遷移的基礎,可使用兩類算力量化方法,分別為基于測評反饋的算力量化方法和基于性能模型的算力量化方法。其中,基于性能模型的算力量化方法可通過建立典型應用性能模型的方式,避免在線測評的開銷,實現(xiàn)跨架構資源封裝規(guī)格的快速推理。

同時由于不同芯片架構性能差異較大,為保障創(chuàng)新架構云平臺與之前利舊平臺保持相同的算力水平,保障整個遷移適配過程中業(yè)務、用戶無感,浪潮云海創(chuàng)新自研了算力評估平臺工具,初步實現(xiàn)基于性能模型的規(guī)格算力評估。該平臺內置了整機性能模型,并使用智能化的計算工作流對影響整機性能的因子進行綜合計算,定義了通用性能調度指數(shù)(GIPS,Generic Index for Performance Based Scheduler),實現(xiàn)了支持一云多芯算力調度場景的整機性能評估。

3浪潮云海算力評估工具
3浪潮云海算力評估工具

發(fā)布首個一云多芯算力調度架構參考設計

為保障客戶應用跨架構平滑遷移,構建標準化的算力調度架構也至關重要。報告圍繞多芯場景下的資源可管理性、程序可運行性及狀態(tài)可遷移性三個核心方面開展最佳實踐的探索,提出了一種一云多芯算力調度參考設計,涵蓋基礎設施層、服務器操作系統(tǒng)層、云操作系統(tǒng)層、基礎應用層、業(yè)務應用層。

4一云多芯算力調度參考設計
4一云多芯算力調度參考設計

報告強調,基礎設施層需要強化性能及RAS設計,提升性能、穩(wěn)定性及可靠性,推動生態(tài)繁榮并構建整機開放標準;服務器操作系統(tǒng)是異構硬件與多樣化的軟件之間重要的橋梁,需要解決跨架構可運行性問題,并提供場景化的算力測算分析方法,指導應用的調優(yōu);云操作系統(tǒng)層作為把不同垂直技術棧拉通的核心層級,需要通過運行時的資源封裝及架構感知的有向調度,實現(xiàn)應用的跨架構分發(fā),并且提供層次化算力分析方法,實現(xiàn)應用跨架構等價調度;應用層則需要重點考慮有狀態(tài)負載的數(shù)據(jù)狀態(tài)同步及無狀態(tài)負載的跨架構流量分發(fā)等問題?;谌缟蠀⒖荚O計,實現(xiàn)基礎設施層至應用層的各層級高效協(xié)同、廣泛兼容。

概括而言,一云多芯算力調度強調構建分層解耦、開放標準的整體架構,確保從基礎設施至應用層的各層級能夠獨立運行、獨立演化,同時通過標準化、規(guī)范化的協(xié)議、標準實現(xiàn)層間協(xié)同,并且兼容多樣化的硬件平臺,從而提升整體系統(tǒng)的靈活性與可擴展性。

一云多芯是多元算力變革下的云基礎設施演化的必經(jīng)之路。不同的芯片技術與復雜的生態(tài)環(huán)境相交織,對云操作系統(tǒng)廠商的技術實力、實施能力與生態(tài)牽引力均提出了更高的要求,必須要依靠原始創(chuàng)新實現(xiàn)技術突破,以生態(tài)開放協(xié)同實現(xiàn)產(chǎn)品技術融合,通過產(chǎn)業(yè)鏈上下游協(xié)同,生態(tài)共建,形成完善的一云多芯行業(yè)標準,實現(xiàn)真正的應用跨架構自由切換,推動"一云多芯"向第三階段邁進。

消息來源:浪潮云海
China-PRNewsire-300-300.png
全球TMT
微信公眾號“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營動態(tài)、財報信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection