筑基 AIGC 智算 OS 助力大模型高效釋放算力

浪潮云海

2023-09-28 14:16 4976

北京2023年9月28日 /美通社/ -- 近日，大模型智算軟件棧 OGAI 發(fā)布會(huì)在北京開(kāi)幕，作為大模型智算軟件棧的重要基座，會(huì)上重磅發(fā)布了大模型算力服務(wù)的智能算力底座--智算 OS。智算 OS 是面向大模型算力服務(wù)的智能算力運(yùn)管平臺(tái)，通過(guò)池化通用、智能等算力，滿足多租戶彈性 AI 算力供給需求，不斷驅(qū)動(dòng)產(chǎn)業(yè) AI 轉(zhuǎn)型升級(jí)，為百行千業(yè)開(kāi)啟智慧算力新征程。

OGAI，即 Open GenAI Infra 元腦生智，是為大模型業(yè)務(wù)提供 AI 算力系統(tǒng)環(huán)境部署、算力調(diào)度以及開(kāi)發(fā)管理能力的全棧全流程的智算軟件棧。

基于全棧全流程、算力充分釋放、實(shí)戰(zhàn)驗(yàn)證提煉等設(shè)計(jì)理念，OGAI 分為 L0-L4 共5層，旨在為大模型開(kāi)發(fā)與應(yīng)用全力打造高效生產(chǎn)力。浪潮云海智算 OS 作為智算軟件棧的基座，能夠滿足多租戶以裸金屬為主的彈性 AI 算力運(yùn)管需求。其中，高效的裸金屬服務(wù)支持分鐘級(jí)部署上千規(guī)模裸金屬節(jié)點(diǎn)，并按需進(jìn)行彈性擴(kuò)展，實(shí)現(xiàn)異構(gòu)計(jì)算芯片、IB、RoCE 高速網(wǎng)絡(luò)、高性能存儲(chǔ)等環(huán)境一鍵獲取，并實(shí)現(xiàn)計(jì)算、網(wǎng)絡(luò)、數(shù)據(jù)隔離以保障業(yè)務(wù)安全。

智算 OS 是智算中心的基礎(chǔ)底座

作為智慧算力時(shí)代的典型應(yīng)用，AIGC（人工智能生成內(nèi)容）自出現(xiàn)起便備受關(guān)注，也大大加速傳統(tǒng)數(shù)據(jù)中心向“智算中心”的轉(zhuǎn)型進(jìn)程。智算中心不僅需要提供通用算力，還需具備GPU、DPU、FPGA 等多元異構(gòu)算力，并且能夠根據(jù)用戶的不同需求，提供算力的發(fā)放或售賣服務(wù)。

智算 OS 聚焦智算中心場(chǎng)景，在融合云、服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)、AI 等基礎(chǔ)設(shè)施產(chǎn)品的基礎(chǔ)上，整合各類算力資源，為智算中心提供基礎(chǔ)硬件設(shè)施以及云、數(shù)、智等軟件平臺(tái)的統(tǒng)一運(yùn)營(yíng)、運(yùn)維門(mén)戶和智能管理，幫助企業(yè)解決智慧算力時(shí)代的種種難題，滿足互聯(lián)網(wǎng)、教科研、金融等行業(yè)客戶智算中心建設(shè)及運(yùn)營(yíng)運(yùn)維需求。

通過(guò)算力的生產(chǎn)、聚合、調(diào)度和釋放，幫助企業(yè)高效開(kāi)發(fā)專屬大模型，形成與企業(yè)適配的 AI 開(kāi)發(fā)模式，助力生成式 AI 落地。

在大模型場(chǎng)景下，通過(guò)智算 OS 統(tǒng)一化算力平臺(tái)，能夠簡(jiǎn)便靈活獲取 GPU 裸金屬服務(wù)，分鐘級(jí)即可部署上千規(guī)模裸金屬服務(wù)器，按需進(jìn)行彈性擴(kuò)展。異構(gòu)計(jì)算芯片、IB、RoCE 高速網(wǎng)絡(luò)、并行存儲(chǔ)等計(jì)算環(huán)境，一鍵獲取，計(jì)算、網(wǎng)絡(luò)、數(shù)據(jù)、隔離保障業(yè)務(wù)安全，像虛擬機(jī)一樣易用，充分釋放算力潛能。

智算 OS 最大化提升資源利用率

在用戶場(chǎng)景中，常出現(xiàn)通用算力、AI 算力獨(dú)立建設(shè)，這會(huì)導(dǎo)致一系列問(wèn)題：

信息孤島：不同類型資源之間相對(duì)獨(dú)立，信息無(wú)法實(shí)現(xiàn)共享、互換；
資源獨(dú)占：用戶獨(dú)占設(shè)備，算力無(wú)法共享，資源利用率低；
人力浪費(fèi)：不同算力資源獨(dú)立運(yùn)維，給管理和運(yùn)維帶來(lái)巨大復(fù)雜性；

智算 OS 支持通用算力、智能算力等多種異構(gòu)算力統(tǒng)一納管，并采用彈性計(jì)算框架，實(shí)現(xiàn)資源彈性調(diào)度和多租戶體系。根據(jù)租戶使用情況，自動(dòng)分配和調(diào)度資源，大幅降低資源使用的等待時(shí)間。按照用戶實(shí)際情況進(jìn)行邏輯體系規(guī)劃，實(shí)現(xiàn)不同租戶體系間資源隔離，保障數(shù)據(jù)安全性。通過(guò)自動(dòng)化運(yùn)維能力，降低對(duì)運(yùn)維人員的專業(yè)性要求和運(yùn)維復(fù)雜度，幫助用戶將主要精力集中在 AI 開(kāi)發(fā)中，真正實(shí)現(xiàn)降本增效。

智算 OS 最大化提升模型訓(xùn)練效率

針對(duì) AI 大模型訓(xùn)練的計(jì)算特點(diǎn)，智算 OS 對(duì)集群架構(gòu)、高速互聯(lián)、算力調(diào)度等方面進(jìn)行全面優(yōu)化，在系統(tǒng)架構(gòu)上，采用單節(jié)點(diǎn)集成 8 顆加速器的 AI 服務(wù)器，節(jié)點(diǎn)內(nèi)加速器間實(shí)現(xiàn)超高速 P2P 通信，節(jié)點(diǎn)間建立極低延遲、超高帶寬的 Infiniband 通信網(wǎng)絡(luò)。

在大模型訓(xùn)練技術(shù)層面，成功運(yùn)用了中文巨量 AI 模型“源1.0”的訓(xùn)練優(yōu)化經(jīng)驗(yàn)，對(duì)分布式訓(xùn)練策略進(jìn)行了針對(duì)性優(yōu)化，通過(guò)合理設(shè)計(jì)張量并行、流水并行和數(shù)據(jù)并行，精準(zhǔn)調(diào)整模型結(jié)構(gòu)和訓(xùn)練過(guò)程的超參數(shù)，最終實(shí)現(xiàn)千億參數(shù)規(guī)模AI大模型的訓(xùn)練算力效率達(dá)到53.5%，刷新了業(yè)內(nèi) AI 大模型訓(xùn)練算力效率新高。

智算 OS 促進(jìn)算力運(yùn)營(yíng)

為了保證模型開(kāi)發(fā)資源的正常供給，企業(yè)通常會(huì)考慮算力高峰、低谷的現(xiàn)象，額外購(gòu)置部分算力設(shè)備作為冗余，造成算力資源的閑置浪費(fèi)和成本支出。

智算 OS 提供商業(yè)化的算力租賃服務(wù)，可通過(guò)互聯(lián)網(wǎng)出售算力服務(wù)，并配合內(nèi)置商業(yè)化計(jì)費(fèi)系統(tǒng)，對(duì)資源使用情況進(jìn)行精確計(jì)費(fèi)，提供按需計(jì)費(fèi)、包年包月等多樣化計(jì)費(fèi)套餐，幫助企業(yè)快速建成成熟的算力售賣體系，實(shí)現(xiàn)閑置算力資源的最大化價(jià)值輸出。

目前智算 OS 已經(jīng)廣泛應(yīng)用于多個(gè)省市級(jí)智算中心，全棧訓(xùn)練出 2 個(gè) LLM 大模型，具備豐富建設(shè)調(diào)優(yōu)經(jīng)驗(yàn)，為千行百業(yè)提供高效的算力支撐。

消息來(lái)源：浪潮云海