北京2017年10月15日電 /美通社/ -- 在9月底舉辦的GTC China 2017大會(huì)上,浪潮展示了基于Tesla® V100的AI計(jì)算產(chǎn)品GX4 Box,成為現(xiàn)場的“明星”產(chǎn)品。
浪潮GX4并不是一臺(tái)傳統(tǒng)意義上的服務(wù)器產(chǎn)品,而是一臺(tái)2U高度的AI box,其中沒有CPU、內(nèi)存,由4塊GPU計(jì)算加速卡,擴(kuò)展主板其他支撐部件組成。用戶也可部署16塊NVMe SSD硬盤替代計(jì)算加速卡,作為高密度熱數(shù)據(jù)存儲(chǔ)使用。
GX4承襲了浪潮SR-AI整機(jī)柜的設(shè)計(jì)理念,實(shí)現(xiàn)了CPU和GPU的物理解耦,使得計(jì)算加速單元能夠以獨(dú)立模塊的形式進(jìn)行靈活擴(kuò)展。這種設(shè)計(jì)的好處顯而易見,它能在保證高效的GPU跨節(jié)點(diǎn)通信效率的同時(shí),以靈活的擴(kuò)展形式敏捷支持不同級(jí)別的AI模型訓(xùn)練。有效降低IO冗余和系統(tǒng)購買成本,非常適合深度學(xué)習(xí)模型訓(xùn)練、科學(xué)計(jì)算、工程計(jì)算與研究領(lǐng)域的應(yīng)用。
隨著訓(xùn)練樣本量的指數(shù)級(jí)增長以及訓(xùn)練模型的復(fù)雜度不斷提升,AI計(jì)算正面臨的三大困擾。首先,不同應(yīng)用需要不同硬件,帶來采購和運(yùn)維成本提升;其次,多機(jī)集群的延遲更高;第三,資源擴(kuò)展不靈活、成本高。針對(duì)于此,GX4采用了一些創(chuàng)新的設(shè)計(jì)來解決這些困擾AI用戶的難題。
靈活拓?fù)渲С侄囝愋?/b>AI應(yīng)用需求
GPU與CPU計(jì)算資源的解耦和重構(gòu),讓GX4擁有了更加多樣的拓?fù)浣Y(jié)構(gòu),可以通過靈活調(diào)整GPU拓?fù)?,滿足AI云、深度學(xué)習(xí)模型訓(xùn)練和線上推理等各種AI應(yīng)用場景,使計(jì)算架構(gòu)與上層應(yīng)用更匹配,發(fā)揮出AI計(jì)算集群的較大性能。
目前,GX4可支持Balanced、Common、Cascaded三種不同的GPU拓?fù)浣Y(jié)構(gòu)。其中,云服務(wù)的用戶需要做虛擬化,每個(gè)VM需要分配對(duì)應(yīng)的GPU資源,為了保證VM的分配GPU的性能均衡性,需要采用Balance方式保證VM下GPU資源的性能均衡;Common模式和Cascaded模式均適合于深度學(xué)習(xí)模型訓(xùn)練使用,區(qū)別在于Common上行有兩條X16鏈路,Cascade只有1條,但是Cascade P2P更優(yōu)化,以上三種模式可以通過線纜來靈活調(diào)整拓補(bǔ)。
集群延遲降低50%以上
浪潮AI計(jì)算產(chǎn)品GX4能夠?qū)崿F(xiàn)極低的延遲。在傳統(tǒng)的GPU集群中,比如單機(jī)4卡服務(wù)器組成的16卡集群,跨節(jié)點(diǎn)間的GPU通信會(huì)經(jīng)過不同協(xié)議的轉(zhuǎn)換,CPU、PCIe間的UPI或QPI以及網(wǎng)絡(luò)的延遲,至少較早造成2us的數(shù)據(jù)傳輸延遲。而浪潮GX4能夠?qū)崿F(xiàn)16塊GPU之間僅依賴PCI-E進(jìn)行通信,延遲可降低50%以上,并且借助GPU Direct RDMA技術(shù),使跨節(jié)點(diǎn)GPU與GPU實(shí)現(xiàn)直接的數(shù)據(jù)交互,而不再需要經(jīng)由CPU的跳轉(zhuǎn),大幅降低跨節(jié)點(diǎn)GPU間的通信延遲,最終使GPU計(jì)算集群的延遲下降到ns級(jí)。
兼具高性價(jià)比和高擴(kuò)展性
GX4組成的AI計(jì)算集群,由負(fù)責(zé)邏輯運(yùn)算的SA5212M5機(jī)架式服務(wù)器和包含4塊GPU卡的box組成,且單臺(tái)SA5212M5能夠掛接至少4臺(tái)box。當(dāng)業(yè)務(wù)需要更大的AI計(jì)算資源時(shí),可以單獨(dú)采購box來完成高性價(jià)比和高靈活性的擴(kuò)展,較大可實(shí)現(xiàn)單物理集群16卡的資源擴(kuò)展,單精度浮點(diǎn)運(yùn)算能力較高可達(dá)192TFlops,成本可節(jié)省$15,000以上。
資源調(diào)配靈活
浪潮GX4組成的AI集群中,SA5212M5可以調(diào)用一臺(tái)box中的1-4塊GPU,也可以任意掛接1-4臺(tái)box。當(dāng)不同的業(yè)務(wù)部門有不同的配置需求時(shí)候,可以通過軟件定義的形式靈活改變單物理集群的GPU卡數(shù)量,將資源調(diào)度最小顆粒度從服務(wù)器級(jí)升級(jí)為GPU卡級(jí)別。
支持多種數(shù)據(jù)中心環(huán)境
由于沒有傳統(tǒng)服務(wù)器架構(gòu)中的CPU和硬盤等熱源,浪潮GX4可以運(yùn)行在不同的數(shù)據(jù)中心環(huán)境,并且冷風(fēng)直接透過GPU散熱,同樣性能下功耗更低。此外,GX4 740mm的深度和傳統(tǒng)的高密GPU服務(wù)器相比,外形更加小巧,為后部操作和維護(hù)提供足夠的空間,而所有CPU和GPU通過箱子后部的線纜相連,也極大的方便計(jì)算空間的操作和運(yùn)維。
總而言之,浪潮GX4是一款具有很強(qiáng)靈活性和擴(kuò)展性的高性能GPU AI計(jì)算新品,能夠很好的適應(yīng)不同規(guī)模的深度學(xué)習(xí)模型訓(xùn)練和線上推理的需求以及不同類型AI應(yīng)用對(duì)底層架構(gòu)的要求,可謂是隨需擴(kuò)展神通廣大的“金箍棒”產(chǎn)品。