解析浪潮AI計算產(chǎn)品GX4：性能強大，隨需擴展

浪潮集團

2017-10-15 12:00 6699

在9月底舉辦的GTC China 2017大會上，浪潮展示了基于Tesla? V100的AI計算產(chǎn)品GX4 Box，成為現(xiàn)場的“明星”產(chǎn)品。

北京2017年10月15日電 /美通社/ -- 在9月底舉辦的GTC China 2017大會上，浪潮展示了基于Tesla® V100的AI計算產(chǎn)品GX4 Box，成為現(xiàn)場的“明星”產(chǎn)品。

浪潮GX4并不是一臺傳統(tǒng)意義上的服務(wù)器產(chǎn)品，而是一臺2U高度的AI box，其中沒有CPU、內(nèi)存，由4塊GPU計算加速卡，擴展主板其他支撐部件組成。用戶也可部署16塊NVMe SSD硬盤替代計算加速卡，作為高密度熱數(shù)據(jù)存儲使用。

GX4承襲了浪潮SR-AI整機柜的設(shè)計理念，實現(xiàn)了CPU和GPU的物理解耦，使得計算加速單元能夠以獨立模塊的形式進行靈活擴展。這種設(shè)計的好處顯而易見，它能在保證高效的GPU跨節(jié)點通信效率的同時，以靈活的擴展形式敏捷支持不同級別的AI模型訓(xùn)練。有效降低IO冗余和系統(tǒng)購買成本，非常適合深度學(xué)習(xí)模型訓(xùn)練、科學(xué)計算、工程計算與研究領(lǐng)域的應(yīng)用。

隨著訓(xùn)練樣本量的指數(shù)級增長以及訓(xùn)練模型的復(fù)雜度不斷提升，AI計算正面臨的三大困擾。首先，不同應(yīng)用需要不同硬件，帶來采購和運維成本提升；其次，多機集群的延遲更高；第三，資源擴展不靈活、成本高。針對于此，GX4采用了一些創(chuàng)新的設(shè)計來解決這些困擾AI用戶的難題。

靈活拓撲支持多類型AI應(yīng)用需求

GPU與CPU計算資源的解耦和重構(gòu)，讓GX4擁有了更加多樣的拓撲結(jié)構(gòu)，可以通過靈活調(diào)整GPU拓撲，滿足AI云、深度學(xué)習(xí)模型訓(xùn)練和線上推理等各種AI應(yīng)用場景，使計算架構(gòu)與上層應(yīng)用更匹配，發(fā)揮出AI計算集群的較大性能。

目前，GX4可支持Balanced、Common、Cascaded三種不同的GPU拓撲結(jié)構(gòu)。其中，云服務(wù)的用戶需要做虛擬化，每個VM需要分配對應(yīng)的GPU資源，為了保證VM的分配GPU的性能均衡性，需要采用Balance方式保證VM下GPU資源的性能均衡；Common模式和Cascaded模式均適合于深度學(xué)習(xí)模型訓(xùn)練使用，區(qū)別在于Common上行有兩條X16鏈路，Cascade只有1條，但是Cascade P2P更優(yōu)化，以上三種模式可以通過線纜來靈活調(diào)整拓補。

集群延遲降低50%以上

浪潮AI計算產(chǎn)品GX4能夠?qū)崿F(xiàn)極低的延遲。在傳統(tǒng)的GPU集群中，比如單機4卡服務(wù)器組成的16卡集群，跨節(jié)點間的GPU通信會經(jīng)過不同協(xié)議的轉(zhuǎn)換，CPU、PCIe間的UPI或QPI以及網(wǎng)絡(luò)的延遲，至少較早造成2us的數(shù)據(jù)傳輸延遲。而浪潮GX4能夠?qū)崿F(xiàn)16塊GPU之間僅依賴PCI-E進行通信，延遲可降低50%以上，并且借助GPU Direct RDMA技術(shù)，使跨節(jié)點GPU與GPU實現(xiàn)直接的數(shù)據(jù)交互，而不再需要經(jīng)由CPU的跳轉(zhuǎn)，大幅降低跨節(jié)點GPU間的通信延遲，最終使GPU計算集群的延遲下降到ns級。

兼具高性價比和高擴展性

GX4組成的AI計算集群，由負責邏輯運算的SA5212M5機架式服務(wù)器和包含4塊GPU卡的box組成，且單臺SA5212M5能夠掛接至少4臺box。當業(yè)務(wù)需要更大的AI計算資源時，可以單獨采購box來完成高性價比和高靈活性的擴展，較大可實現(xiàn)單物理集群16卡的資源擴展，單精度浮點運算能力較高可達192TFlops，成本可節(jié)省$15,000以上。

資源調(diào)配靈活

浪潮GX4組成的AI集群中，SA5212M5可以調(diào)用一臺box中的1-4塊GPU，也可以任意掛接1-4臺box。當不同的業(yè)務(wù)部門有不同的配置需求時候，可以通過軟件定義的形式靈活改變單物理集群的GPU卡數(shù)量，將資源調(diào)度最小顆粒度從服務(wù)器級升級為GPU卡級別。

支持多種數(shù)據(jù)中心環(huán)境

由于沒有傳統(tǒng)服務(wù)器架構(gòu)中的CPU和硬盤等熱源，浪潮GX4可以運行在不同的數(shù)據(jù)中心環(huán)境，并且冷風直接透過GPU散熱，同樣性能下功耗更低。此外，GX4 740mm的深度和傳統(tǒng)的高密GPU服務(wù)器相比，外形更加小巧，為后部操作和維護提供足夠的空間，而所有CPU和GPU通過箱子后部的線纜相連，也極大的方便計算空間的操作和運維。

總而言之，浪潮GX4是一款具有很強靈活性和擴展性的高性能GPU AI計算新品，能夠很好的適應(yīng)不同規(guī)模的深度學(xué)習(xí)模型訓(xùn)練和線上推理的需求以及不同類型AI應(yīng)用對底層架構(gòu)的要求，可謂是隨需擴展神通廣大的“金箍棒”產(chǎn)品。

消息來源：浪潮集團