北京2018年3月24日電 /美通社/ -- 2018年3月22日,浪潮AI服務器NF5288M5在2018中國IT市場年會暨賽迪生態(tài)伙伴大會上榮獲2017年度創(chuàng)新產(chǎn)品獎。浪潮NF5288M5是目前業(yè)界唯一可在2U空間支持8顆NVlink2.0高速互聯(lián)GPU加速計算的AI服務器,能滿足AI云、深度學習模型訓練和線上推理等各類AI應用場景對計算架構性能、功耗的不同需求。
2017年是人工智能應用元年,從“阿爾法狗”以3比0戰(zhàn)勝了圍棋天才柯潔,到仿真機器人Sophia被授予國籍,人工智能正全面進入人類生活。無人超市、自動駕駛等技術應用正在深刻改變這個世界。以人工智能、大數(shù)據(jù)為代表的新技術不斷應用于工業(yè)、金融、物流、商貿(mào)、能源、教育、農(nóng)業(yè)等行業(yè),AI計算的需求量將呈爆發(fā)式增長。然而當前市場上的AI計算平臺卻普遍面臨著通訊效率低下、平臺架構僵化、計算密度低等問題。
AI計算平臺的瓶頸 -- 效率、彈性和密度
在AI訓練中,通常采用CPU+GPU異構計算架構,CPU和GPU之間需要頻繁的通訊,分擔整個計算任務中不同的部分,而一旦通訊頻次過高,CPU和GPU就需要花費大量的時間進行相互通訊,嚴重影響整個計算架構的效率。
目前市面上成熟的AI框架有十多種,像標準的圖像、語音、語意理解等神經(jīng)模型的數(shù)量非常龐大。不同的AI框架包含了不同的模型和算法,產(chǎn)生不同規(guī)模的訓練數(shù)據(jù),對CPU和GPU計算架構的多樣化需求。
普通的AI訓練通常需要幾十萬個樣本進行十幾萬次訓練迭代,為了保證模型能在有限的時間內(nèi)做到足夠收斂,某些模型甚至需要超過200片GPU卡以AI服務器集群的方式并行,這就需要部署更多的AI服務器,而數(shù)據(jù)中心空間是有限的,更高密度的服務器成為趨勢。
浪潮NF5288M5 -- AI計算加速器
為了提升計算效率、滿足多樣化AI場景需求,浪潮NF5288M5另辟蹊徑,變異構為同構,消除了異構通信帶來計算效率降低的煩惱。在2U空間內(nèi)支持部署8塊NVLink或PCI-E 接口的NVIDIA® Tesla® P100 GPU,可以在不依賴CPU的前提下,實現(xiàn)機內(nèi)點到點通訊,減少了異構通訊的次數(shù);在業(yè)界率先支持NVLink 2.0和最新發(fā)布的NVIDIA® Tesla®系列GPU,可以實現(xiàn)GPU間高達300GB/s的互連帶寬,并提供極低的延遲,讓多塊GPU并行的效率大幅提升超過60%。將GPU同構,把NF5288M5的并行計算效率盡可能推到極限。
浪潮AI服務器NF5288M5可在2U空間內(nèi)支持8顆GPU,在超大規(guī)模AI訓練集群或HPC集群引用時,可以幫助客戶節(jié)省數(shù)據(jù)中心的基礎設施資源,更有利于數(shù)據(jù)中心的空間分配。
浪潮NF5288M5采用PCIe線纜的方式連接CPU和GPU資源,可以靈活調(diào)整CPU的連接帶寬和連接數(shù)量,在應對不同的AI應用時,更好的做到PCIe資源按需分配,彈性的異構平臺,足以支撐多樣化的AI場景。
創(chuàng)新設計應對極限挑戰(zhàn)
浪潮AI服務器NF5288M5在實現(xiàn)性能、靈活性和密度多維度增強的同時,也面臨著互連、供電和散熱設計的三大極限挑戰(zhàn)。如何在一個系統(tǒng)中實現(xiàn)GPU卡的靈活配置,滿足高達3000W的供電需求,并在有限的空間內(nèi)解決散熱,成為了開發(fā)這款產(chǎn)品的三大難題。
有別于業(yè)界異構服務器CPU和GPU緊耦合的互連方式,浪潮NF5288M5采用解耦式設計,參考刀片服務器的設計思路,把組件緊湊的布局到2U空間中,同時確保NVLink?的走線長度、信號都處在較佳狀態(tài),以保證GPU的性能發(fā)揮。
8塊功耗高達300W的GPU,以及服務器內(nèi)其他的計算、存儲和I/O資源,使整機的功耗達到3000W,供電如何走線成為較大的挑戰(zhàn)。NF5288M5借鑒了浪潮在整機柜服務器的供電設計方式,對單服務器內(nèi)部采用無線纜供電設計,減少了供電線纜對空間的占用以及對散熱氣流的影響。
3000W的供電,意味著3000W的峰值發(fā)熱量,6倍于傳統(tǒng)的2U服務器,散熱成為一個繞不過的難題。把低發(fā)熱量組件前置,高發(fā)熱量組件后置,避免局部熱點,讓空氣在服務器的內(nèi)部均衡的升溫,再通過高速風扇將熱量快速帶出服務器,保障了NF5288M5可以和傳統(tǒng)服務器一樣工作在35℃的環(huán)溫下。并且為了支持低PUE數(shù)據(jù)中心,還可以配置氣液混合散熱,甚至可以支持45℃的高環(huán)溫運行。
浪潮NF5288M5作為一款高密度、高性能的AI服務器,無論是在面向人工智能訓練還是HPC應用時,都能為用戶提供極致性能體驗。