AWS宣布具備EC2超級集群能力的Amazon EC2 P4d實(shí)例正式可用

由NVIDIA A100 Tensor Core GPUs和AWS PB級網(wǎng)絡(luò)支持的下一代加速計算實(shí)例，面向云端的機(jī)器學(xué)習(xí)訓(xùn)練和高性能計算。與上一代實(shí)例相比訓(xùn)練速度提升3倍，成本降低60%。

AWS

2020-11-06 11:44 4432

日前，亞馬遜云服務(wù)(AWS)宣布Amazon Elastic Compute Cloud (Amazon EC2) P4d實(shí)例正式可用。

北京2020年11月6日 /美通社/ -- 日前，亞馬遜云服務(wù)(AWS)宣布Amazon Elastic Compute Cloud (Amazon EC2) P4d實(shí)例正式可用。P4d是下一代GPU驅(qū)動的實(shí)例，與上一代的P3實(shí)例相比，在機(jī)器學(xué)習(xí)訓(xùn)練和高性能計算(HPC)工作負(fù)載場景下，性能提升3倍，成本降低60%，GPU內(nèi)存增加2.5倍。P4d實(shí)例配備8顆NVIDIA A100 Tensor Core GPU，網(wǎng)絡(luò)帶寬達(dá)400 Gbps(比P3實(shí)例多16倍)。通過將P4d實(shí)例與AWS的Elastic Fabric Adapter(EFA)和NVIDIA GPUDirect RDMA(遠(yuǎn)程直接訪問內(nèi)存)技術(shù)一起使用，客戶可以創(chuàng)建具備EC2超級集群功能的P4d實(shí)例。借助EC2超級集群，使用AWS設(shè)計的、與Amazon FSx for Lustre高性能存儲集成的PB級無阻塞網(wǎng)絡(luò)基礎(chǔ)架構(gòu)，客戶可將P4d實(shí)例擴(kuò)展至超過4000多個A100 GPU(相當(dāng)于其它云供應(yīng)商的2倍多)，獲得按需訪問的超算級性能，加速機(jī)器學(xué)習(xí)訓(xùn)練和高性能計算。

如欲開始使用P4d實(shí)例，請訪問：https://aws.amazon.com/ec2/instance-types/p4

數(shù)據(jù)科學(xué)家和工程師們正不斷擴(kuò)展機(jī)器學(xué)習(xí)的邊界，通過創(chuàng)建規(guī)模更大、更復(fù)雜的模型，從而為一系列廣泛用例提供更精準(zhǔn)的預(yù)測，其中包括自動駕駛汽車的感知模型訓(xùn)練、自然語言處理、圖像分類、對象檢測，以及預(yù)測分析。針對大量數(shù)據(jù)訓(xùn)練這些復(fù)雜的模型是一項計算、網(wǎng)絡(luò)和存儲密集型任務(wù)，經(jīng)常耗時數(shù)天或數(shù)周。客戶不僅想減少訓(xùn)練模型的時間，也希望降低用于訓(xùn)練的整體支出?？傮w來說，時間長和成本高限制了客戶訓(xùn)練模型的頻率，降低了機(jī)器學(xué)習(xí)開發(fā)和創(chuàng)新的速度。

P4d實(shí)例增強(qiáng)的性能可將機(jī)器學(xué)習(xí)模型訓(xùn)練時間縮短了3倍(將訓(xùn)練時間從數(shù)天減少到數(shù)小時)，額外的GPU內(nèi)存可幫助客戶訓(xùn)練更大、更復(fù)雜的模型。隨著數(shù)據(jù)變得越來越豐富，客戶訓(xùn)練的模型有數(shù)百萬個甚至數(shù)十億個參數(shù)，例如用于文檔摘要和問題解答的自然語言處理、面向自動駕駛汽車的對象檢測與分類、用于大規(guī)模內(nèi)容審核的圖像分類、電子商務(wù)網(wǎng)站的推薦引擎，以及智能搜索引擎的排名算法，所有這些都需要更多的網(wǎng)絡(luò)吞吐量和GPU內(nèi)存。P4d實(shí)例具有8顆NVIDIA A100 Tensor Core GPU，單臺EC2實(shí)例混合精度性能高達(dá)2.5 petaflops，GPU內(nèi)存網(wǎng)絡(luò)帶寬高達(dá)320GB。P4d實(shí)例是業(yè)界首個提供400Gbps網(wǎng)絡(luò)帶寬的實(shí)例，通過Elastic Fabric Adapter (EFA)和NVIDIA GPUDirect RDMA網(wǎng)絡(luò)接口支持跨服務(wù)器的GPU之間直接通信，從而降低延遲，提高擴(kuò)展效率，有助于消除跨多節(jié)點(diǎn)分布式工作負(fù)載的擴(kuò)展瓶頸。每個P4d實(shí)例還提供96顆Intel Xeon Scalable(Cascade Lake)vCPU，1.1TB的系統(tǒng)內(nèi)存，以及8TB的本地NVMe存儲，以減少單節(jié)點(diǎn)的訓(xùn)練時間。通過將上一代P3實(shí)例的性能提升一倍以上，P4d實(shí)例可將機(jī)器學(xué)習(xí)模型訓(xùn)練的成本降低多達(dá)60%，與昂貴且不靈活的本地系統(tǒng)相比，為客戶帶來更高效的體驗。高性能計算客戶還將受益于P4d實(shí)例增加的處理性能和GPU內(nèi)存，滿足要求苛刻的工作負(fù)載，比如地震分析、藥物發(fā)現(xiàn)、DNA測序、材料科學(xué)、金融和保險風(fēng)險建模。

P4d實(shí)例也構(gòu)建在AWS Nitro 系統(tǒng)之上，后者是AWS自己設(shè)計的硬件和軟件，讓AWS能夠向客戶提供越來越廣泛的EC2實(shí)例和配置選擇，同時提供與裸金屬無差別的性能，快速存儲和聯(lián)網(wǎng)能力，并確保更安全的多租戶。P4d實(shí)例將網(wǎng)絡(luò)功能卸載至專用的Nitro Cards上，加速多個P4d實(shí)例間的數(shù)據(jù)傳輸。Nitro Cards同時支持EFA和GPUDirect，支持GPU間跨服務(wù)器直接通信，實(shí)現(xiàn)P4d實(shí)例的EC2超級集群間更低的延遲表現(xiàn)和更強(qiáng)的伸縮性能。這些由Nitro驅(qū)動的能力讓客戶有可以在EC2超級集群中啟動P4d，按需和可擴(kuò)展地訪問超過4000個GPU，以獲得超算級的性能。

“客戶使用AWS服務(wù)構(gòu)建、訓(xùn)練和部署機(jī)器學(xué)習(xí)應(yīng)用的速度非?？臁Ｅc此同時，我們從客戶那里聽到他們希望以成本更低的方式來訓(xùn)練其龐大的機(jī)器學(xué)習(xí)模型?！盇WS EC2副總裁Dave Brown表示，“現(xiàn)在，通過NVIDIA最新的A100 GPU和PB級網(wǎng)絡(luò)支持的P4d實(shí)例的EC2超級集群，我們讓超算級的性能幾乎適用于所有人。同時與上一代實(shí)例相比，將訓(xùn)練機(jī)器學(xué)習(xí)模型的時間縮短3倍，訓(xùn)練成本降低高達(dá)60%。”

客戶可以使用Amazon Elastic Kubernetes Service (Amazon EKS)或Amazon Elastic Container Service (Amazon ECS)服務(wù)的AWS深度學(xué)習(xí)容器庫，在P4d實(shí)例上運(yùn)行容器化應(yīng)用。要想獲得更加完整的托管體驗，客戶可以通過Amazon SageMaker使用P4d實(shí)例，從而使開發(fā)者和數(shù)據(jù)科學(xué)家能夠快速構(gòu)建、訓(xùn)練和部署機(jī)器學(xué)習(xí)模型。高性能計算客戶可以利用AWS Batch和AWS ParallelCluster，使用P4d實(shí)例幫助高效協(xié)調(diào)任務(wù)和集群。P4d實(shí)例支持所有主要的機(jī)器學(xué)習(xí)框架，包括TensorFlow、PyTorch以及Apache MXNet，客戶可以靈活地選擇最適合其應(yīng)用的框架。P4d實(shí)例現(xiàn)已在美國東部(弗吉尼亞) and 美國西部(俄勒岡)區(qū)域可用，并計劃在其他區(qū)域很快推出。P4d實(shí)例可以按需購買，也可以使用Savings Plan、預(yù)留實(shí)例，或競價型實(shí)例進(jìn)行購買。

豐田研究院(TRI)成立于2015年，致力于為豐田開發(fā)自動駕駛、機(jī)器人和其他人力擴(kuò)充技術(shù)?！癟RI致力于創(chuàng)造讓每個人都可以自由移動的未來?！盩RI基礎(chǔ)設(shè)施工程技術(shù)總監(jiān)Mike Garrison表示，“上一代P3實(shí)例幫助我們將機(jī)器學(xué)習(xí)模型訓(xùn)練時間從數(shù)天減少至數(shù)小時。非常期待使用P4d實(shí)例，其更多的GPU內(nèi)存和更高效的浮點(diǎn)格式可以讓我們的機(jī)器學(xué)習(xí)團(tuán)隊更快速地訓(xùn)練更復(fù)雜的模型。”

消息來源：AWS