Amazon SageMaker AI創(chuàng)新重塑生成式AI與機(jī)器學(xué)習(xí)模型的構(gòu)建與擴(kuò)展

亞馬遜云科技

2024-12-16 12:16 2646

通過Amazon SageMaker HyperPod的三項(xiàng)新功能，以及直接在Amazon SageMaker中整合亞馬遜云科技合作伙伴的熱門AI應(yīng)用產(chǎn)品，亞馬遜云科技幫助客戶消除AI開發(fā)生命周期中無差別的繁重工作，從而更快速、更輕松地構(gòu)建、訓(xùn)練和部署模型

北京2024年12月16日 /美通社/ -- 亞馬遜云科技在2024 re:Invent全球大會(huì)上，宣布推出Amazon SageMaker AI四項(xiàng)創(chuàng)新，助力企業(yè)更快使用熱門的公開模型，最大化訓(xùn)練效率、降低成本，并使用其首選工具加速生成式人工智能（AI）模型的開發(fā)。Amazon SageMaker AI是一項(xiàng)端到端的服務(wù)，數(shù)十萬客戶使用它來構(gòu)建、訓(xùn)練和部署各種用例的AI模型，它提供完全托管的基礎(chǔ)設(shè)施、工具和工作流。

Amazon SageMaker HyperPod新增三項(xiàng)強(qiáng)大功能，幫助客戶更輕松地快速開始訓(xùn)練時(shí)下流行的公開可用模型，通過靈活訓(xùn)練計(jì)劃節(jié)省數(shù)周的模型訓(xùn)練時(shí)間，并最大化計(jì)算資源利用率，將成本降低高達(dá)40%。
現(xiàn)在，客戶可以直接在Amazon SageMaker中輕松安全地發(fā)現(xiàn)、部署和使用來自亞馬遜云科技合作伙伴的完全托管的生成式AI和機(jī)器學(xué)習(xí)（ML）開發(fā)應(yīng)用，例如Comet、Deepchecks、Fiddler AI和Lakera，從而靈活選擇最適合的工具。
Articul8、澳大利亞聯(lián)邦銀行、富達(dá)、Hippocratic AI、Luma AI、NatWest、NinjaTech AI、OpenBabylon、Perplexity、Ping Identity、Salesforce和湯森路透等客戶正在使用Amazon SageMaker的新功能，加速生成式AI模型開發(fā)。

亞馬遜云科技人工智能和機(jī)器學(xué)習(xí)服務(wù)與基礎(chǔ)設(shè)施副總裁Baskar Sridharan博士表示："亞馬遜云科技在七年前推出Amazon SageMaker，以簡(jiǎn)化構(gòu)建、訓(xùn)練和部署AI模型的過程，幫助各種規(guī)模的組織訪問和擴(kuò)展其對(duì)AI和機(jī)器學(xué)習(xí)的使用。隨著生成式AI的興起，Amazon SageMaker不斷快速創(chuàng)新，自2023年以來已經(jīng)推出了超過140項(xiàng)功能，幫助Intuit、Perplexity和Rocket Mortgage等企業(yè)更快地構(gòu)建基礎(chǔ)模型。通過此次發(fā)布，我們將為客戶提供更高性能、更具成本效益的模型開發(fā)基礎(chǔ)設(shè)施，幫助他們加速將生成式AI工作負(fù)載部署到生產(chǎn)環(huán)境中。"

Amazon SageMaker HyperPod：訓(xùn)練生成式AI模型的首選基礎(chǔ)設(shè)施

隨著生成式AI的出現(xiàn)，構(gòu)建、訓(xùn)練和部署機(jī)器學(xué)習(xí)模型的過程變得更加困難，這需要深厚的AI專業(yè)知識(shí)、訪問大量數(shù)據(jù)以及創(chuàng)建和管理大型計(jì)算集群。此外，客戶需要開發(fā)專門的代碼來實(shí)現(xiàn)跨集群分布式訓(xùn)練，持續(xù)檢查和優(yōu)化模型，并手動(dòng)處理硬件故障，同時(shí)盡量控制時(shí)間進(jìn)度和成本。亞馬遜云科技為此推出Amazon SageMaker HyperPod，幫助客戶在數(shù)千個(gè)AI加速器上高效擴(kuò)展生成式AI模型開發(fā)，將訓(xùn)練基礎(chǔ)模型的時(shí)間縮短高達(dá)40%。無論是Writer、Luma AI、Perplexity等領(lǐng)先的初創(chuàng)公司，還是湯森路透、Salesforce等大型企業(yè)，都在利用Amazon SageMaker HyperPod加速模型開發(fā)。亞馬遜還使用Amazon SageMaker HyperPod訓(xùn)練新的Amazon Nova模型，不僅降低了訓(xùn)練成本，提高了訓(xùn)練基礎(chǔ)設(shè)施的性能，還節(jié)省了數(shù)月手動(dòng)設(shè)置和管理集群的時(shí)間。

現(xiàn)在，越來越多的企業(yè)希望微調(diào)熱門的公開可用模型，或訓(xùn)練自己的專用模型，以利用生成式AI改造業(yè)務(wù)和應(yīng)用。Amazon SageMaker HyperPod將持續(xù)創(chuàng)新，幫助客戶更輕松、更快速、更具成本效益地大規(guī)模構(gòu)建、訓(xùn)練和部署這些模型，具體創(chuàng)新包括：

新訓(xùn)練配方幫助客戶更快上手：許多客戶希望基于Llama和Mistral等熱門的公開可用模型，使用內(nèi)部數(shù)據(jù)為特定用例進(jìn)行定制。然而，優(yōu)化訓(xùn)練性能可能需要數(shù)周的反復(fù)測(cè)試，包括嘗試不同的算法、調(diào)整參數(shù)、觀察訓(xùn)練效果、調(diào)試問題和設(shè)定性能基準(zhǔn)。為了幫助客戶在幾分鐘內(nèi)快速入門，Amazon SageMaker HyperPod現(xiàn)在提供30多個(gè)精選的模型訓(xùn)練配方，可適用于時(shí)下熱門的一些公開可用模型，包括Llama 3.2 90B、Llama 3.1 405B和Mistral 8x22B。這些配方極大地簡(jiǎn)化了客戶的入門過程，自動(dòng)加載訓(xùn)練數(shù)據(jù)集、應(yīng)用分布式訓(xùn)練技術(shù)，并配置系統(tǒng)以實(shí)現(xiàn)高效的檢查點(diǎn)管理和基礎(chǔ)設(shè)施故障恢復(fù)。不同技能水平的客戶能夠從一開始就在亞馬遜云科技基礎(chǔ)架構(gòu)上優(yōu)化模型訓(xùn)練的性價(jià)比，省去了數(shù)周的反復(fù)評(píng)估和測(cè)試的時(shí)間?？蛻艨梢酝ㄟ^Amazon SageMaker GitHub存儲(chǔ)庫瀏覽可用的訓(xùn)練配方，根據(jù)定制需求調(diào)整參數(shù)，并在幾分鐘內(nèi)完成部署。此外，客戶只需一行簡(jiǎn)單編輯，即可在基于GPU或Trainium的實(shí)例之間無縫切換，進(jìn)一步優(yōu)化性價(jià)比。

Salesforce的研究人員一直在尋求一種快速啟動(dòng)基礎(chǔ)模型訓(xùn)練和微調(diào)的解決方案，希望能夠在不用過多關(guān)注基礎(chǔ)設(shè)施的情況下，避免為每個(gè)新模型耗費(fèi)數(shù)周時(shí)間進(jìn)行訓(xùn)練堆棧優(yōu)化。通過Amazon SageMaker HyperPod的定制模板，他們現(xiàn)在能夠快速開展基礎(chǔ)模型的原型設(shè)計(jì)。目前，Salesforce的AI研究團(tuán)隊(duì)可以在短短幾分鐘內(nèi)啟動(dòng)各種預(yù)訓(xùn)練和微調(diào)流程，并成功實(shí)現(xiàn)基礎(chǔ)模型的高效運(yùn)營(yíng)。
靈活訓(xùn)練計(jì)劃可輕松滿足訓(xùn)練時(shí)限和預(yù)算要求：盡管基礎(chǔ)設(shè)施創(chuàng)新有助于降低成本并提高訓(xùn)練效率，但客戶仍需規(guī)劃并管理所需計(jì)算資源，以確保在預(yù)算范圍內(nèi)按時(shí)完成訓(xùn)練任務(wù)。因此，亞馬遜云科技為Amazon SageMaker HyperPod推出了靈活訓(xùn)練計(jì)劃?？蛻糁恍栎p松點(diǎn)擊幾下，就能指定預(yù)算、截止日期和所需的最大計(jì)算資源量。Amazon SageMaker HyperPod會(huì)自動(dòng)預(yù)留容量、設(shè)置集群并創(chuàng)建模型訓(xùn)練作業(yè)，幫助團(tuán)隊(duì)節(jié)省數(shù)周的訓(xùn)練時(shí)間，減少客戶在獲取大型計(jì)算集群以完成模型開發(fā)任務(wù)時(shí)的不確定性。如果提議的訓(xùn)練計(jì)劃無法滿足指定的時(shí)間、預(yù)算或計(jì)算要求，Amazon SageMaker HyperPod會(huì)提供替代方案，如延長(zhǎng)日期范圍、增加計(jì)算資源或選擇不同的亞馬遜云科技區(qū)域進(jìn)行訓(xùn)練。一旦計(jì)劃獲批，Amazon SageMaker會(huì)自動(dòng)配置基礎(chǔ)設(shè)施并啟動(dòng)訓(xùn)練作業(yè)。Amazon SageMaker使用 Amazon Elastic Compute Cloud (EC2)容量塊預(yù)留所需的加速計(jì)算實(shí)例，確保訓(xùn)練任務(wù)按時(shí)完成。根據(jù)容量塊的可用時(shí)間，Amazon SageMaker HyperPod通過有效的暫停和恢復(fù)訓(xùn)練作業(yè)，確?？蛻羰冀K擁有按時(shí)完成任務(wù)所需的計(jì)算資源，無需人工干預(yù)。

Hippocratic AI為醫(yī)療保健開發(fā)以安全為重點(diǎn)的大語言模型（LLM）。為了訓(xùn)練多個(gè)模型，Hippocratic AI采用了Amazon SageMaker HyperPod靈活訓(xùn)練計(jì)劃，獲得了按時(shí)完成訓(xùn)練任務(wù)所需的加速計(jì)算資源。這幫助他們將模型訓(xùn)練速度提高了4倍，并更有效地?cái)U(kuò)展其解決方案，以適應(yīng)數(shù)百個(gè)用例。
任務(wù)治理功能最大化加速器利用率：越來越多的企業(yè)為模型訓(xùn)練配置大量加速計(jì)算資源。這些計(jì)算資源昂貴且有限，因此客戶需要一種管理資源使用率的方法，以確保其計(jì)算資源優(yōu)先用于最關(guān)鍵的模型開發(fā)任務(wù)，避免任何浪費(fèi)或利用率不足。如果沒有對(duì)任務(wù)優(yōu)先級(jí)和資源分配的有效控制，一些項(xiàng)目最終會(huì)因資源不足而停滯，而同時(shí)其他項(xiàng)目卻資源利用率不足。這給管理員帶來了巨大負(fù)擔(dān)，他們必須不斷重新規(guī)劃資源分配，而數(shù)據(jù)科學(xué)家則難以取得進(jìn)展。這不僅阻礙了企業(yè)將AI創(chuàng)新快速推向市場(chǎng)，還可能導(dǎo)致成本超支。通過Amazon SageMaker HyperPod任務(wù)治理功能，客戶可以在模型訓(xùn)練、微調(diào)和推理過程中最大化加速器的利用率，將模型開發(fā)成本降低最多 40%。只需點(diǎn)擊幾下，客戶就可以輕松為不同任務(wù)定義優(yōu)先級(jí)，并為每個(gè)團(tuán)隊(duì)或項(xiàng)目可以使用的計(jì)算資源設(shè)置限制。一旦客戶在不同團(tuán)隊(duì)和項(xiàng)目之間設(shè)置了限制，Amazon SageMaker HyperPod將分配相關(guān)資源，自動(dòng)管理任務(wù)隊(duì)列以確保最關(guān)鍵的工作優(yōu)先進(jìn)行。例如，如果客戶緊急需要更多計(jì)算資源來支持面向客戶的推理任務(wù)，但所有計(jì)算資源都已被占用，Amazon SageMaker HyperPod會(huì)自動(dòng)釋放未充分利用的資源或非緊急任務(wù)的資源，以確保緊急推理任務(wù)獲得所需資源。在這種情況下，Amazon SageMaker HyperPod會(huì)自動(dòng)暫停非緊急任務(wù)，保存檢查點(diǎn)以保證已完成的工作完好無損，并在更多資源可用時(shí)從最后保存的檢查點(diǎn)恢復(fù)任務(wù)，確?？蛻糇畲蠡?jì)算資源的利用。

Articul8 AI是一家快速成長(zhǎng)的初創(chuàng)企業(yè)，致力于幫助企業(yè)構(gòu)建自己的生成式AI應(yīng)用產(chǎn)品，因此需要不斷優(yōu)化計(jì)算環(huán)境，以盡可能高效地分配資源。通過使用Amazon SageMaker HyperPod中的新任務(wù)治理功能，該公司的GPU利用率有了顯著提高，減少了空閑時(shí)間，并加速了端到端模型開發(fā)。自動(dòng)將資源轉(zhuǎn)移到高優(yōu)先級(jí)任務(wù)的能力提高了團(tuán)隊(duì)的生產(chǎn)力，使他們能夠更快地推出生成式AI創(chuàng)新成果。

在Amazon SageMaker中使用亞馬遜云科技合作伙伴的熱門AI應(yīng)用產(chǎn)品，加速模型開發(fā)和部署

許多客戶在使用Amazon SageMaker AI的同時(shí)，也在使用業(yè)界一流的生成式AI和機(jī)器學(xué)習(xí)模型開發(fā)工具來執(zhí)行專業(yè)任務(wù)，如跟蹤和管理實(shí)驗(yàn)、評(píng)估模型質(zhì)量、監(jiān)控性能和保護(hù)AI應(yīng)用產(chǎn)品。然而，將熱門的AI應(yīng)用產(chǎn)品集成到團(tuán)隊(duì)的工作流程中是一個(gè)耗時(shí)的多步驟過程。這包括尋找合適的解決方案、執(zhí)行安全和合規(guī)性評(píng)估、監(jiān)控跨多個(gè)工具的數(shù)據(jù)訪問、配置和管理必要的基礎(chǔ)設(shè)施、構(gòu)建數(shù)據(jù)集成以及驗(yàn)證是否符合治理要求?，F(xiàn)在，亞馬遜云科技幫助客戶更輕松地將專業(yè)AI應(yīng)用產(chǎn)品的強(qiáng)大功能與Amazon SageMaker AI的托管能力和安全性結(jié)合起來。這項(xiàng)新功能讓客戶能夠直接在Amazon SageMaker中輕松發(fā)現(xiàn)、部署和使用來自領(lǐng)先合作伙伴（如Comet、Deepchecks、Fiddler和Lakera Guard）的最佳生成式AI和機(jī)器學(xué)習(xí)開發(fā)應(yīng)用，從而消除其中的阻礙繁重的工作。

Amazon SageMaker是首個(gè)為一系列生成式AI和機(jī)器學(xué)習(xí)開發(fā)任務(wù)提供精選的、完全托管且安全的合作伙伴應(yīng)用集的服務(wù)。這為客戶構(gòu)建、訓(xùn)練和部署模型提供了更大的靈活性和控制權(quán)，同時(shí)將AI應(yīng)用產(chǎn)品的上線時(shí)間從數(shù)月縮短到數(shù)周。每個(gè)合作伙伴應(yīng)用都由Amazon SageMaker AI完全托管，因此客戶不必?fù)?dān)心設(shè)置應(yīng)用或持續(xù)監(jiān)控以確保有足夠的容量。通過Amazon SageMaker可直接訪問這些應(yīng)用，客戶無需將數(shù)據(jù)從安全的亞馬遜云科技環(huán)境中移出，同時(shí)可以減少在不同界面之間切換的時(shí)間?？蛻糁恍铻g覽Amazon SageMaker合作伙伴AI應(yīng)用產(chǎn)品目錄，了解他們想要使用的應(yīng)用的功能、用戶體驗(yàn)和定價(jià)。然后，他們可以輕松選擇和部署應(yīng)用，并使用Amazon Identity and Access Management（Amazon IAM）管理整個(gè)團(tuán)隊(duì)的訪問權(quán)限。

Amazon SageMaker在Ping Identity自研的AI和機(jī)器學(xué)習(xí)基礎(chǔ)設(shè)施的開發(fā)和運(yùn)營(yíng)中也發(fā)揮著關(guān)鍵作用。借助Amazon SageMaker中的合作伙伴AI應(yīng)用產(chǎn)品，Ping Identity將能夠通過私有、完全托管的服務(wù)，為其客戶提供更快速、更高效的機(jī)器學(xué)習(xí)驅(qū)動(dòng)的功能，同時(shí)滿足嚴(yán)格的安全和隱私要求，并減少運(yùn)營(yíng)開銷。

Amazon SageMaker全部創(chuàng)新技術(shù)現(xiàn)已全面可用。

消息來源：亞馬遜云科技