亞馬遜云科技推出Amazon DevOps Guru自動化運營服務(wù)

基于機器學(xué)習(xí)的自動化運營服務(wù)，為提高應(yīng)用程序可用性提供定制化建議

AWS

2021-05-21 12:37 4428

近日，亞馬遜云科技宣布Amazon DevOps Guru正式可用。這是一項完全托管的運營服務(wù)，使用機器學(xué)習(xí)技術(shù)自動檢測運營問題，并對具體的修復(fù)措施給出建議，讓開發(fā)者更輕松地提高應(yīng)用的可用性。

北京2021年5月21日 /美通社/ -- 近日，亞馬遜云科技宣布Amazon DevOps Guru正式可用。這是一項完全托管的運營服務(wù)，使用機器學(xué)習(xí)技術(shù)自動檢測運營問題，并對具體的修復(fù)措施給出建議，讓開發(fā)者更輕松地提高應(yīng)用的可用性。憑借亞馬遜電商Amazon.com和亞馬遜云科技多年來卓越的運營經(jīng)驗，Amazon DevOps Guru采用機器學(xué)習(xí)技術(shù)自動分析數(shù)據(jù)，如應(yīng)用程序指標(biāo)、日志、事件，并跟蹤偏離正常運營模式的行為。當(dāng)Amazon DevOps Guru發(fā)現(xiàn)可能導(dǎo)致停機或服務(wù)中斷的異常應(yīng)用程序行為時，它會向開發(fā)人員發(fā)出告警通知并提供問題詳細(xì)信息，幫助他們快速了解問題的潛在影響和可能的原因，并提供修復(fù)的具體建議。開發(fā)人員可以使用Amazon DevOps Guru提供的補救建議，減少解決問題的時間，并提高應(yīng)用程序的可用性 -- 所有這些都不需要手動設(shè)置或機器學(xué)習(xí)專業(yè)知識。Amazon DevOps Guru無需預(yù)付費用，客戶只需為Amazon DevOps Guru分析的數(shù)據(jù)付費。欲開始使用Amazon DevOps Guru，請訪問：aws.amazon.com/devops-guru

隨著越來越多的組織轉(zhuǎn)向基于云的應(yīng)用程序部署和微服務(wù)架構(gòu)來擴展他們的業(yè)務(wù)，分布式應(yīng)用程序變得越來越普遍，開發(fā)人員需要更多的自動化實踐來維護應(yīng)用程序的可用性，并減少用于檢測、調(diào)試和解決運營問題所耗費的時間和精力。由于代碼錯誤或配置更改、不均衡的容器集群或資源耗盡(例如CPU、內(nèi)存、磁盤等)等引起的應(yīng)用程序宕機事件會導(dǎo)致糟糕的客戶體驗和收入損失。公司投入了大量的開發(fā)人員資源、時間和金錢來部署多種監(jiān)控工具，而這些工具通常需要單獨管理，且必須開發(fā)和維護針對常見問題的自定義警報，如負(fù)載均衡錯誤的峰值或應(yīng)用程序請求率的下降。設(shè)置閾值來識別和警告應(yīng)用程序資源的異常行為通常需要手動設(shè)置，并且要求閾值必須隨著應(yīng)用程序使用的變化而不斷更新（例如，在促銷期間出現(xiàn)異常大量的請求）。如果閾值設(shè)置得太高，開發(fā)人員只有在運營性能受到嚴(yán)重影響時才會看到警報。而閾值設(shè)置得太低時，告警次數(shù)過于頻繁，導(dǎo)致開發(fā)者的判斷受到影響并容易忽視這些報警。即使開發(fā)人員收到了潛在運營問題的警告，確定根本原因的過程仍然是困難的。使用現(xiàn)有的工具，開發(fā)人員常常很難從圖表和警報中找出運營問題的根本原因，即使找到根本原因，也常常缺乏正確的信息來修復(fù)它。每次故障排除嘗試都是一次冷啟動，團隊必須花費數(shù)小時或數(shù)天時間來識別問題，耗時且乏味，拖慢解決運營故障的進程，并可能延長應(yīng)用程序中斷的時間。

Amazon DevOps Guru的機器學(xué)習(xí)模型借鑒Amazon.com 20多年來在構(gòu)建、擴展和維護高可用的應(yīng)用程序方面的運營經(jīng)驗。該服務(wù)能夠自動檢測運營問題（例如，缺少或配置錯誤的警報、資源耗盡的早期預(yù)警、可能導(dǎo)致宕機的配置更改等），提供涉及資源和相關(guān)事件的情境，建議采取補救措施。用戶只需在Amazon DevOps Guru控制臺點擊幾下，就會自動從其亞馬遜云科技應(yīng)用程序中獲取歷史應(yīng)用程序和基礎(chǔ)設(shè)施指標(biāo)（如延遲、錯誤率和資源請求率），并進行分析，建立正常的運營邊界。Amazon DevOps Guru使用一個預(yù)先訓(xùn)練的機器學(xué)習(xí)模型來識別與正常操作模式偏離的行為（例如，不足的計算能力、數(shù)據(jù)庫I/O利用率、內(nèi)存泄漏等）。當(dāng)Amazon DevOps Guru分析系統(tǒng)和應(yīng)用數(shù)據(jù)自動檢測異常時，它還將這些數(shù)據(jù)分組到運營洞察中，包括異常指標(biāo)、應(yīng)用程序隨時間變化的行為可視化，以及補救措施建議 -- 所有這些都可以在Amazon DevOps Guru控制臺輕松查看。Amazon DevOps Guru還將相關(guān)的應(yīng)用程序和基礎(chǔ)設(shè)施指標(biāo)（例如web應(yīng)用程序延遲峰值、磁盤空間耗盡、糟糕的代碼部署等）關(guān)聯(lián)和分組，以減少冗余警報，幫助用戶關(guān)注嚴(yán)重的問題?？蛻艨梢酝ㄟ^Amazon DevOps Guru控制臺的儀表板查看配置更改歷史和部署事件，以及系統(tǒng)和用戶活動，從而生成一個可能導(dǎo)致運營問題的優(yōu)先級列表。為了幫助客戶快速解決問題，Amazon DevOps Guru提供含有補救步驟的智能建議，并與Amazon Systems Manager集成，用于運行手冊和協(xié)作工具，使客戶能夠更有效地維護應(yīng)用程序和管理其部署的基礎(chǔ)設(shè)施。例如，當(dāng)使用Amazon Relational Database Service (RDS)的分析應(yīng)用程序開始顯示出延遲性能退化時，Amazon DevOps Guru將通過自動分析跨應(yīng)用程序堆棧的相關(guān)指標(biāo)來檢測變化，確定潛在的根本原因（例如并發(fā)計算實例寫入RDS的數(shù)量增加），并提供解決問題的建議(例如增加RDS的容量和IOPS存儲以處理更高的負(fù)載)。

“客戶希望亞馬遜云科技能夠提供更多服務(wù)，將我們數(shù)十年來不斷改善Amazon.com應(yīng)用可用性方面的卓越經(jīng)驗為他們所用?！眮嗰R遜云科技全球機器學(xué)習(xí)副總裁Swami Sivasubramanian表示，“Amazon DevOps Guru正是發(fā)揮我們的專長，構(gòu)建專門的機器學(xué)習(xí)模型，可以在運營問題影響客戶之前就檢測、排除故障并預(yù)防它們，而不是在每次出現(xiàn)問題后開始處理。Amazon DevOps Guru可以即刻為客戶帶來好處，獲得我們運行Amazon.com過程中積累的運營最佳實踐，我們將Amazon DevOps Guru設(shè)計得簡單易用，對于每個亞馬遜云科技的客戶來說，都可以輕松地啟用該服務(wù)。”

客戶只需在亞馬遜云科技管理控制臺中點擊幾下，就可以使用Amazon DevOps Guru在幾分鐘內(nèi)開始分析帳戶和應(yīng)用程序活動，并提供運營洞察。Amazon DevOps Guru為客戶提供單控制臺體驗，通過匯總多個來源（例如Amazon CloudTrail, Amazon CloudWatch, Amazon Config, Amazon CloudFormation, Amazon X-Ray）的相關(guān)數(shù)據(jù)并可視化，免去在多個工具之間切換?？蛻暨€可以在Amazon DevOps Guru控制臺中查看相關(guān)的運營事件和上下文數(shù)據(jù)，并通過Amazon SNS接收警報。此外，Amazon DevOps Guru通過Amazon SDK支持API端點，使得亞馬遜合作伙伴網(wǎng)絡(luò)成員和客戶可以輕松地將Amazon DevOps Guru集成到他們現(xiàn)有的解決方案中，用于故障單分級、尋呼和針對高嚴(yán)重性問題的工程師自動通知。PagerDuty和Atlassian是亞馬遜云科技的合作伙伴，已經(jīng)將Amazon DevOps Guru集成到他們的運營監(jiān)控和事件管理平臺中，使用該解決方案的客戶可以從Amazon DevOps Guru提供的運營見解中獲益。Amazon DevOps Guru現(xiàn)已在美國東部(弗吉尼亞北部)、美國東部(俄亥俄)、美國西部(俄勒岡)、亞太地區(qū)(新加坡)、亞太地區(qū)(悉尼)、亞太地區(qū)(東京)、歐洲(法蘭克福)、歐洲(愛爾蘭)和歐洲(斯德哥爾摩)區(qū)域正式推出，其他區(qū)域也將很快推出。

與Amazon CodeGuru服務(wù)一起，Amazon DevOps Guru為客戶帶來了面向其運營數(shù)據(jù)的機器學(xué)習(xí)自動化優(yōu)勢，讓開發(fā)人員可以更輕松地提高應(yīng)用可用性和可靠性。Amazon CodeGuru是一個由機器學(xué)習(xí)驅(qū)動的開發(fā)工具，為提高代碼質(zhì)量和識別應(yīng)用程序最昂貴的代碼行提供智能建議。

Atlassian產(chǎn)品為超過19.4萬家公司的團隊服務(wù)以簡化團隊合作，幫助他們組織、討論和完成工作?！昂芨吲d看到我們的客戶正在使用Amazon DevOps Guru來管理他們云應(yīng)用的運營性能?！監(jiān)psgenie產(chǎn)品主管Emel Dogrusoz表示，“通過我們新的Opsgenie和Jira Service Management集成，當(dāng)Amazon DevOps Guru發(fā)現(xiàn)一個潛在問題時會立即通知正確的團隊，并使用機器學(xué)習(xí)技術(shù)根據(jù)事件的嚴(yán)重程度對其進行優(yōu)先級排序。這種集成確保團隊都能快速響應(yīng)，使用機器學(xué)習(xí)支持的建議解決問題，從每一個事件中獲取經(jīng)驗?！?/p>

Fidelity Investments幫助超過3500萬人對他們最重要的財務(wù)目標(biāo)更具信心，管理超過22000家企業(yè)的員工福利計劃，并通過創(chuàng)新的投資和技術(shù)解決方案支持超過13500家金融機構(gòu)發(fā)展業(yè)務(wù)?！霸贔idelity，我們正利用云技術(shù)來增強我們的全球客戶體驗，并提高應(yīng)用程序的彈性。”Fidelity Investments公共云服務(wù)高級副總裁Keith Bliard表示，“像Amazon DevOps Guru這樣的AIOps工具幫助我們?yōu)榭蛻籼峁└咝У捏w驗和更有彈性的平臺?！?/p>

PagerDuty, Inc.( NYSE:PD)是數(shù)字運營管理領(lǐng)域的領(lǐng)導(dǎo)者?！癙agerDuty很高興能進一步深化與亞馬遜云科技的合作，與Amazon DevOps Guru進行新的集成。PagerDuty的數(shù)字運營管理平臺是為了推動DevOps文化的轉(zhuǎn)變而建立的，我們很高興能通過這次集成持續(xù)推進這一承諾?！盤agerDuty產(chǎn)品高級副總裁Jonathan Rende表示，“利用Amazon DevOps Guru的機器學(xué)習(xí)能力，PagerDuty為我們的客戶提供了更實時的‘信號->行動’能力。通過Amazon DevOps Guru，PagerDuty獲取Amazon SNS，亞馬遜云科技客戶可以在運營問題成為影響客戶的停機事件之前采取實時行動?！?/p>

Thomson Reuters是全球最受信賴的資訊提供商之一，幫助專業(yè)人士做出自信的決定，更好地經(jīng)營企業(yè)?！翱蛻趔w驗和滿意度是我們的首要任務(wù)。當(dāng)接收到多個警報和監(jiān)測事件源時，從噪聲中篩選識別客戶影響事件是一項挑戰(zhàn)和耗時的工作?！盩homson Reuters站點可靠性和云部門總監(jiān)Steve Thoennes表示，“有了Amazon DevOps Guru，我們能夠利用其機器學(xué)習(xí)驅(qū)動的洞察力，為行動提供清晰的路徑，以減少甚至在許多情況下消除問題對我們客戶的影響。Amazon DevOps Guru與PagerDuty的集成也提供了一條直接路徑，可以在正確的時間將建議快速有效地傳遞給正確的人。我們預(yù)計這將顯著減少運營停機時間。”

消息來源：AWS