上海2018年7月31日電 /美通社/ -- 如同生物會(huì)適應(yīng)環(huán)境而進(jìn)化,軟件產(chǎn)品也會(huì)不斷更新迭代,變得更強(qiáng)大、更智能、更好用。在保障業(yè)務(wù)系統(tǒng)一如既往穩(wěn)健運(yùn)行的同時(shí),天旦發(fā)布 BPC4.3版本,帶來升級(jí)版的“云圖智能告警”,更準(zhǔn)、更快、更易于部署的告警功能,讓IT運(yùn)維從“自動(dòng)化”轉(zhuǎn)變?yōu)椤爸悄芑薄?/p>
天旦BPC + 云圖智能告警,構(gòu)建數(shù)據(jù)中心的第一感知網(wǎng)絡(luò)
“告警功能”始終是 BPC 保持行業(yè)領(lǐng)先、深受用戶喜愛的核心功能。這一次,我們圍繞告警智能化和性能升級(jí)進(jìn)行了一系列大跨步的改進(jìn)和增強(qiáng),旨在幫助運(yùn)維部門能夠更加高效、敏捷地完成工作,實(shí)現(xiàn)業(yè)務(wù)系統(tǒng)可用性“五個(gè)九”(99.999%)。遙想氣象衛(wèi)星的誕生讓人們擁有了對(duì)天氣的精準(zhǔn)預(yù)測(cè)能力,升級(jí)后的 BPC4.3以全新告警組件“云圖智能告警”為中心,構(gòu)建起數(shù)據(jù)中心的第一感知網(wǎng)絡(luò)。
產(chǎn)品化智能告警,運(yùn)維人員的“筋斗云”
在以前,告警配置是任何性能監(jiān)控系統(tǒng)部署時(shí)相當(dāng)耗費(fèi)時(shí)間和人力資源的環(huán)節(jié)。要了解某項(xiàng)業(yè)務(wù)的性能狀態(tài),需要監(jiān)控哪些數(shù)據(jù)字段?這些字段又要以怎樣的標(biāo)準(zhǔn)作為性能指標(biāo)?這就像只是熱個(gè)便當(dāng),卻必須綜合飯盒材質(zhì)、食物種類去考慮火力大小、加熱時(shí)長一樣。
在“云圖智能告警”組件中,告警配置有了徹底的進(jìn)化。將不同業(yè)務(wù)系統(tǒng)、不同應(yīng)用組件的監(jiān)控需求進(jìn)行梳理后,BPC4.3將告警場景歸納為五種類型,幾乎覆蓋了常見的高頻故障場景。五大場景化告警并非簡單的配置模板,而是根據(jù)行業(yè)Top客戶的實(shí)際部署方案與告警案例分析總結(jié)出的一整套智能告警算法,針對(duì)各種監(jiān)控場景實(shí)現(xiàn)智能、全量、高精度的把控。
有了“云圖智能告警”,告警配置如同熱便當(dāng)時(shí)只需按下“一鍵加熱”一樣簡單智能,讓運(yùn)維人員工作效率大大提升,讓部門迅速完成周全嚴(yán)謹(jǐn)又省時(shí)省力的監(jiān)控部署。
多維度告警分級(jí),告別事無巨細(xì)的蕓蕓告警
在告警的事件管理上,每個(gè)企業(yè)都有自己的處理流程和速度標(biāo)準(zhǔn),以銀行業(yè)為例,存在著告警事件發(fā)生后5分鐘內(nèi)響應(yīng)的硬性要求。得益于獨(dú)特的網(wǎng)絡(luò)旁路技術(shù),BPC 可以做到實(shí)時(shí)監(jiān)控告警,但考慮到絕大多數(shù)企業(yè)的運(yùn)維需求,BPC 默認(rèn)將告警刷新頻率設(shè)置為分鐘級(jí),有更高敏感度需求的企業(yè),則可以通過BPC提供的全量實(shí)時(shí)“互聯(lián)數(shù)據(jù)”自行構(gòu)建使用場景。
天旦產(chǎn)品經(jīng)理們?cè)诋a(chǎn)品設(shè)計(jì)之初的用戶調(diào)研中發(fā)現(xiàn),分鐘級(jí)對(duì)于絕大部分事件完全滿足,但是對(duì)于一些比較敏感的核心業(yè)務(wù),企業(yè)還是希望達(dá)到更為實(shí)時(shí)的監(jiān)控。了解到這一點(diǎn),BPC4.3大力革新告警規(guī)則的結(jié)構(gòu),將單一規(guī)則升級(jí)為多個(gè)維度、多個(gè)層級(jí)的復(fù)合型規(guī)則。打個(gè)比方:
通過劃分告警的不同級(jí)別,BPC4.3“云圖智能告警”實(shí)現(xiàn)了對(duì)事件按照輕重緩急進(jìn)行判斷和匹配不同處理規(guī)則,既保證了告警的準(zhǔn)確及時(shí),又避免了告警系統(tǒng)遇事就喊“報(bào)告大王”,實(shí)現(xiàn)了運(yùn)維作業(yè)的精細(xì)化管理。
一鍵分析故障域,排障的智能“金剛鉆”
在過去,運(yùn)維人員通過天旦BPC排障需要這樣操作:
Step1獲得告警信息
Step2進(jìn)入歷史視圖查看指標(biāo)變化
Step3在BPC中逐層鉆取,深入分析
Step4最終確認(rèn)故障原因并處理
而在BPC4.3的“云圖智能告警”僅需2步:
Step1告警觸發(fā),告警通知同時(shí)呈現(xiàn)相應(yīng)節(jié)點(diǎn)的指標(biāo)變化(成功率、響應(yīng)時(shí)間等)
Step2 一鍵完成故障域的自動(dòng)下鉆分析,呈現(xiàn)最終的故障原因和故障范圍
全新“云圖智能告警”組件大大縮短事件處理流程,讓IT運(yùn)維從“自動(dòng)化”轉(zhuǎn)變?yōu)椤爸悄芑?,提高運(yùn)維部門響應(yīng)速度,讓告警排障緊跟IT運(yùn)維的發(fā)展趨勢(shì)。
AIOps:智能化是運(yùn)維的未來
將天旦評(píng)為“全球最酷廠商”的 Gartner 在2016年提出了 AIOps 的概念(Algorithmic IT Operations,算法驅(qū)動(dòng)的IT運(yùn)維),并且預(yù)測(cè):到2020年,全球50%以上的企業(yè)將應(yīng)用 AIOps。而實(shí)現(xiàn)運(yùn)維智能化則是天旦產(chǎn)品自始至終貫徹的前進(jìn)方向,最終也形成了 BPC 領(lǐng)先行業(yè)的巨大優(yōu)勢(shì):
智能發(fā)現(xiàn):5年自研專利解碼引擎,自動(dòng)發(fā)現(xiàn)應(yīng)用訪問關(guān)系,自動(dòng)解析業(yè)務(wù)數(shù)據(jù)內(nèi)容。
智能梳理:服務(wù)路徑圖發(fā)現(xiàn),自動(dòng)梳理業(yè)務(wù)訪問關(guān)系,呈現(xiàn)以服務(wù)為中心的拓?fù)湟晥D。
智能告警:五大場景,識(shí)別高頻業(yè)務(wù)故障,專有告警功能,精準(zhǔn)捕捉并刻畫故障異常。
智能預(yù)測(cè):實(shí)時(shí)監(jiān)控,智能算法自動(dòng)根據(jù)歷史表現(xiàn)繪制基線,直觀發(fā)現(xiàn)變化趨勢(shì)。
智能排障:自動(dòng)定位故障節(jié)點(diǎn),一鍵解析造成故障發(fā)生的維度和維度值。
通過總結(jié)大量現(xiàn)有客戶部署情況和告警案例所得出的場景化告警模型,BPC4.3使得運(yùn)維人員只需簡單配置全面覆蓋的告警規(guī)則,結(jié)合自動(dòng)故障定位和自動(dòng)故障域分析,加速故障發(fā)現(xiàn)和分析流程,縮短故障恢復(fù)時(shí)間。進(jìn)化永遠(yuǎn)沒有盡頭,接下來 BPC 也將通過引入更多自動(dòng)化組件及智能算法,最終實(shí)現(xiàn)全智能式的故障發(fā)現(xiàn)、分析、管理。
走出“有多少人工,就有多少智能”的怪圈
人工智能算法的成長離不開對(duì)海量案例的分析和學(xué)習(xí),而現(xiàn)有的諸多所謂“AI告警”定制化方案受限于遠(yuǎn)遠(yuǎn)不足的真實(shí)情境下實(shí)操案例,需要在部署后耗費(fèi)繁重人工進(jìn)行后期調(diào)整維護(hù),成為無法預(yù)估的人力和工時(shí)黑洞,而且算法效果極不穩(wěn)定。
在這一點(diǎn)上,天旦作為企業(yè)級(jí)軟件產(chǎn)品公司的優(yōu)勢(shì)得以凸顯:通過提供全行業(yè)通用性的產(chǎn)品而非定制化的解決方案,使得智能算法真正成熟產(chǎn)品化,產(chǎn)品用戶共享行業(yè)經(jīng)驗(yàn)、共同受益;而國內(nèi)銀行Top150中120+家的廣泛覆蓋與橫跨銀行、證券、電信運(yùn)營商、大型企業(yè)的多維度客戶案例,也為算法的極速成長和精準(zhǔn)智能提供了能量。天旦也將繼續(xù)堅(jiān)持企業(yè)級(jí)軟件產(chǎn)品之路,努力將人工智能算法在運(yùn)維領(lǐng)域產(chǎn)品化,并且全力推進(jìn) AIOps 的真正實(shí)現(xiàn)。