omniture

浪潮與騰訊云聯(lián)合發(fā)布數(shù)據(jù)中心服務器智能故障診斷技術白皮書

助力大規(guī)模數(shù)據(jù)中心高效穩(wěn)定運行
2021-08-02 08:00 5263

北京2021年8月2日 /美通社/ -- 7月27日,由OCP社區(qū)主辦、浪潮承辦的第三屆OCP China Day順利舉行。會上,浪潮聯(lián)合騰訊云發(fā)布《數(shù)據(jù)中心服務器智能故障診斷TIFDS(Tencent & Inspur Fault Diagnosis System)系統(tǒng)技術白皮書》,白皮書詳細解讀了當前大規(guī)模數(shù)據(jù)中心運維面臨的挑戰(zhàn),闡述了騰訊云與浪潮聯(lián)合研發(fā)的TIFDS系統(tǒng)架構,為大規(guī)模數(shù)據(jù)中心提升服務器運維效率,保障數(shù)據(jù)中心穩(wěn)定運行提供重要參考。

以騰訊云數(shù)百萬服務器運營數(shù)據(jù)和浪潮深厚的固件研發(fā)專家經驗庫為基礎,“TIFDS”系統(tǒng)可利用AI技術對海量服務器運行數(shù)據(jù)實時分析,對各類部件故障實時預警,故障診斷“火眼金睛”,故障自動明確化率提升至95%以上,遠超業(yè)界平均水平。 

OCP China Day現(xiàn)場騰訊云星星海實驗室研發(fā)副總監(jiān)劉超介紹白皮書內容
OCP China Day現(xiàn)場騰訊云星星海實驗室研發(fā)副總監(jiān)劉超介紹白皮書內容

大規(guī)模數(shù)據(jù)中心服務器猛增 人力運維接近極限

伴隨著互聯(lián)網企業(yè)的崛起,云計算市場已走過十多年的時間,據(jù)Gartner數(shù)據(jù)統(tǒng)計,2020年全球云計算市場快速增長,增速超過40%,中國云計算市場也持續(xù)兩位數(shù)增長,市場增長動能逐漸從泛互聯(lián)網向產業(yè)化快速滲透,增長持續(xù)加速。

白皮書指出,云計算的快速擴張帶來了數(shù)據(jù)中心服務器數(shù)量的爆發(fā)式增長,隨之而來的服務器運維管理復雜度和難度也越來越大,而傳統(tǒng)的海量服務器故障運營面臨著更大的挑戰(zhàn)和更高昂的成本,從最初的腳本運維、工具運維到平臺運維演進至今,人力已接近極限,越來越無法滿足快速修復故障和恢復業(yè)務運行的要求。為高效管理十萬甚至百萬級服務器,智能化的監(jiān)控診斷系統(tǒng)成為大規(guī)模數(shù)據(jù)中心必不可少的工具。

公布TIFDS系統(tǒng)架構,故障自動明確化率95%以上

TIFDS(Tencent & Inspur Fault Diagnosis System)是騰訊云與浪潮聯(lián)合研發(fā)的故障診斷系統(tǒng),是服務器健康監(jiān)管技術及故障預警診斷技術的總稱,旨在實現(xiàn)運維工作由人工離線分析向自動智能在線識別的方向發(fā)展,建立一套以帶外BMC為中心的故障診斷系統(tǒng)。據(jù)白皮書介紹,TIFDS系統(tǒng)具有風險實時預警,故障精準診斷和日志定制化透明安全等特點,對提升大規(guī)模數(shù)據(jù)中心運維效率具有重要意義。

  • 風險實時預警:該系統(tǒng)基于騰訊云現(xiàn)網運行的百萬臺服務器運維經驗,結合AI智能算法,可對非宕機類故障進行實時預警,降低服務器高負荷運行下突然失效的風險。
  • 故障精準診斷:浪潮構建專家經驗庫,將故障自動明確化率提升至95%以上,遠高于業(yè)界平均標準,秒級告警,精準反饋故障觸發(fā)源,提升運維效率。
  • 日志定制化透明安全:創(chuàng)新性的按照騰訊云需求聯(lián)合定制日志輸出上報方式,使診斷過程清晰透明,并對疑難問題進行了識別并建立了線上聯(lián)合診斷系統(tǒng),不斷提升系統(tǒng)運維效率。

騰訊云服務器運營中心副總經理嚴勇表示:“騰訊云在全球數(shù)據(jù)中心服務器數(shù)量早已超過百萬臺,此次發(fā)布的TIFDS系統(tǒng),不僅能大幅提升自身數(shù)據(jù)中心的服務器運維效率,為騰訊云平臺的穩(wěn)定運行提供堅實的技術支撐,也將為各類新興應用在公有云平臺的大規(guī)模落地提供良好的技術儲備。” 

浪潮信息研發(fā)項目管理部總經理宋曉鋒表示:“TIFDS是數(shù)據(jù)中心服務器運維技術的重要創(chuàng)新,是騰訊云與浪潮雙方基于JDM模式,打破原有產業(yè)鏈上下游合作模式,進行聯(lián)合研發(fā)的又一成果。此次,浪潮與騰訊云將TIFDS架構進行梳理,聯(lián)合發(fā)布了業(yè)界首個數(shù)據(jù)中心故障運維白皮書,為提升數(shù)據(jù)中心運維效率和云計算穩(wěn)定性具有重要的借鑒意義?!?/p>

消息來源:浪潮
China-PRNewsire-300-300.png
全球TMT
微信公眾號“全球TMT”發(fā)布全球互聯(lián)網、科技、媒體、通訊企業(yè)的經營動態(tài)、財報信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection