北京2021年8月20日 /美通社/ -- 人們經常會在熱搜上看到某個網站崩了,某個APP服務器“走丟”了,這背后,都是對服務器安全及可靠性的擔憂。尤其是政府、金融、電網以及鐵路等行業(yè)對IT基礎設施的可靠性以及安全性要求極高的行業(yè)應用,一旦系統(tǒng)出現問題,對用戶來說可能是上千萬甚至是上億的損失。
可靠性從4個9到5個9,如何達到?
談及服務器的可靠性,業(yè)內人士常常會用4個9或者5個9,也就是99.99%與99.999%??瓷先ルm然4個9與5個9的差距僅有微乎其微的0.009%,但是對于核心系統(tǒng)而言,恰恰是這不到0.01%的差距,決定了系統(tǒng)的可靠性完全不在一個層級。
4個9與5個9的可用性,在一年的時間維度上,相差了47.304分鐘,平均一個月相差僅4分鐘,但是一家大型商業(yè)銀行如停機超過半小時造成的業(yè)務損失與聲譽等損失可達數億元人民幣,并且這種損失有逐年遞增的趨勢。因此大型商業(yè)銀行需要服務器的可靠性達到“5個9”級別(一年間業(yè)務中斷時間不能超過5.256分鐘)。而比如在電網行業(yè)與鐵路行業(yè),服務器的可靠性直接關系到居民的用電安全以及乘車安全,因此電網與鐵路行業(yè)對服務器的可靠性要求同樣達到“5個9”的更高級別。
其實,服務器的可靠性并不完全取決于硬件,而是由軟件和硬件來共同決定的,想要一款高可靠的服務器,就必須從元器件的選擇、硬件架構設計、生產組裝、品質檢測各個環(huán)節(jié)嚴格把控。多年以來,浪潮在服務器領域積累的豐富的設計制造經驗,并將這些經驗不斷總結提煉,形成了一套獨有的方法論。
精細考量 不放過任何一個元器件
千里之堤毀于蟻穴,任何一點小小的瑕疵,都可能成為引起整個系統(tǒng)崩潰的元兇。一臺服務器擁有至少5000多個元器件,每一個元器件的選擇都不能容許任何瑕疵,所以選擇可靠的元器件是最基礎,卻也是最不容忽視的關鍵一步。
浪潮服務器在選擇元器件時,首先會對眾多供應商的產品質量、技術水平、響應速度以及環(huán)保標準等方面進行綜合考量,從中選出滿足標準的供應商。同時,浪潮服務器要求所有元器件滿足高于國家通用規(guī)范的降額設計標準,即元器件在工作中承受的極限應力小于額定值,并留有足夠的應對極限情況的余量,其實主要是電應力和溫度應力,保障高可靠的電性能及較低熱衰減,大大降低故障率,提升系統(tǒng)可靠性。
此外,為了確保所有元器件并非“外強中干”,浪潮還會采用諸多先進的元器件分析設備,如雙束聚焦離子束顯微鏡、等離子刻蝕機等,對其進行剖析、驗證、失效分析等,以確定器件的工藝水平、質量滿足浪潮服務器生產要求。
潛在故障預測分析 將一切隱患扼殺在搖籃
雖然大部分企業(yè)業(yè)務系統(tǒng)都有故障預警應急機制,而大部分服務器等IT基礎設施也都有故障快速定位功能,但是浪潮服務器追求的卻是從產品設計階段就把所有可能存在的潛在問題快速識別出來,從而預先采取防御措施,將一切隱患扼殺在搖籃里。
在產品設計階段,浪潮針對所有板間互聯(lián)信號和關鍵器件的工作狀態(tài)進行仿真分析,確保無故障遺漏,并對故障進行預測識別和優(yōu)化處理。同時要進行系統(tǒng)級故障監(jiān)測、預警及隔離開發(fā),對于所有風險,要求盡最大可能避免,對于需要處理的故障,要求能夠快速監(jiān)測定位。
浪潮服務器盡量在設計階段最大限度地消除潛在的可靠性隱患,在產品發(fā)生故障之前提前進行分析,確保各組件之間實現最高可靠協(xié)同運行。
關鍵系統(tǒng)創(chuàng)新性設計 給可靠性再加一道保險
浪潮對服務器的散熱系統(tǒng)、存儲系統(tǒng)以及系統(tǒng)備用等方面不斷進行創(chuàng)新性探索和研究,保障服務器可靠性在整機層面臻于極致。
服務器為了追求更高密度,不斷壓縮空間,對散熱帶來了很大的挑戰(zhàn),在現有的風冷致冷條件下,浪潮服務器采用了許多創(chuàng)新性散熱設計,例如在M6系列服務器中增加蜂窩波導散熱網,對風扇入風處風流做整流處理,提高風扇進風口的流速并且減少了擾流的產生,加大波導網厚度可進一步提高空氣壓力,產生平行穩(wěn)定且強勁的氣流,相比傳統(tǒng)服務器,散熱效率整體可提升22%。
存儲型服務器因為配備了大量的硬盤往往面臨著共振問題,針對這個問題,浪潮服務器的硬盤托架專門選擇了航空減震材料,能夠有效抗震,保證硬盤安全的同時大幅降低故障概率。同時配備硬盤故障監(jiān)控、預警功能,可對硬盤無法讀寫、硬盤RAID信息損壞、硬盤讀寫速度變慢、硬盤溫度過高等故障進行快速告警。
浪潮服務器注重熱插拔設計,對電源模塊、風扇模塊、存儲模塊、IO模塊等關鍵模塊均采用冗余設計,可實現在線更換,保證系統(tǒng)穩(wěn)定可靠的運行環(huán)境。
魔鬼般檢測標準 確保都是精品
在汽車屆著名的達喀爾拉力賽,被稱為勇敢者的游戲,參賽選手們需要在最短時間內穿越無人的沙漠險地。由于賽程地勢險峻、氣候惡劣,對汽車和車手堪稱魔鬼般的歷練,沒有強大的技術和品質保證,很難跑完全程。在浪潮的實驗室,每一款服務器出廠之前也都要經過“達喀爾拉力賽”:跌落、沖擊、雷擊、高低溫、高低濕、鹽堿、噪聲、電源、老化、失效分析……測試,覆蓋了產品設計驗證、測試到產線質量保障等14個技術平臺,解決從產品可行性驗證、產品和部件各類測試、量產問題消除等覆蓋全生產鏈的技術問題。
浪潮服務器生產線配備老化實驗室,對服務器進行加速壽命試驗。這主要是為了加速暴露母板的設計缺陷和薄弱點,并對暴露的缺陷和故障從設計、工藝和用料等諸方面進行分析和改進,從而達到快速提升產品可靠性的目的。
此外還會進行超過業(yè)界標準的電磁兼容性測試,所謂電磁兼容,就是對電子產品在電磁場方面干擾大?。‥MI)和抗干擾能力(EMS)的綜合評定,是產品質量最重要的指標之一,涉及傳導抗擾度、射頻抗擾度、靜電抗擾度等多項測試指標。
為了讓服務器具備更強的環(huán)境適應性,浪潮服務器還會模擬運輸環(huán)境測試、氣候環(huán)境測試和極限環(huán)境測試,進行三大類幾十種測試,檢驗服務器在各種條件下的可靠性,測定耐受高低溫、跌落、高濕等惡性環(huán)境的極限。例如進行45度/分鐘的溫度劇變試驗,在零上100和零下40-50度進行產品溫度極限測試,30G震動過載抗振強度,模擬海拔12000米的環(huán)境進行高空低氣壓測試等。
百煉成鋼 磨礪鑄就完美
通過前面的介紹可以看出,想要鍛造一款真正高可靠的服務器,需要每個階段全方位的努力,對元器件嚴苛的品質管理,對產品設計快速準確的自我糾錯能力,對產品系統(tǒng)設計的不斷創(chuàng)新,對出廠產品的一道道檢測標準,只有這些都不斷做到完美,才能產出真正高可靠的服務器。
浪潮服務器正是秉承著這樣的原則,一步步打造出全新的M6系列服務器,針對智慧時代需求設計,包括面向云計算、大數據、人工智能等應用場景的6大系列16款產品,以業(yè)界最為豐富的場景產品陣列為用戶數字化轉型提供更加強大的算力支撐。
本文作者浪潮信息服務器產品線副總經理 陳彥靈