北京2022年1月4日 /美通社/ -- “風(fēng)扇轉(zhuǎn)速剛過每分鐘2萬轉(zhuǎn),硬盤就掉鏈子,而且多次測試結(jié)果都是這樣?!奔词箍磻T了實(shí)驗(yàn)室里不同工況條件下的大場面,浪潮信息服務(wù)器研發(fā)工程師張海龍對眼前的情況還是有些驚訝,“畢竟各種因素趕到一塊兒的場景太罕見了”。
其實(shí),任何事物在帶來好處的同時(shí),都要付出一定的代價(jià)。所謂魚和熊掌兼得,不過是成千上萬次再平衡之后的偶然。
比如:芯片的性能越高,產(chǎn)生的功耗也會(huì)隨之增大,提高散熱能力就成為謀求平衡的籌碼;而追求極限散熱,難免對硬盤等部件造成沖擊,兼顧可靠性又變成新一輪平衡游戲的主題。
當(dāng)然,散熱和可靠性并非零和博弈,只要管控好變量,就有機(jī)會(huì)走出囚徒困境。
懸在頭上的達(dá)摩克利斯劍
在千行百業(yè)數(shù)字化轉(zhuǎn)型的大時(shí)代,數(shù)據(jù)中心既是驅(qū)動(dòng)增長的重要引擎,也是不容忽視的“耗電怪獸”。2020年,我國數(shù)據(jù)中心用電量突破2000億千瓦時(shí),占用電總量比重約2.7%;預(yù)計(jì)到2030年,這一數(shù)字將突破4000億千瓦時(shí),占比升至3.7%。
工信部近期印發(fā)《新型數(shù)據(jù)中心發(fā)展三年行動(dòng)計(jì)劃(2021-2023年)》,對PUE(數(shù)據(jù)中心總能耗/IT設(shè)備能耗)明確規(guī)定:到2021年底,新建大型及以上數(shù)據(jù)中心PUE降低到1.35以下,到2023年更要低于1.3。
顯而易見,1.3將成為各地新建數(shù)據(jù)中心的PUE紅線。但目前全國大型數(shù)據(jù)中心平均PUE為1.55,超大型數(shù)據(jù)中心平均PUE也僅為1.46。也就是說,在保有量萬臺服務(wù)器的數(shù)據(jù)中心,每耗費(fèi)一度電,只有64.5%用于IT領(lǐng)域,其余35.5%則用在空調(diào)等非IT設(shè)備。
數(shù)據(jù)中心為了降低PUE,必須讓能源更多向IT設(shè)備傾斜,這對服務(wù)器的供電和散熱研發(fā)設(shè)計(jì)提出了更高要求。供電效率提升可降低CPU等關(guān)鍵部件散熱量,從而減少空調(diào)等設(shè)備的使用。浪潮信息掌握了從12V到48V直流供電技術(shù),48V直流供電預(yù)計(jì)可減少30%的能耗。
液冷是散熱技術(shù)的翹楚,可以用液體取代空氣作為冷媒,帶走部件熱量,目前常見的方式有冷板、浸沒、風(fēng)液混合等,已在云數(shù)據(jù)中心和邊緣數(shù)據(jù)中心規(guī)?;渴穑瑢档蚉UE效果顯著。但液冷技術(shù)對數(shù)據(jù)中心的機(jī)房環(huán)境要求苛刻,重新改造的成本也較高,浸沒式液冷的冷卻液價(jià)格更是堪比茅臺。
對大多數(shù)數(shù)據(jù)中心來說,風(fēng)冷才是低成本改善散熱的主流方案,最“簡單粗暴”的做法是提高服務(wù)器風(fēng)扇轉(zhuǎn)速。風(fēng)扇高速轉(zhuǎn)動(dòng)將熱量快速帶出,可避免部件發(fā)熱量過高影響系統(tǒng)穩(wěn)定性。但不斷加碼風(fēng)扇轉(zhuǎn)速直至滿轉(zhuǎn)時(shí),風(fēng)扇與硬盤之間會(huì)形成大的漩渦,而不規(guī)則的湍流影響非常嚴(yán)重 -- 服務(wù)器內(nèi)的硬盤碟片磁道密度低于50nm、Ocylim低于10nm,磁頭輕微振動(dòng)就會(huì)造成讀寫性能大幅下降,甚至導(dǎo)致整個(gè)硬盤報(bào)廢。
御風(fēng)而行的“逍遙”苦旅
莊子在《逍遙游》中有言:“夫列子御風(fēng)而行,泠然善也。旬有五日而后反。彼于致福者,未數(shù)數(shù)然也。”一場不強(qiáng)求結(jié)果的十五天旅行,固然悠游瀟灑,但僅限于個(gè)人境界,無關(guān)萬物蒼生。
當(dāng)張海龍及其背后的研發(fā)團(tuán)隊(duì)遭遇系統(tǒng)風(fēng)扇與硬盤的激烈博弈,想在散熱和可靠性的夾縫中尋求突破時(shí),他們無法輕松自在,跨度長達(dá)一年半的“御風(fēng)之旅”充滿艱辛。
風(fēng)冷方案歷經(jīng)40多年的演變,主要通過三條路徑實(shí)現(xiàn)散熱優(yōu)化:一是從散熱器入手,比如材料由鋁變成銅、將翅片加大擴(kuò)展散熱面積、改良熱管排布、利用富余空間補(bǔ)充遠(yuǎn)端散熱等;二是提高風(fēng)扇速度,制約點(diǎn)是機(jī)電控制和馬達(dá)質(zhì)量,主要交由幾家專業(yè)的風(fēng)扇廠商負(fù)責(zé);三是在發(fā)熱元件附近部署傳感器,類似人體的末梢神經(jīng),一旦感知局部升溫就快速投放冷量,反饋越靈敏,調(diào)控越精準(zhǔn)。
對服務(wù)器廠商而言,風(fēng)扇調(diào)控策略是其擅長的領(lǐng)域,研發(fā)團(tuán)隊(duì)要做的,恰是從系統(tǒng)風(fēng)扇本體的聲振性能為切入點(diǎn),解決散熱與可靠性之間的博弈。
從可能的振源到受振敏感元件之間的路徑太多,需要借助對比和定量分析法,對各個(gè)因子逐一進(jìn)行耦合切斷,主板、存儲(chǔ)控制卡、背板連接器等都曾上過“黑名單”。
在經(jīng)歷近半年的排查分析后,一個(gè)“突發(fā)奇想”的行動(dòng) -- 索性切開機(jī)箱,把振動(dòng)傳遞路徑上的影響因子全部做解耦抽離,迫使真正的“元兇”浮出水面。機(jī)箱一切兩段,切斷了機(jī)械傳動(dòng)路徑,中間用紙板把硬盤和風(fēng)扇隔開,硬盤不再受風(fēng)的影響,同時(shí)對風(fēng)扇產(chǎn)生的噪聲也有一定遮擋,硬盤讀寫功能逐漸攀高。再換不同轉(zhuǎn)速的風(fēng)扇及方案組合進(jìn)行反復(fù)驗(yàn)證,最終工程師找出了“氣動(dòng)噪聲”這個(gè)“深藏不露”的重要影響因子。
在流體力學(xué)中,這個(gè)影響因子叫做:“湍流”,也就是濟(jì)南趵突泉公園康熙題字碑的“激湍”的標(biāo)準(zhǔn)名稱。湍流打到風(fēng)扇扇葉上,風(fēng)回來得比較無序,而且有部分聲音從風(fēng)扇背面?zhèn)鞯角胺?。要把大的空氣漩渦破掉,最理想的方案肯定是將湍流轉(zhuǎn)換成層流,或者在高風(fēng)壓條件下把大湍流切成小湍流。
PS:H.Tennekes&J.L. Lumley 曾對湍流進(jìn)行過評論:嘗試解決湍流問題的成功與否,強(qiáng)烈地取決于包括做出關(guān)鍵性假設(shè)的靈感。 湍流需要奔放的發(fā)明者,正如需要專業(yè)分析師那么重要。
傳統(tǒng)服務(wù)器會(huì)采用減振墊來減緩振動(dòng),這種方法針對機(jī)械傳動(dòng)路徑有效。同時(shí)依靠風(fēng)扇后端的擋風(fēng)罩切割和控制風(fēng)向。但當(dāng)系統(tǒng)風(fēng)扇轉(zhuǎn)速從每分鐘2萬轉(zhuǎn)提升到3萬轉(zhuǎn),機(jī)箱內(nèi)部的湍流問題就愈發(fā)凸顯,亟需新的機(jī)械結(jié)構(gòu)在風(fēng)力源頭擔(dān)當(dāng)重任。
沒有人愿意啃硬骨頭,除非被逼到墻角。從層流到湍流的轉(zhuǎn)體,是業(yè)界公認(rèn)的難題。北大的數(shù)學(xué)大神韋東奕曾從數(shù)學(xué)模型的角度求解層流到湍流的變化,獲得百萬獎(jiǎng)金。服務(wù)器的研發(fā)工程師則在應(yīng)用維度作出開創(chuàng)性的嘗試:從初期的百葉窗到最后敲定波導(dǎo)網(wǎng),其間歷經(jīng)成百上千次的錘煉。研發(fā)工程師采用不同寬度、孔徑的橫向或縱向波導(dǎo)網(wǎng)進(jìn)行多次對照試驗(yàn),起始階段效果并不理想,沒有滿足高可靠性的要求。但測試證明波導(dǎo)網(wǎng)的確能有效緩解振動(dòng),有助于提升通風(fēng)量并形成穩(wěn)定的平行風(fēng)流。
一個(gè)偶然的機(jī)會(huì),研發(fā)人員受到深圳機(jī)場航站樓六邊形建筑結(jié)構(gòu)啟發(fā),萌生蜂巢形狀波導(dǎo)網(wǎng)設(shè)計(jì)思路。綜合測試后發(fā)現(xiàn),六邊形波導(dǎo)網(wǎng)既節(jié)省材料,通風(fēng)量也適宜,同時(shí)足夠堅(jiān)固,對風(fēng)流能有力約束,并減小湍流造成的振動(dòng),解決了風(fēng)扇散熱與可靠性無法兼得的難題。
波導(dǎo)網(wǎng)內(nèi)部為鋁制六邊形蜂巢狀小孔,單邊厚度不足0.2mm,重量僅11克左右,可謂“薄如蟬翼”。為探求不同機(jī)型最佳波導(dǎo)網(wǎng)結(jié)構(gòu),研發(fā)工程師還針對蜂巢單元的尺寸和蜂巢板的厚度進(jìn)行測試,為每一款服務(wù)器找到孔徑、厚度相匹配的波導(dǎo)網(wǎng),并對降噪需求突出的機(jī)型填加了吸音海綿。
相關(guān)數(shù)據(jù)顯示,配置波導(dǎo)網(wǎng)的M6服務(wù)器散熱效率大幅提升17%~22%,可讓數(shù)據(jù)中心環(huán)溫提升1.5~2攝氏度,節(jié)約6%~8%的能耗。此外,波導(dǎo)網(wǎng)還能減少氣流對硬盤高頻振動(dòng)的影響,硬盤IOPS性能提升8%~10%。
“風(fēng)水大師”背后的故事
波導(dǎo)網(wǎng)的橫空出世,既是極限壓力環(huán)境下的成果,也是浪潮信息特色研發(fā)模式的產(chǎn)物。
主賽道和訓(xùn)練賽道相結(jié)合,是孕育新技術(shù)、產(chǎn)品和解決方案的溫床。浪潮信息在技術(shù)儲(chǔ)備方面有良好的預(yù)研體系,結(jié)構(gòu)、散熱就是其中的項(xiàng)目。預(yù)研中的技術(shù)通常具有前瞻性,要在訓(xùn)練賽道上摸爬滾打;而產(chǎn)品研發(fā)更貼近市場需求,預(yù)研中相對成熟的技術(shù),才有機(jī)會(huì)躋身主賽道。波導(dǎo)網(wǎng)從預(yù)研到成為M6服務(wù)器產(chǎn)品的標(biāo)配,正是主輔賽道轉(zhuǎn)化機(jī)制的受益者。
仿真與測試協(xié)同作戰(zhàn),是研發(fā)進(jìn)程節(jié)時(shí)降本、效率提升的不二法門。從硬盤、背板到風(fēng)扇前界面空間極小,風(fēng)道來源異常復(fù)雜,風(fēng)洞、煙霧等實(shí)測方式無法實(shí)施,針對風(fēng)流、風(fēng)壓的流體仿真和基于各種特殊要求的機(jī)械可靠性仿真,就顯得尤為重要。波導(dǎo)網(wǎng)率先嘗到了甜頭,為更多新技術(shù)的仿測協(xié)同樹立了標(biāo)桿。
打破各個(gè)資源壁,重新構(gòu)建跨部門合作關(guān)系,是達(dá)成最優(yōu)方案的核心路徑。波導(dǎo)網(wǎng)是全新的部件,需要散熱、結(jié)構(gòu)、存儲(chǔ)等不同團(tuán)隊(duì)持續(xù)磨合,在相互妥協(xié)的過程中探尋創(chuàng)新的可能。對單一指標(biāo)的過分強(qiáng)調(diào),有時(shí)會(huì)變成研發(fā)中最大的障礙,而每一次基于共同目標(biāo)的“讓步”,才是通往成功的階梯。
優(yōu)秀的研發(fā)模式是復(fù)制更多波導(dǎo)網(wǎng)傳奇的基石 -- 知道風(fēng)在哪一個(gè)方向吹,就不會(huì)迷失在亂云飛渡的技術(shù)湍流里。