北京2022年4月7日 /美通社/ -- 隨著新技術(shù)、新應(yīng)用不斷出現(xiàn),數(shù)字化轉(zhuǎn)型也在不斷加速,行業(yè)智慧應(yīng)用爆發(fā)式增長(zhǎng),改變了人們的工作、生活、學(xué)習(xí)方式,使得社會(huì)進(jìn)入了數(shù)字經(jīng)濟(jì)時(shí)代。據(jù)IDC預(yù)測(cè),到2025 年,每天有超過(guò) 60 億人與數(shù)據(jù)發(fā)生互動(dòng),相當(dāng)于全球人口的 75%;每個(gè)聯(lián)網(wǎng)的人每隔18 秒就會(huì)有至少 1 次數(shù)據(jù)交互,全球數(shù)據(jù)也將增至 175ZB。而這些數(shù)據(jù)被記錄在不同存儲(chǔ)系統(tǒng)與介質(zhì)中,企業(yè)不斷購(gòu)置大量的存儲(chǔ)設(shè)備來(lái)應(yīng)對(duì)快速增長(zhǎng)的數(shù)據(jù)存儲(chǔ)需求,這也增加了系統(tǒng)支出和資源能耗。浪潮存儲(chǔ)基于技術(shù)創(chuàng)新提出了智能在線壓縮技術(shù)(InCompression),通過(guò)結(jié)合硬件及算法進(jìn)行數(shù)據(jù)量縮減,以提升存儲(chǔ)空間利用率,達(dá)到降本增效的目的。
在數(shù)據(jù)管理的過(guò)程中,最終都需要將數(shù)據(jù)存放到某一類最底層物理存儲(chǔ)介質(zhì)中。目前,底層物理存儲(chǔ)介質(zhì)主要有光、磁、電三種,對(duì)應(yīng)的存儲(chǔ)產(chǎn)品類型可也被分為三大類:光學(xué)存儲(chǔ),如藍(lán)光存儲(chǔ);磁存儲(chǔ),如HDD機(jī)械硬盤;半導(dǎo)體存儲(chǔ),采用電能存儲(chǔ),如SSD固態(tài)硬盤。除了目前主要使用光、磁、電三種介質(zhì)之外,業(yè)界還在進(jìn)行DNA存儲(chǔ)等下一代介質(zhì)研發(fā)。當(dāng)前在企業(yè)級(jí)存儲(chǔ)市場(chǎng)應(yīng)用最廣泛的是HDD機(jī)械盤跟SSD固態(tài)盤,其中SSD節(jié)能優(yōu)勢(shì)明顯,相對(duì)于HDD,在相同容量下,SSD的電力能耗降低70%,可有效推進(jìn)數(shù)據(jù)中心低碳運(yùn)轉(zhuǎn),其性能在市場(chǎng)中也具有較強(qiáng)的競(jìng)爭(zhēng)力。
另外,“硅進(jìn)磁退”是存儲(chǔ)介質(zhì)發(fā)展的趨勢(shì),全閃存陣列的普及速度也在逐年提高。SSD固態(tài)硬盤的性能雖高,但是其中的flash顆粒存在成本和磨損壽命的限制。因此在全閃存系統(tǒng)進(jìn)行設(shè)計(jì)時(shí),需要充分考慮減少flash的磨損。業(yè)界中也通過(guò)壓縮技術(shù)減少寫(xiě)入的數(shù)據(jù)量,進(jìn)而有效減少對(duì)flash的磨損,提高系統(tǒng)的利用率,延長(zhǎng)SSD的使用壽命,從而降低數(shù)據(jù)存儲(chǔ)的成本。
存儲(chǔ)系統(tǒng)中的無(wú)損數(shù)據(jù)壓縮算法,正在由效率較低的定長(zhǎng)(Fixed Bit Length Packing)壓縮轉(zhuǎn)變?yōu)椴欢ㄩL(zhǎng)壓縮。其中,由Abraham Lempel 和 Jacob Ziv獨(dú)創(chuàng)性的使用字典的LZ77/78算法及其變種應(yīng)用最為廣泛。這類使用字典來(lái)壓縮數(shù)據(jù)LZ算法使用一種基于滑動(dòng)窗口緩存的技術(shù),該緩存用于保存最近剛剛處理的文本;當(dāng)出現(xiàn)一個(gè)重復(fù)時(shí),重復(fù)的序列可以用一個(gè)短的編碼來(lái)代替;壓縮程序掃描這樣的重復(fù),同時(shí)生成編碼來(lái)代替重復(fù)序列,隨著時(shí)間的過(guò)去,編碼可以重用來(lái)捕獲新的序列。當(dāng)然系統(tǒng)必須要設(shè)計(jì)成解壓程序能夠在編碼和原始數(shù)據(jù)序列推導(dǎo)出當(dāng)前的映射。
LZ算法使用了有限的窗口在以前的文本中查找匹配,對(duì)于相對(duì)于窗口大小來(lái)說(shuō)非常長(zhǎng)的文本塊,很多可能的匹配就會(huì)被丟掉。窗口大小可以增加,但這會(huì)帶來(lái)兩個(gè)損失:一是算法的處理時(shí)間會(huì)增加;二是指針字段必須更長(zhǎng),以允許更長(zhǎng)的跳轉(zhuǎn)。兩者都很消耗計(jì)算資源(CPU和緩存)。
傳統(tǒng)在線實(shí)時(shí)壓縮技術(shù)一般采用軟件壓縮來(lái)實(shí)現(xiàn),會(huì)帶來(lái)一定的CPU負(fù)載,如果壓縮算法做的不夠優(yōu)化,就會(huì)導(dǎo)致壓縮功能開(kāi)啟后占用較多CPU性能(雙倍壓縮,占用15%左右CPU資源),一般會(huì)影響系統(tǒng)1/3-2/3的性能,影響業(yè)務(wù)的可用性能。因此,某些存儲(chǔ)系統(tǒng)中并不建議企業(yè)在業(yè)務(wù)繁忙時(shí)開(kāi)啟壓縮功能,一般在業(yè)務(wù)空閑階段使用壓縮。
數(shù)據(jù)壓縮的另外一個(gè)痛點(diǎn)在于,數(shù)據(jù)塊經(jīng)過(guò)壓縮后,因?yàn)橛胁煌娜哂喽?,?shù)據(jù)塊長(zhǎng)度變得不一,容易造成磁盤碎片。這種基于位置的壓縮給系統(tǒng)的數(shù)據(jù)布局帶來(lái)很大影響,嚴(yán)重影響業(yè)務(wù)的IO響應(yīng)能力,加劇性能衰減。
浪潮智能在線壓縮基于硬件壓縮技術(shù),降低了對(duì)控制器計(jì)算資源的占用,特別是CPU和緩存,使得壓縮功能的開(kāi)啟,只占用了低于3%的CPU性能影響(部分IO交互);與此同時(shí),通過(guò)特定優(yōu)化的壓縮算法,將在線壓縮的不定長(zhǎng)數(shù)據(jù)轉(zhuǎn)變?yōu)槎ㄩL(zhǎng)數(shù)據(jù),壓縮數(shù)據(jù)8byte對(duì)齊。定長(zhǎng)輸出壓縮模式是一種前壓縮方式,數(shù)據(jù)會(huì)先經(jīng)過(guò)緩存壓縮(專用緩存和壓縮芯片),最終落盤的是壓縮后的數(shù)據(jù);且算法依據(jù)非定長(zhǎng)輸入會(huì)生成定長(zhǎng)輸出,更容易滿條帶刷寫(xiě),提高性能同時(shí)提高磁盤空間利用率。浪潮存儲(chǔ)基于時(shí)序的優(yōu)化策略可以識(shí)別隨機(jī)熱點(diǎn)數(shù)據(jù),依賴局部性原理進(jìn)行數(shù)據(jù)存儲(chǔ),進(jìn)一步提高隨機(jī)場(chǎng)景的壓縮性能。在數(shù)據(jù)布局上,不再產(chǎn)生數(shù)據(jù)碎片,從總體測(cè)試表現(xiàn)看,開(kāi)啟壓縮功能后,反而提升系統(tǒng)的隨機(jī)讀寫(xiě)性能。數(shù)據(jù)庫(kù)類應(yīng)用壓縮比例2:1-5:1,日志型應(yīng)用最大壓縮比例可達(dá)10:1,節(jié)省了大量的存儲(chǔ)空間。
浪潮存儲(chǔ)基于“云存智用 運(yùn)籌新數(shù)據(jù)”的理念,不斷技術(shù)創(chuàng)新,將智能壓縮技術(shù)適配到存儲(chǔ)平臺(tái),打造敏捷高效的存儲(chǔ)產(chǎn)品,在保障性能無(wú)損的情況下,提升數(shù)據(jù)存儲(chǔ)的效率,提高了存儲(chǔ)空間利用率,降低數(shù)據(jù)存儲(chǔ)成本,讓用戶能輕松應(yīng)對(duì)數(shù)字經(jīng)濟(jì)時(shí)代的海量數(shù)據(jù)的挑戰(zhàn)。