浪潮在線壓縮，為數(shù)據(jù)存儲(chǔ)降本增效

浪潮信息

2022-04-07 19:45 8271

北京2022年4月7日 /美通社/ -- 隨著新技術(shù)、新應(yīng)用不斷出現(xiàn)，數(shù)字化轉(zhuǎn)型也在不斷加速，行業(yè)智慧應(yīng)用爆發(fā)式增長(zhǎng)，改變了人們的工作、生活、學(xué)習(xí)方式，使得社會(huì)進(jìn)入了數(shù)字經(jīng)濟(jì)時(shí)代。據(jù)IDC預(yù)測(cè)，到2025 年，每天有超過(guò) 60 億人與數(shù)據(jù)發(fā)生互動(dòng)，相當(dāng)于全球人口的 75%；每個(gè)聯(lián)網(wǎng)的人每隔18 秒就會(huì)有至少 1 次數(shù)據(jù)交互，全球數(shù)據(jù)也將增至 175ZB。而這些數(shù)據(jù)被記錄在不同存儲(chǔ)系統(tǒng)與介質(zhì)中，企業(yè)不斷購(gòu)置大量的存儲(chǔ)設(shè)備來(lái)應(yīng)對(duì)快速增長(zhǎng)的數(shù)據(jù)存儲(chǔ)需求，這也增加了系統(tǒng)支出和資源能耗。浪潮存儲(chǔ)基于技術(shù)創(chuàng)新提出了智能在線壓縮技術(shù)（InCompression），通過(guò)結(jié)合硬件及算法進(jìn)行數(shù)據(jù)量縮減，以提升存儲(chǔ)空間利用率，達(dá)到降本增效的目的。

浪潮存儲(chǔ)

閃存化趨勢(shì)背后，面臨的數(shù)據(jù)新挑戰(zhàn)

在數(shù)據(jù)管理的過(guò)程中，最終都需要將數(shù)據(jù)存放到某一類最底層物理存儲(chǔ)介質(zhì)中。目前，底層物理存儲(chǔ)介質(zhì)主要有光、磁、電三種，對(duì)應(yīng)的存儲(chǔ)產(chǎn)品類型可也被分為三大類：光學(xué)存儲(chǔ)，如藍(lán)光存儲(chǔ)；磁存儲(chǔ)，如HDD機(jī)械硬盤；半導(dǎo)體存儲(chǔ)，采用電能存儲(chǔ)，如SSD固態(tài)硬盤。除了目前主要使用光、磁、電三種介質(zhì)之外，業(yè)界還在進(jìn)行DNA存儲(chǔ)等下一代介質(zhì)研發(fā)。當(dāng)前在企業(yè)級(jí)存儲(chǔ)市場(chǎng)應(yīng)用最廣泛的是HDD機(jī)械盤跟SSD固態(tài)盤，其中SSD節(jié)能優(yōu)勢(shì)明顯，相對(duì)于HDD，在相同容量下，SSD的電力能耗降低70%，可有效推進(jìn)數(shù)據(jù)中心低碳運(yùn)轉(zhuǎn)，其性能在市場(chǎng)中也具有較強(qiáng)的競(jìng)爭(zhēng)力。

另外，“硅進(jìn)磁退”是存儲(chǔ)介質(zhì)發(fā)展的趨勢(shì)，全閃存陣列的普及速度也在逐年提高。SSD固態(tài)硬盤的性能雖高，但是其中的flash顆粒存在成本和磨損壽命的限制。因此在全閃存系統(tǒng)進(jìn)行設(shè)計(jì)時(shí)，需要充分考慮減少flash的磨損。業(yè)界中也通過(guò)壓縮技術(shù)減少寫(xiě)入的數(shù)據(jù)量，進(jìn)而有效減少對(duì)flash的磨損，提高系統(tǒng)的利用率，延長(zhǎng)SSD的使用壽命，從而降低數(shù)據(jù)存儲(chǔ)的成本。

存儲(chǔ)系統(tǒng)中的在線壓縮技術(shù)

存儲(chǔ)系統(tǒng)中的無(wú)損數(shù)據(jù)壓縮算法，正在由效率較低的定長(zhǎng)（Fixed Bit Length Packing）壓縮轉(zhuǎn)變?yōu)椴欢ㄩL(zhǎng)壓縮。其中，由Abraham Lempel 和 Jacob Ziv獨(dú)創(chuàng)性的使用字典的LZ77/78算法及其變種應(yīng)用最為廣泛。這類使用字典來(lái)壓縮數(shù)據(jù)LZ算法使用一種基于滑動(dòng)窗口緩存的技術(shù)，該緩存用于保存最近剛剛處理的文本；當(dāng)出現(xiàn)一個(gè)重復(fù)時(shí)，重復(fù)的序列可以用一個(gè)短的編碼來(lái)代替；壓縮程序掃描這樣的重復(fù)，同時(shí)生成編碼來(lái)代替重復(fù)序列，隨著時(shí)間的過(guò)去，編碼可以重用來(lái)捕獲新的序列。當(dāng)然系統(tǒng)必須要設(shè)計(jì)成解壓程序能夠在編碼和原始數(shù)據(jù)序列推導(dǎo)出當(dāng)前的映射。

LZ算法示意圖

LZ算法使用了有限的窗口在以前的文本中查找匹配，對(duì)于相對(duì)于窗口大小來(lái)說(shuō)非常長(zhǎng)的文本塊，很多可能的匹配就會(huì)被丟掉。窗口大小可以增加，但這會(huì)帶來(lái)兩個(gè)損失：一是算法的處理時(shí)間會(huì)增加；二是指針字段必須更長(zhǎng)，以允許更長(zhǎng)的跳轉(zhuǎn)。兩者都很消耗計(jì)算資源（CPU和緩存）。

傳統(tǒng)在線實(shí)時(shí)壓縮技術(shù)一般采用軟件壓縮來(lái)實(shí)現(xiàn)，會(huì)帶來(lái)一定的CPU負(fù)載，如果壓縮算法做的不夠優(yōu)化，就會(huì)導(dǎo)致壓縮功能開(kāi)啟后占用較多CPU性能（雙倍壓縮，占用15%左右CPU資源），一般會(huì)影響系統(tǒng)1/3-2/3的性能，影響業(yè)務(wù)的可用性能。因此，某些存儲(chǔ)系統(tǒng)中并不建議企業(yè)在業(yè)務(wù)繁忙時(shí)開(kāi)啟壓縮功能，一般在業(yè)務(wù)空閑階段使用壓縮。

數(shù)據(jù)壓縮的另外一個(gè)痛點(diǎn)在于，數(shù)據(jù)塊經(jīng)過(guò)壓縮后，因?yàn)橛胁煌娜哂喽?，?shù)據(jù)塊長(zhǎng)度變得不一，容易造成磁盤碎片。這種基于位置的壓縮給系統(tǒng)的數(shù)據(jù)布局帶來(lái)很大影響，嚴(yán)重影響業(yè)務(wù)的IO響應(yīng)能力，加劇性能衰減。

基于定長(zhǎng)輸出的智能在線壓縮，保障業(yè)務(wù)的性能不受影響

浪潮智能在線壓縮基于硬件壓縮技術(shù)，降低了對(duì)控制器計(jì)算資源的占用，特別是CPU和緩存，使得壓縮功能的開(kāi)啟，只占用了低于3%的CPU性能影響（部分IO交互）；與此同時(shí)，通過(guò)特定優(yōu)化的壓縮算法，將在線壓縮的不定長(zhǎng)數(shù)據(jù)轉(zhuǎn)變?yōu)槎ㄩL(zhǎng)數(shù)據(jù)，壓縮數(shù)據(jù)8byte對(duì)齊。定長(zhǎng)輸出壓縮模式是一種前壓縮方式，數(shù)據(jù)會(huì)先經(jīng)過(guò)緩存壓縮（專用緩存和壓縮芯片），最終落盤的是壓縮后的數(shù)據(jù)；且算法依據(jù)非定長(zhǎng)輸入會(huì)生成定長(zhǎng)輸出，更容易滿條帶刷寫(xiě)，提高性能同時(shí)提高磁盤空間利用率。浪潮存儲(chǔ)基于時(shí)序的優(yōu)化策略可以識(shí)別隨機(jī)熱點(diǎn)數(shù)據(jù)，依賴局部性原理進(jìn)行數(shù)據(jù)存儲(chǔ)，進(jìn)一步提高隨機(jī)場(chǎng)景的壓縮性能。在數(shù)據(jù)布局上，不再產(chǎn)生數(shù)據(jù)碎片，從總體測(cè)試表現(xiàn)看，開(kāi)啟壓縮功能后，反而提升系統(tǒng)的隨機(jī)讀寫(xiě)性能。數(shù)據(jù)庫(kù)類應(yīng)用壓縮比例2:1-5:1,日志型應(yīng)用最大壓縮比例可達(dá)10:1，節(jié)省了大量的存儲(chǔ)空間。

浪潮存儲(chǔ)基于“云存智用運(yùn)籌新數(shù)據(jù)”的理念，不斷技術(shù)創(chuàng)新，將智能壓縮技術(shù)適配到存儲(chǔ)平臺(tái)，打造敏捷高效的存儲(chǔ)產(chǎn)品，在保障性能無(wú)損的情況下，提升數(shù)據(jù)存儲(chǔ)的效率，提高了存儲(chǔ)空間利用率，降低數(shù)據(jù)存儲(chǔ)成本，讓用戶能輕松應(yīng)對(duì)數(shù)字經(jīng)濟(jì)時(shí)代的海量數(shù)據(jù)的挑戰(zhàn)。

消息來(lái)源：浪潮信息