浪潮服務(wù)器支撐快遞企業(yè)運(yùn)單圖片存儲(chǔ)和分析系統(tǒng)
北京2018年3月26日電 /美通社/ -- 隨著電商的快速發(fā)展,快遞行業(yè)的運(yùn)單量也隨之大幅攀升。據(jù)統(tǒng)計(jì),中國(guó)每天的運(yùn)單量超過(guò)1億,如何提升快遞的效率,成為各大快遞公司的爭(zhēng)奪市場(chǎng)的重要手段。浪潮推薦采用服務(wù)器NF5288M5和SA5224M4組建的運(yùn)單圖片存儲(chǔ)和識(shí)別分析系統(tǒng),讓廢棄的運(yùn)單圖片成為加速快遞行業(yè)效率的基礎(chǔ)。
每當(dāng)快遞寄出或者收到后,我們都會(huì)拿到一張快遞的底單,作為簽收的憑據(jù),同時(shí)也將作為快遞公司的留底。而這些底單最終將去向何處?大部分的運(yùn)單都將被掃描、電子化,存儲(chǔ)到快遞公司數(shù)據(jù)中心去。
如何用更低的成本存儲(chǔ)更多的運(yùn)單圖片
據(jù)國(guó)家郵政局?jǐn)?shù)據(jù),目前中國(guó)單日的快遞運(yùn)單量已經(jīng)超過(guò)1億,那么同樣也需要有一樣多的底單圖片被掃描并存儲(chǔ)。即使經(jīng)過(guò)先進(jìn)的壓縮算法進(jìn)行圖片壓縮,每天需要存儲(chǔ)的數(shù)據(jù)也十分驚人。通常來(lái)說(shuō),大型快遞公司的運(yùn)單圖片存儲(chǔ)系統(tǒng)每次擴(kuò)容都需要新增PB級(jí)的容量,這需要付出極高的采購(gòu)和運(yùn)營(yíng)成本。
通常,數(shù)據(jù)中心的分布式存儲(chǔ)系統(tǒng)是基于2U雙路12盤(pán)的服務(wù)器。計(jì)算能力和存儲(chǔ)能力比較均衡,也具有更廣的適用性。但是對(duì)于運(yùn)單圖片這種偏存儲(chǔ)的應(yīng)用而言,存儲(chǔ)的密度不足和計(jì)算部件成本過(guò)高問(wèn)題就會(huì)比較明顯。
目前,市場(chǎng)上高密度的存儲(chǔ)服務(wù)器有4U36盤(pán)或者72盤(pán)甚至更高密度,相比之下,72盤(pán)甚至更高盤(pán)數(shù)的服務(wù)器會(huì)造成運(yùn)維困難,同時(shí)單機(jī)功耗過(guò)高也將導(dǎo)致機(jī)架的供電不足和空間浪費(fèi)。因此4U36盤(pán)位的服務(wù)器是目前比較合適的存儲(chǔ)配置。同時(shí),雙路Intel E5系列CPU的功耗偏高、計(jì)算能力過(guò)剩的問(wèn)題也讓溫冷數(shù)據(jù)存儲(chǔ)成本居高不下。因此我們可以得出一個(gè)結(jié)論,快遞運(yùn)單圖片存儲(chǔ)服務(wù)器需要一款高存儲(chǔ)密度、低能源消耗的服務(wù)器產(chǎn)品。
相比市面上的高密存儲(chǔ)服務(wù)器,浪潮的一款基于Intel Xeon-D系列CPU的SA5224M4顯得格外與眾不同。在存儲(chǔ)能力上,SA5224M4可同時(shí)支持36塊3.5寸硬盤(pán),相比傳統(tǒng)存儲(chǔ)機(jī)型存儲(chǔ)密度提升50%,所需設(shè)備數(shù)量降低50%,可提高數(shù)據(jù)中心機(jī)柜空間利用率,能夠?yàn)楹A窟\(yùn)單數(shù)據(jù)提供大容量存儲(chǔ)。
而功耗上,浪潮服務(wù)器SA5224M4相比傳統(tǒng)E5存儲(chǔ)服務(wù)器降低35W以上。一般服務(wù)器的生命周期為三年,這樣算下來(lái),1000臺(tái)的存儲(chǔ)服務(wù)器集群就能節(jié)省下至少1050萬(wàn)的電費(fèi)。
由于快遞的運(yùn)單數(shù)據(jù)來(lái)源可能通過(guò)快遞員的掃碼槍、用戶的網(wǎng)絡(luò)下單,也可能來(lái)自各網(wǎng)點(diǎn)的電腦錄入,這就要求存儲(chǔ)系統(tǒng)有一定的并發(fā)數(shù)據(jù)處理能力。而浪潮SA5224M4在低能耗的基礎(chǔ)上,仍保持較好性能表現(xiàn)。運(yùn)單圖片存儲(chǔ)應(yīng)用在傳統(tǒng)E5 CPU存儲(chǔ)服務(wù)器上的負(fù)載率約為30%,而使用浪潮SA5224M4時(shí)CPU的負(fù)載率約在40%,滿足應(yīng)用計(jì)算性能需求的同時(shí),保留足夠的性能冗余,防止出現(xiàn)短時(shí)數(shù)據(jù)流量驟增帶來(lái)的計(jì)算壓力。
即使有一款高效低耗的存儲(chǔ)服務(wù)器,運(yùn)單圖片的存儲(chǔ)成本仍是不低。那么快遞企業(yè)為什么需要存儲(chǔ)這些看似無(wú)用的數(shù)據(jù)?如此龐大的訂單數(shù)據(jù),成為壓在數(shù)據(jù)中心身上的一座大山,但是這座大山里卻有著無(wú)窮無(wú)盡的資源。當(dāng)有了足夠多的數(shù)據(jù)積累后,快遞公司能夠挖掘著這部分資源,并以此讓快遞更快。
昨天廢棄的底單數(shù)據(jù)如何讓今天的快遞更快?
運(yùn)單圖片中什么樣的資源?有真實(shí)的人物信息、購(gòu)物頻次、發(fā)貨和收貨地址等等。當(dāng)積累足夠的數(shù)據(jù)時(shí),就可以根據(jù)數(shù)據(jù),決定網(wǎng)點(diǎn)的設(shè)置位置、派送時(shí)間、快遞的運(yùn)輸/轉(zhuǎn)運(yùn)路徑等,從而讓快遞的時(shí)效性得到更好地保障。
但是由于運(yùn)單數(shù)據(jù)量極大,且傳統(tǒng)手寫(xiě)體的運(yùn)單圖片不易識(shí)別,導(dǎo)致以往積累的運(yùn)單大部分成為無(wú)效數(shù)據(jù)。傳統(tǒng)的運(yùn)單數(shù)據(jù)識(shí)別是人工跟單,要去識(shí)別各種各樣的字體,識(shí)別率在60%左右?,F(xiàn)在完成第一輪的翻譯后,結(jié)合AI技術(shù)和現(xiàn)有的技術(shù)庫(kù)歷史數(shù)據(jù)進(jìn)行識(shí)別,識(shí)別率可能能夠達(dá)到90%。效率提升的代價(jià)是激增的并行計(jì)算量。
圖片識(shí)別屬于“計(jì)算密集型業(yè)務(wù)”,因此單機(jī)密度和多機(jī)集群規(guī)模將直接影響人工智能應(yīng)用的上線和運(yùn)行效率。目前,單機(jī)4GPU卡已經(jīng)成為標(biāo)配,8卡正在成為主流。以浪潮NF5288M5為例,在2U空間內(nèi)就能夠支持部署8塊NVLink或PCI-E 接口的GPU卡,單機(jī)即可提供單精度120 TFLOPs的峰值計(jì)算能力。并且可以在不依賴CPU的前提下,實(shí)現(xiàn)機(jī)內(nèi)點(diǎn)到點(diǎn)通訊,減少了異構(gòu)通訊的次數(shù)。同時(shí),NF5288M5還可以掛接GPU擴(kuò)展箱,支持在雙路服務(wù)器系統(tǒng)中擴(kuò)展到16片GPU卡, 實(shí)現(xiàn)更低的GPU并行通信延遲。
目前,浪潮服務(wù)器已經(jīng)應(yīng)用于國(guó)內(nèi)主流快遞公司。未來(lái),通過(guò)浪潮SA5224M4和NF5288M5的運(yùn)單圖片存儲(chǔ)和識(shí)別分析系統(tǒng)方案,能夠讓數(shù)據(jù)成為優(yōu)化快遞配送時(shí)效及未來(lái)決策的依據(jù)。