北京2022年7月4日 /美通社/ -- 在近日舉辦的IEEE國(guó)際計(jì)算機(jī)與模式識(shí)別會(huì)議CVPR 2022期間,浪潮信息AI團(tuán)隊(duì)提交的論文《CoDo: Contrastive Learning with Downstream Background Invariance for Detection (CoDo:在自監(jiān)督學(xué)習(xí)中引入下游數(shù)據(jù)的背景不變性)》成功入選。論文提出了一種新的自監(jiān)督學(xué)習(xí)框架,在自監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練過(guò)程兼顧下游數(shù)據(jù)的背景不變性,以提升自監(jiān)督學(xué)習(xí)在下游目標(biāo)檢測(cè)任務(wù)的性能,并通過(guò)初步實(shí)驗(yàn)證明了方法的有效性。CVPR是計(jì)算機(jī)視覺(jué)領(lǐng)域三大世界頂級(jí)會(huì)議之一,今年線下注冊(cè)參會(huì)人數(shù)達(dá)到了5641人。在論文方面,CVPR 2022共收到了8161篇投稿,最終接收了2064篇論文,接收率約為25.3%,論文研究方向涵蓋目標(biāo)檢測(cè)、圖像分割、醫(yī)學(xué)影像、模型壓縮、圖像處理、文本檢測(cè)等。
自監(jiān)督學(xué)習(xí)可以對(duì)海量數(shù)據(jù)進(jìn)行自主學(xué)習(xí),無(wú)需像監(jiān)督學(xué)習(xí)那樣進(jìn)行復(fù)雜的數(shù)據(jù)標(biāo)注,有望改變自動(dòng)駕駛等數(shù)據(jù)生成量巨大、標(biāo)注成本高昂行業(yè)的工作模式,因此被認(rèn)為是計(jì)算機(jī)視覺(jué)領(lǐng)域中有望帶來(lái)突破的重點(diǎn)方向。目前,雖然基于對(duì)比學(xué)習(xí)的自監(jiān)督學(xué)習(xí)方法在圖像分類任務(wù)上取得了與監(jiān)督型學(xué)習(xí)相近甚至更優(yōu)的性能,但是將其應(yīng)用于下游任務(wù)如目標(biāo)檢測(cè)時(shí),常常會(huì)出現(xiàn)明顯的性能差距。
浪潮信息AI團(tuán)隊(duì)提出的自監(jiān)督學(xué)習(xí)框架CoDo,在預(yù)訓(xùn)練中引入上下游任務(wù)數(shù)據(jù)集充當(dāng)背景,預(yù)訓(xùn)練圖像的推薦框粘貼到背景圖像上,邊框經(jīng)過(guò)比例變換及擾動(dòng)后,作為增強(qiáng)樣本參與對(duì)比學(xué)習(xí)。由于背景為上下游數(shù)據(jù)集,模型實(shí)際上獲得了前景目標(biāo)的背景不變性能力。這意味著無(wú)論背景如何變化,模型都能夠準(zhǔn)確定位前景目標(biāo),這對(duì)于目標(biāo)檢測(cè)類人工智能任務(wù)尤為重要。
論文采用CPJ數(shù)據(jù)增強(qiáng)方法、目標(biāo)檢測(cè)結(jié)構(gòu)對(duì)齊及層次對(duì)比學(xué)習(xí)構(gòu)建,并通過(guò)初步實(shí)驗(yàn)證明了方法的有效性。在實(shí)驗(yàn)中,研究團(tuán)隊(duì)使用浪潮AI服務(wù)器NF5488A5作為模型訓(xùn)練平臺(tái),使用COCO數(shù)據(jù)集以R50-FPN作為backbone的Mask R-CNN的目標(biāo)檢測(cè)與語(yǔ)義分割性能進(jìn)行分析。結(jié)果顯示,在1×schedule設(shè)置下,CoDo的檢測(cè)性能相比于基線模型MoCo-v2提升了0.8 AP,在2×schedule設(shè)置下,CoDo的檢測(cè)性能相比于基線模型MoCo-v2提升了0.9AP,而多視角版本的CoDom最終取得了43.1 AP的優(yōu)異性能。
Mask R-CNN(R50-FPN)在COCO數(shù)據(jù)集的的下游任務(wù)性能
此外,研究團(tuán)隊(duì)評(píng)估了CoDo中Query Network和Key Network的背景數(shù)據(jù)集的選擇策略。實(shí)驗(yàn)發(fā)現(xiàn),相比于兩路引入不同數(shù)據(jù)集,引入相同數(shù)據(jù)集性能更優(yōu),同時(shí)引入數(shù)據(jù)集的多樣性也對(duì)下游任務(wù)的性能有貢獻(xiàn)。
該論文已被CVPR 2022 L3D-IVU Workshop接收,本屆L3D-IVU Workshop的主題為利用有限標(biāo)簽數(shù)據(jù)實(shí)現(xiàn)圖像及視頻的學(xué)習(xí)理解。如想進(jìn)一步了解這篇論文,請(qǐng)點(diǎn)擊鏈接http://arxiv.org/abs/2205.04617下載全文。