刷新紀錄！浪潮AI獲自動駕駛nuScenes競賽目標檢測第一名

浪潮信息

2022-10-31 11:10 4980

北京2022年10月28日 /美通社/ -- 近日，在全球權(quán)威的自動駕駛nuScenes競賽的最新一期評測中，浪潮信息AI團隊斬獲純視覺3D目標檢測任務(wù)（nuScenes Detection task）第一名，并將關(guān)鍵性指標nuScenes Detection Score（NDS）提高到62.4%

自動駕駛已被眾多車企與AI 領(lǐng)先公司視為未來出行方式變革最重要的支撐性技術(shù)，而目標檢測作為自動駕駛技術(shù)的核心模塊，其算法的精度和穩(wěn)定性正在眾多AI研究團隊的推動下，不斷創(chuàng)下新高。nuScenes數(shù)據(jù)集是目前自動駕駛領(lǐng)域中最流行的公開數(shù)據(jù)集之一，數(shù)據(jù)采集自波士頓和新加坡的實際自動駕駛場景，是第一個集成攝像頭、激光雷達和毫米波雷達等多種傳感器，實現(xiàn)360度全傳感器覆蓋的數(shù)據(jù)集。nuScenes數(shù)據(jù)集提供了二維、三維物體標注、點云分割、高精地圖等豐富的標注信息，包含1000個場景，擁有140萬幀圖像、39萬幀激光雷達點云數(shù)據(jù)、23個物體類別、140萬個三維標注框，其數(shù)據(jù)標注量比KITTI數(shù)據(jù)集高出7倍以上。

此次浪潮信息AI團隊參與的純視覺3D目標檢測任務(wù)是競爭最激烈的賽道，吸引了百度、鑒智機器人、縱目科技、卡內(nèi)基梅隆大學、加利福尼亞大學伯克利分校、MIT、清華大學、香港科技大學、上海交通大學等全球各地的頂尖AI團隊。

純視覺3D目標檢測任務(wù)，就是在不使用激光雷達、毫米波雷達等額外的傳感器信息條件下，僅使用6個攝像頭完成車外360度環(huán)視視野的3D目標檢測，不僅需要檢測周圍環(huán)境中所有的車、行人、障礙物、交通標志、指示燈等若干類對象，還要精確感知到他們在真實物理世界中的位置、大小、方向、速度等信息。該項任務(wù)的主要難點是通過2D圖像難以準確的獲取目標的真實深度和速度，當提取的深度信息不準確時，一切的三維感知任務(wù)都會變得異常困難；而當提取的速度信息不準確時，則可能會對后續(xù)的決策規(guī)劃任務(wù)產(chǎn)生致命性的影響。

浪潮信息AI團隊創(chuàng)新開發(fā)了基于多相機的時空融合模型架構(gòu)（Inspur_DABNet4D），在多視角視覺輸入統(tǒng)一轉(zhuǎn)換到BEV（Bird Eye View）特征空間這一技術(shù)框架的基礎(chǔ)上，引入了數(shù)據(jù)樣本增強、深度增強網(wǎng)絡(luò)、時空融合網(wǎng)絡(luò)、預訓練權(quán)重等，得到了更魯棒更精確的BEV特征，大幅地優(yōu)化了目標物體監(jiān)測速度和位移方向預測。

基于多相機的時空融合模型架構(gòu)實現(xiàn)了四大核心技術(shù)突破。一是，更豐富的數(shù)據(jù)樣本增強算法，將真值以真實的3D物理坐標實現(xiàn)拷貝貼圖，并實現(xiàn)了時序中的擴展，顯著的提高目標檢測精度，可將mAP（全類平均正確率，mean Average Precision）平均提升2%+；二是，更強大的深度增強網(wǎng)絡(luò)，主要針對現(xiàn)有方案深度信息難以學習和建模的問題，通過深度網(wǎng)絡(luò)架構(gòu)優(yōu)化、點云數(shù)據(jù)監(jiān)督指導訓練、深度補全等技術(shù)，大幅提高深度預測精度；三是，更精細的時空融合網(wǎng)絡(luò)，除了進一步優(yōu)化駕駛場景中自車運動所帶來的時空信息錯位融合問題，還引入了sweep幀數(shù)據(jù)隨機抽取與當前幀融合，并實現(xiàn)不同幀的數(shù)據(jù)樣本同步增強操作，使得模型能夠端到端學習到更精細的時序特征；四是，更完善的統(tǒng)一建模形式，即針對駕駛場景的視角廣、尺度大、任務(wù)多的特點，設(shè)計了端到端的特征提取、融合、檢測頭的統(tǒng)一建模架構(gòu)，結(jié)構(gòu)簡單、訓練高效、場景通用。預訓練模型可隨時替換自監(jiān)督模型，快捷便利地完成測試和精度提升。

得益于更先進算法和更高算力的進步，nuScenes競賽的3D目標檢測任務(wù)榜單成績在2022年取得大幅提升，其中浪潮信息AI團隊將關(guān)鍵性指標NDS提升到62.4%，而相比而言年初的榜單最佳成績是47%。

消息來源：浪潮信息