omniture

AI應(yīng)用大咖說(shuō):多相機(jī)的時(shí)空融合模型架構(gòu)算法優(yōu)化

2022-12-23 11:18 5369

北京2022年12月23日 /美通社/ -- 隨著人工智能技術(shù)的廣泛應(yīng)用,智能駕駛系統(tǒng)正在成為汽車的標(biāo)配。而作為識(shí)別周邊環(huán)境的“火眼金睛”,“感知”模塊是智能駕駛系統(tǒng)安全、高效運(yùn)行的核心,而視覺(jué)感知更是其中無(wú)比重要的一環(huán)。浪潮信息AI團(tuán)隊(duì)長(zhǎng)期關(guān)注AI算法在自動(dòng)駕駛中的應(yīng)用,并致力于用軟硬件的算法和技術(shù)創(chuàng)新推動(dòng)行業(yè)的進(jìn)步,做出創(chuàng)新性的成績(jī)。最近,浪潮信息在自動(dòng)駕駛感知權(quán)威數(shù)據(jù)集 NuScenes 評(píng)測(cè)中,自研算法 DABNet4D 獲得 0. 624 的NDS精度,位列Camera-only榜單第一名。

近日,浪潮信息人工智能與高性能應(yīng)用軟件部自動(dòng)駕駛AI研究員趙云博士,在題為《探索自動(dòng)駕駛純視覺(jué)感知精度新突破 -- 多相機(jī)的時(shí)空融合模型架構(gòu)算法優(yōu)化》的自動(dòng)駕駛線上研討會(huì)上,向我們揭開(kāi)了這一自動(dòng)駕駛感知算法的神秘面紗。

多相機(jī)多任務(wù)融合模型優(yōu)勢(shì)

自動(dòng)駕駛汽車完成自動(dòng)駕駛出行任務(wù),離不開(kāi)感知、決策、控制三大要素。其中感知系統(tǒng)是車輛和環(huán)境交互的紐帶,相當(dāng)于無(wú)人汽車的眼睛。根據(jù)所用的傳感器以及傳感器數(shù)量和種類等,自動(dòng)駕駛感知算法可以簡(jiǎn)單的分為單傳感器(單任務(wù)和多任務(wù))模型、(同類和不同類)傳感器融合模型等四類,并各有其優(yōu)缺點(diǎn)。

自動(dòng)駕駛感知的關(guān)鍵是3D目標(biāo)檢測(cè)任務(wù),又分為基于相機(jī)、Lidar的3D目標(biāo)檢測(cè),以及相機(jī)、Lidar、Radar融合等技術(shù)。盡管目前對(duì)于3D目標(biāo)檢測(cè)已經(jīng)有不少的研究,但是在實(shí)際應(yīng)用中仍然有許多的問(wèn)題,其難點(diǎn)主要在于:

  • 遮擋,遮擋分為兩種情況,目標(biāo)物體相互遮擋和目標(biāo)物體被背景遮擋
  • 截?cái)啵糠治矬w被圖片截?cái)?,在圖片中只能顯示部分物體
  • 小目標(biāo),相對(duì)輸入圖片大小,目標(biāo)物體所占像素點(diǎn)極少
  • 缺失深度信息,2D圖片相對(duì)于激光數(shù)據(jù)存在信息稠密、成本低的優(yōu)勢(shì),但是也存在缺失深度信息的缺點(diǎn)
  • 現(xiàn)有方式大都依賴于物體表面紋理或結(jié)構(gòu)特征,容易造成混淆。

目前,基于相機(jī)的方法與基于Lidar的方法準(zhǔn)確度差距正在縮小,而隨著Lidar成本降低,融合技術(shù)在成本和準(zhǔn)確度的平衡上存在優(yōu)勢(shì)。

基于多相機(jī)多任務(wù)融合模型的3D目標(biāo)檢測(cè)技術(shù)正是在成本優(yōu)勢(shì)與日益增長(zhǎng)的準(zhǔn)確度兩相促進(jìn)下得到越來(lái)越多的認(rèn)可。目前,多相機(jī)多任務(wù)融合模型主要遵循特征提取、特征編碼、統(tǒng)一BEV、特征解碼和檢測(cè)頭五大部分。

其中,統(tǒng)一BEV 就是鳥(niǎo)瞰圖,亦即將圖像特征統(tǒng)一投射到BEV視角下,用以表示車周圍環(huán)境?!敖y(tǒng)一BEV”的工作可以分為兩大類,一種基于幾何視覺(jué)的變換,也就是基于相機(jī)的物理原理,優(yōu)勢(shì)在于模型確定,難度在深度估計(jì);另一種是基于神經(jīng)網(wǎng)絡(luò)的變換。

浪潮DABNet4D算法三大創(chuàng)新突破

據(jù)趙云介紹,浪潮DABNet4D算法遵循上述框架,采用基于幾何視覺(jué)的變換方法,設(shè)計(jì)了端到端的模塊化整體架構(gòu),通過(guò)將環(huán)視圖檢測(cè)統(tǒng)一到BEV空間,為后續(xù)的工作提供了很好的模板。

DABNet4D模型被劃分為四個(gè)部分,Image-view Encoder,View-transformer,BEV-Encoder,Detection Head。其中Image-view Encoder為圖像編碼模塊將原始圖像轉(zhuǎn)換為高層特征表示。 View-Transformer模塊負(fù)責(zé)將圖像特征轉(zhuǎn)換到BEV坐標(biāo)中,主要包括三個(gè)模塊:深度預(yù)測(cè)模塊、特征轉(zhuǎn)換模塊和多幀特征融合模塊。BEV-Encoder & Heads主要是對(duì)融合BEV特征進(jìn)行編碼;Heads用來(lái)完成最終的3D目標(biāo)檢測(cè)任務(wù)。


創(chuàng)新突破一 數(shù)據(jù)樣本增強(qiáng)

為平衡不同種類的樣本數(shù)量,浪潮信息AI團(tuán)隊(duì)創(chuàng)新研發(fā)了基于3D的圖像貼圖技術(shù)。主要是通過(guò)從整個(gè)訓(xùn)練數(shù)據(jù)集中根據(jù)每個(gè)樣本的3D真值標(biāo)簽,提取樣本數(shù)據(jù)構(gòu)建樣本數(shù)據(jù)庫(kù)。訓(xùn)練過(guò)程中,通過(guò)在樣本數(shù)據(jù)庫(kù)中采樣獲取備選樣本集合,按照真值深度值從遠(yuǎn)至近貼圖,并將對(duì)應(yīng)的Lidar數(shù)據(jù)進(jìn)行粘貼。

創(chuàng)新突破二 深度信息優(yōu)化

基于圖像的3D目標(biāo)檢測(cè),由于攝像頭拍攝的照片和視頻是將原有3D空間直接投射至2D平面中,所以會(huì)丟失深度信息,由此所面臨的核心問(wèn)題為如何精確地估計(jì)圖像中物體的深度。針對(duì)此問(wèn)題,浪潮信息AI團(tuán)隊(duì)進(jìn)行了兩方面的改進(jìn)工作:一是建立更復(fù)雜的深度估計(jì)網(wǎng)絡(luò),通過(guò)設(shè)計(jì)更深、更多參數(shù)的深度神經(jīng)網(wǎng)絡(luò),以增大深度估計(jì)網(wǎng)絡(luò)的預(yù)測(cè)能力和感受野;二是采用兩層級(jí)聯(lián)深度估計(jì)網(wǎng)絡(luò)結(jié)構(gòu),第一層估計(jì)網(wǎng)絡(luò)估計(jì)的深度作為特征,輸入到第二層級(jí)聯(lián)網(wǎng)絡(luò)中。除了進(jìn)行網(wǎng)絡(luò)創(chuàng)新設(shè)計(jì)優(yōu)化,在訓(xùn)練階段也采用深度監(jiān)督、深度補(bǔ)全、損失函數(shù)等優(yōu)化方法。

創(chuàng)新突破三 四維時(shí)空融合

對(duì)于自動(dòng)駕駛車輛而言,它所處的環(huán)境更像是一個(gè)動(dòng)態(tài)變化的三維空間。為進(jìn)一步引入車輛所處的動(dòng)態(tài)中的歷史,通過(guò)引入時(shí)間信息進(jìn)行時(shí)序融合,提升velocity預(yù)測(cè)的精度,實(shí)現(xiàn)對(duì)暫時(shí)被遮擋的物體更好的跟蹤效果。對(duì)此,浪潮信息AI團(tuán)隊(duì)做了以下幾點(diǎn)創(chuàng)新:1、更精細(xì)的時(shí)空對(duì)齊操作,使前后幀特征結(jié)合的更精確。根據(jù)不同時(shí)刻車輛的位姿以及車輛、相機(jī)、Lidar坐標(biāo)系的轉(zhuǎn)換關(guān)系,獲取不同時(shí)刻相機(jī)與指定Lidar的坐標(biāo)系的轉(zhuǎn)換關(guān)系,進(jìn)一步減少由于采集車輛自身運(yùn)動(dòng)對(duì)多幀BEV特征對(duì)齊帶來(lái)的影響;2、從sweep數(shù)據(jù)幀隨機(jī)選取作為前一幀與當(dāng)前幀進(jìn)行匹配,大幅地增強(qiáng)數(shù)據(jù)的多樣性;3、不同時(shí)序幀同步進(jìn)行數(shù)據(jù)樣本貼圖增強(qiáng),使得速度、轉(zhuǎn)向等預(yù)測(cè)更精準(zhǔn)。

致勝NuScenes自動(dòng)駕駛評(píng)測(cè)

本次浪潮DABNet4D算法所登頂?shù)淖詣?dòng)駕駛NuScenes榜單,其數(shù)據(jù)集包含波士頓和新加坡兩大城市收集的大約15小時(shí)的駕駛數(shù)據(jù),覆蓋了城市、住宅區(qū)、郊區(qū)、工業(yè)區(qū)各個(gè)場(chǎng)景,也涵蓋了白天、黑夜、晴天、雨天、多云等不同時(shí)段不同天氣狀況。數(shù)據(jù)采集傳感器包括了6個(gè)相機(jī)、1個(gè)激光雷達(dá)、5個(gè)毫米波雷達(dá)、以及GPS和IMU,具備360°的視野感知能力。

NuScenes數(shù)據(jù)集提供二維、三維物體標(biāo)注、點(diǎn)云分割、高精地圖等豐富的標(biāo)注信息。目前,基于NuScenes數(shù)據(jù)集的評(píng)測(cè)任務(wù)主要包括3D目標(biāo)檢測(cè)(3D object Detection)、3D目標(biāo)跟蹤(3D object Tracking)、預(yù)測(cè)軌跡(prediction trajectories)、激光雷達(dá)分割(Lidar Segmentation)、全景分割和跟蹤(lidar Panoptic segmentation and tracking)。其中3D目標(biāo)檢測(cè)任務(wù)備受研究者關(guān)注,自從NuScenes挑戰(zhàn)賽公開(kāi)以來(lái)至今,已提交220余次結(jié)果。

浪潮DABNet4D算法在訓(xùn)練與評(píng)測(cè)過(guò)程中使用的底層硬件支撐是浪潮NF5488A5 AI服務(wù)器。開(kāi)發(fā)過(guò)程中,模型在訓(xùn)練集上進(jìn)行單次訓(xùn)練運(yùn)行 20 個(gè) epochs(without CBGS),需要耗費(fèi) 約360 個(gè) GPU 小時(shí)。

而為了滿足此類算法超高的AI算力需求,浪潮信息提供集群解決方案,采用 Spine-Leaf 的結(jié)構(gòu)進(jìn)行節(jié)點(diǎn)擴(kuò)展,集成超 2000 GPU 卡集群,達(dá)到 90% 的擴(kuò)展性。同時(shí),該評(píng)測(cè)也是在 AIStation 的平臺(tái)基礎(chǔ)上進(jìn)行開(kāi)發(fā),有效加速了浪潮DABNet4D算法的開(kāi)發(fā)與訓(xùn)練。

自動(dòng)駕駛技術(shù)發(fā)展撬動(dòng)AI算力需求爆發(fā)

自動(dòng)駕駛技術(shù)感知路線之爭(zhēng)一直是行業(yè)關(guān)注的焦點(diǎn),雖然特斯拉純視覺(jué)方案在業(yè)內(nèi)獨(dú)領(lǐng)風(fēng)騷,但多傳感融合方案被業(yè)內(nèi)視為實(shí)現(xiàn)自動(dòng)駕駛安全冗余的關(guān)鍵手段。

為了更好的衡量3D檢測(cè)效果,其評(píng)價(jià)指標(biāo)已經(jīng)從原來(lái)的2D的AP已經(jīng)逐漸變?yōu)锳P-3D和AP-BEV。在數(shù)據(jù)集的選擇上也從KITTI逐漸變?yōu)楦蠛透鄻拥腘uScenes數(shù)據(jù)集。

未來(lái),基于LiDAR、相機(jī)等多源感知融合算法將有力地提升模型的檢測(cè)精度,同時(shí),Occupancy network、Nerf等先進(jìn)算法模型也會(huì)逐步應(yīng)用于自動(dòng)駕駛感知模型的開(kāi)發(fā)與訓(xùn)練中。

自動(dòng)駕駛數(shù)據(jù)量急劇增大、自動(dòng)駕駛感知模型復(fù)雜度逐步提升,以及模型更新頻率逐漸加快,都將推動(dòng)自動(dòng)駕駛的蓬勃發(fā)展,也必然帶來(lái)更大的模型訓(xùn)練算力需求。

【更多研討會(huì)精彩瞬間,請(qǐng)?jiān)L問(wèn)“視頻號(hào)-浪潮數(shù)據(jù)中心業(yè)務(wù)-12月9日直播回放】

消息來(lái)源:浪潮信息
China-PRNewsire-300-300.png
全球TMT
微信公眾號(hào)“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營(yíng)動(dòng)態(tài)、財(cái)報(bào)信息、企業(yè)并購(gòu)消息。掃描二維碼,立即訂閱!
collection