国产熟女一区二区五月婷-又爽又黄又无遮挡网站-亚洲国产精品视频在线播放-国内偷拍国内精品网999

當(dāng)前位置:首頁(yè) > 最新資訊 > 行業(yè)資訊

淺析自動(dòng)駕駛多模態(tài)傳感器融合

多模態(tài)融合是感知自動(dòng)駕駛系統(tǒng)的一項(xiàng)基本任務(wù),最近引起了許多研究人員的興趣。然而,由于原始數(shù)據(jù)噪聲大、信息利用率低以及多模態(tài)傳感器的無(wú)對(duì)準(zhǔn),達(dá)到相當(dāng)好的性能并非易事。本文對(duì)現(xiàn)有的基于多模態(tài)自動(dòng)駕駛感知任務(wù)方法進(jìn)行了文獻(xiàn)綜述。分析超過(guò)50篇論文,包括攝像頭和激光雷達(dá),試圖解決目標(biāo)檢測(cè)和語(yǔ)義分割任務(wù)。與傳統(tǒng)的融合模型分類方法不同,作者從融合階段的角度,通過(guò)更合理的分類法將融合模型分為兩大類,四小類。此外,研究了當(dāng)前的融合方法,就潛在的研究機(jī)會(huì)展開(kāi)討論。

最近,用于自動(dòng)駕駛感知任務(wù)的多模態(tài)融合方法發(fā)展迅速,其從跨模態(tài)特征表示和更可靠的模態(tài)傳感器,到更復(fù)雜、更穩(wěn)健的多模態(tài)融合深度學(xué)習(xí)模型和技術(shù)。然而,只有少數(shù)文獻(xiàn)綜述集中在多模態(tài)融合方法本身的方法論上,大多數(shù)文獻(xiàn)都遵循傳統(tǒng)規(guī)則,將其分為前融合、深度(特征)融合和后融合三大類,重點(diǎn)關(guān)注深度學(xué)習(xí)模型中融合特征的階段,無(wú)論是數(shù)據(jù)級(jí)、特征級(jí)還是提議級(jí)。首先,這種分類法沒(méi)有明確定義每個(gè)級(jí)別的特征表示。其次,它表明,激光雷達(dá)和攝像頭這兩個(gè)分支在處理過(guò)程中始終是對(duì)稱的,模糊了激光雷達(dá)分支中融合提議級(jí)特征和攝像頭分支中融合數(shù)據(jù)級(jí)特征的情況。綜上所述,傳統(tǒng)的分類法可能是直觀的,但對(duì)于總結(jié)最近出現(xiàn)的越來(lái)越多的多模態(tài)融合方法來(lái)說(shuō)卻很落后,這使得研究人員無(wú)法從系統(tǒng)的角度對(duì)其進(jìn)行研究和分析。

如圖是自動(dòng)駕駛感知任務(wù)的示意圖:

深度學(xué)習(xí)模型僅限于輸入的表示。為了實(shí)現(xiàn)該模型,需要在數(shù)據(jù)輸入模型之前,通過(guò)一個(gè)復(fù)雜的特征提取器對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理。

至于圖像分支,大多數(shù)現(xiàn)有方法保持與下游模塊輸入的原始數(shù)據(jù)相同的格式。然而,激光雷達(dá)分支高度依賴于數(shù)據(jù)格式,這種格式強(qiáng)調(diào)不同的特性,并對(duì)下游模型設(shè)計(jì)產(chǎn)生巨大影響。因此,這里將其總結(jié)為基于點(diǎn)、基于體素和基于二維映射的點(diǎn)云數(shù)據(jù)格式,以適應(yīng)異構(gòu)深度學(xué)習(xí)模型。

數(shù)據(jù)級(jí)融合或前融合方法,通過(guò)空間對(duì)齊直接融合不同模式的原始傳感器數(shù)據(jù)。特征級(jí)融合或深度融合方法通過(guò)級(jí)聯(lián)或元素相乘在特征空間中混合跨模態(tài)數(shù)據(jù)。目標(biāo)級(jí)融合方法將各模態(tài)模型的預(yù)測(cè)結(jié)果結(jié)合起來(lái),做出最終決策。

一種新的分類法,將所有融合方法分為強(qiáng)融合和弱融合,如圖展示了二者之間的關(guān)系:

為性能比較,KITTI benchmark的3D檢測(cè)和鳥瞰目標(biāo)檢測(cè)。如下兩個(gè)表分別給出BEV和3D的KITTI測(cè)試數(shù)據(jù)集上多模態(tài)融合方法的實(shí)驗(yàn)結(jié)果。

根據(jù)激光雷達(dá)和攝像頭數(shù)據(jù)表示的不同組合階段,將強(qiáng)融合再分為前融合、深度融合、后融合和非對(duì)稱融合四類。作為研究最多的融合方法,強(qiáng)融合近年來(lái)取得了許多杰出的成就。

如圖所示:強(qiáng)融合的每個(gè)小類都高度依賴于激光雷達(dá)點(diǎn)云,而不是攝像頭數(shù)據(jù)。

前融合。數(shù)據(jù)級(jí)融合是一種通過(guò)原始數(shù)據(jù)級(jí)的空間對(duì)齊和投影直接融合每個(gè)模態(tài)數(shù)據(jù)的方法,與之不同的是,前融合在數(shù)據(jù)級(jí)是融合激光雷達(dá)數(shù)據(jù),在數(shù)據(jù)級(jí)或特征級(jí)則融合攝像頭數(shù)據(jù)。一個(gè)例子如圖所示:

在激光雷達(dá)分支,點(diǎn)云可以是有反射圖、體素化張量、前視圖/距離視圖/鳥瞰視圖以及偽點(diǎn)云等形式。盡管所有這些數(shù)據(jù)都具有不同的內(nèi)在特征,與激光雷達(dá)主干網(wǎng)高相關(guān),但除了偽點(diǎn)云之外,大多數(shù)據(jù)通過(guò)基于規(guī)則的處理生成。此外,與特征空間嵌入相比,該階段的數(shù)據(jù)仍然具有可解釋性,因此所有這些激光雷達(dá)數(shù)據(jù)表示都直觀可視。

對(duì)于圖像分支,嚴(yán)格的數(shù)據(jù)級(jí)定義應(yīng)該只包含RGB或灰度等數(shù)據(jù),缺乏通用性和合理性。與前融合的傳統(tǒng)定義相比,攝像頭數(shù)據(jù)放松為數(shù)據(jù)級(jí)和特征級(jí)數(shù)據(jù)。特別是,這里將有利于三維目標(biāo)檢測(cè)的圖像語(yǔ)義分割任務(wù)結(jié)果作為特征級(jí)表示,因?yàn)檫@些“目標(biāo)級(jí)”特征與整個(gè)任務(wù)的最終目標(biāo)級(jí)提議不同。

深度融合。深度融合方法在激光雷達(dá)分支的特征級(jí)對(duì)跨模態(tài)數(shù)據(jù)融合,但在圖像分支的數(shù)據(jù)級(jí)和特征級(jí)做融合。例如,一些方法使用特征提取器分別獲取激光雷達(dá)點(diǎn)云和攝像頭圖像的嵌入表示,并通過(guò)一系列下游模塊將特征融合到兩種模式中。然而,與其他強(qiáng)融合方法不同,深度融合有時(shí)以級(jí)聯(lián)方式融合特征,這兩種方法都利用原始和高級(jí)語(yǔ)義信息。深度融合的一個(gè)例子如圖所示:

后融合。后融合,也稱為目標(biāo)級(jí)融合,指的是融合每個(gè)模態(tài)中流水線結(jié)果的方法。例如,一些后融合方法利用激光雷達(dá)點(diǎn)云分支和攝像頭圖像分支的輸出,并基于兩種模式的結(jié)果進(jìn)行最終預(yù)測(cè)。請(qǐng)注意,兩個(gè)分支提議的數(shù)據(jù)格式應(yīng)與最終結(jié)果相同,但在質(zhì)量、數(shù)量和精度上有所不同。后融合是一種多模態(tài)信息優(yōu)化最終提議的集成方法(ensemble method)。如圖是后融合的一個(gè)例子:

非對(duì)稱融合。除了早融合、深度融合和后融合外,一些方法以不同的權(quán)限處理跨模態(tài)分支,因此融合一個(gè)分支的目標(biāo)級(jí)信息和其他分支的數(shù)據(jù)級(jí)或特征級(jí)信息,定義為非對(duì)稱融合。強(qiáng)融合的其他方法將兩個(gè)分支視為似乎相等的狀態(tài),非對(duì)稱融合至少有一個(gè)分支占主導(dǎo)地位,而其他分支提供輔助信息來(lái)執(zhí)行最終任務(wù)。如圖是非對(duì)稱融合的一個(gè)例子:可能具有提議的相同提取特征,但非對(duì)稱融合只有來(lái)自一個(gè)分支的一個(gè)提議,而后融合有來(lái)自所有分支的提議。

與強(qiáng)融合不同,弱融合方法不會(huì)以多種方式直接從分支融合數(shù)據(jù)/特征/目標(biāo),而是以其他方式操作數(shù)據(jù)?;谌跞诤系姆椒ㄍǔJ褂没谝?guī)則的方法來(lái)利用一種模態(tài)數(shù)據(jù)作為監(jiān)督信號(hào),以指導(dǎo)另一模態(tài)的交互。如圖展示了弱融合模式的基本框架:

有可能圖像分支中CNN的2D提議導(dǎo)致原始激光雷達(dá)點(diǎn)云出現(xiàn)截錐體(frustum)。然而,與圖像特征組合非對(duì)稱融合不同,弱融合直接將選擇的原始激光雷達(dá)點(diǎn)云輸入到激光雷達(dá)主干網(wǎng),以輸出最終提議。

有些工作不能簡(jiǎn)單地定義為上述任何類型的融合,在整個(gè)模型框架中采用多種融合方法,例如深度融合和后融合的結(jié)合,也有將前融合和深度融合結(jié)合在一起。這些方法從模型設(shè)計(jì)看存在冗余,這不是融合模塊的主流。

待解決的問(wèn)題有一些分析。

當(dāng)前的融合模型面臨著錯(cuò)對(duì)齊和信息丟失的問(wèn)題。此外,平融合(flat fusion)操作也阻止了感知任務(wù)性能的進(jìn)一步提高??偨Y(jié)一下:

錯(cuò)對(duì)齊和信息丟失:傳統(tǒng)的前融合和深度融合方法利用外部標(biāo)定矩陣將所有激光雷達(dá)點(diǎn)直接投影到相應(yīng)的像素,反之亦然。然而,由于傳感器噪聲,這種逐像素對(duì)齊不夠精確。因此,可以采取周圍的信息作為補(bǔ)充,會(huì)產(chǎn)生更好的性能。此外,在輸入和特征空間的轉(zhuǎn)換過(guò)程中,還存在其他一些信息損失。通常,降維操作的投影不可避免地會(huì)導(dǎo)致大量信息丟失,例如,將3-D激光雷達(dá)點(diǎn)云映射到2-DBEV圖像。將兩個(gè)模態(tài)數(shù)據(jù)映射到另一個(gè)專門為融合設(shè)計(jì)的高維表示,可以有效地利用原始數(shù)據(jù),減少信息損失。

更合理的融合操作:級(jí)聯(lián)和元素相乘這些簡(jiǎn)單的操作可能無(wú)法融合分布差異較大的數(shù)據(jù),難以彌合兩個(gè)模態(tài)之間的語(yǔ)義鴻溝。一些工作試圖用更復(fù)雜的級(jí)聯(lián)結(jié)構(gòu)來(lái)融合數(shù)據(jù)并提高性能。

前視圖單幀圖像是自動(dòng)駕駛感知任務(wù)的典型場(chǎng)景。然而,大多數(shù)框架利用有限的信息,沒(méi)有詳細(xì)設(shè)計(jì)輔助任務(wù)來(lái)進(jìn)一步理解駕駛場(chǎng)景。總結(jié)一下:

采用更多的潛在信息:現(xiàn)有方法缺乏對(duì)多維度和來(lái)源信息的有效利用。其中大多數(shù)都集中在前視圖的單幀多模態(tài)數(shù)據(jù)上。其他有意義的信息還有語(yǔ)義、空間和場(chǎng)景上下文信息。一些模型試圖用圖像語(yǔ)義分割任務(wù)結(jié)果作為附加特征,而其他模型可能利用神經(jīng)網(wǎng)絡(luò)主干中間層的特征。在自動(dòng)駕駛場(chǎng)景中,許多明確語(yǔ)義信息的下游任務(wù)可能會(huì)極大地提高目標(biāo)檢測(cè)任務(wù)的性能。例如車道檢測(cè)、語(yǔ)義分割。因此,未來(lái)的研究可以通過(guò)各種下游任務(wù)(如檢測(cè)車道、交通燈和標(biāo)志)共同構(gòu)建一個(gè)完整的城市場(chǎng)景的認(rèn)知框架,幫助感知任務(wù)的表現(xiàn)。此外,當(dāng)前的感知任務(wù)主要依賴于忽略時(shí)間信息的單一框架。最近基于激光雷達(dá)的方法結(jié)合了一個(gè)幀序列來(lái)提高性能。時(shí)間序列信息包含序列化的監(jiān)控信號(hào),與單幀方法相比,它可以提供更穩(wěn)健的結(jié)果。

表征學(xué)習(xí)的自監(jiān)督:相互監(jiān)督的信號(hào)自然地存在于從同一個(gè)真實(shí)世界場(chǎng)景但不同角度采樣的跨模態(tài)數(shù)據(jù)中。然而,由于缺乏對(duì)數(shù)據(jù)的深入理解,目前無(wú)法挖掘出各模態(tài)之間的協(xié)同關(guān)系。未來(lái)的研究可以集中在如何利用多模態(tài)數(shù)據(jù)進(jìn)行自監(jiān)督學(xué)習(xí),包括預(yù)訓(xùn)練、微調(diào)或?qū)Ρ葘W(xué)習(xí)。通過(guò)實(shí)施這些最先進(jìn)的機(jī)制,融合模型將加深對(duì)數(shù)據(jù)的理解并取得更好的結(jié)果。

域偏差和數(shù)據(jù)分辨率與真實(shí)場(chǎng)景和傳感器高相關(guān)。這些缺陷阻礙了自動(dòng)駕駛深度學(xué)習(xí)模型的大規(guī)模訓(xùn)練和實(shí)施

域偏差:在自主駕駛感知場(chǎng)景中,由不同傳感器提取的原始數(shù)據(jù)伴隨著域相關(guān)特征。不同的攝像頭系統(tǒng)有其光學(xué)特性,而激光雷達(dá)可能因機(jī)械激光雷達(dá)和固態(tài)激光雷達(dá)而不同。更重要的是,數(shù)據(jù)本身可能是有域偏差的,例如天氣、季節(jié)或地理位置。因此,檢測(cè)模型無(wú)法順利適應(yīng)新的場(chǎng)景。由于泛化失敗,這些缺陷妨礙大規(guī)模數(shù)據(jù)集的收集和原始訓(xùn)練數(shù)據(jù)可重用性。

分辨率沖突:來(lái)自不同模式的傳感器通常具有不同的分辨率。例如,激光雷達(dá)的空域密度明顯低于圖像的空域密度。無(wú)論采用何種投影方法,由于無(wú)法找到對(duì)應(yīng)關(guān)系,一些信息被消除。這可能導(dǎo)致模型被一個(gè)特定模態(tài)的數(shù)據(jù)所主導(dǎo),無(wú)論是特征向量的分辨率不同還是原始信息的不平衡。

猜你喜歡