【ZiDongHua 之駕駛自動(dòng)化收錄關(guān)鍵詞:自動(dòng)駕駛 人工智能 機(jī)器學(xué)習(xí) 計(jì)算機(jī)視覺(jué)】
  
  萬(wàn)字盤點(diǎn)自動(dòng)駕駛關(guān)鍵技術(shù)
  
  本文概述了自動(dòng)駕駛技術(shù)的技術(shù)方面以及存在的問(wèn)題,研究了自動(dòng)駕駛系統(tǒng)的主要領(lǐng)域,如感知、地圖和定位、預(yù)測(cè)、規(guī)劃和控制、仿真、V2X和安全等,特別是在數(shù)據(jù)閉環(huán)的框架下詳細(xì)闡述了所有這些問(wèn)題。數(shù)據(jù)閉環(huán)是解決“長(zhǎng)尾”自動(dòng)駕駛問(wèn)題的流行平臺(tái)。
  
  自動(dòng)駕駛作為人工智能與機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)等最具挑戰(zhàn)性的應(yīng)用之一,實(shí)際上已經(jīng)被證明是一個(gè)“長(zhǎng)尾”問(wèn)題,即幾乎沒(méi)有出現(xiàn)cornor case或安全關(guān)鍵場(chǎng)景。
  
  目前,已經(jīng)有一些關(guān)于自動(dòng)駕駛技術(shù)的調(diào)查論文,從整個(gè)系統(tǒng)/平臺(tái)到單個(gè)模塊/功能。
  
  ▍自動(dòng)駕駛技術(shù)概述
  
  本節(jié)簡(jiǎn)要介紹自動(dòng)駕駛的基本功能和模塊,如圖1所示,包括硬件和軟件架構(gòu)、感知、預(yù)測(cè)、地圖和定位、規(guī)劃、控制、安全、模擬和V2X等。
 
  
  自動(dòng)化水平
  
  美國(guó)交通部和國(guó)家公路交通安全管理局(NHTSA)采用了汽車工程師學(xué)會(huì)(SAE)的自動(dòng)化水平國(guó)際標(biāo)準(zhǔn),該標(biāo)準(zhǔn)定義了從level-0(人類駕駛員完全控制)到level-5(車輛完全自行駕駛)的自動(dòng)駕駛汽車。
  
  在level-1中,駕駛員和自動(dòng)系統(tǒng)一起控制車輛。
  
  在level-2中,自動(dòng)系統(tǒng)完全控制車輛,但駕駛員必須隨時(shí)準(zhǔn)備立即干預(yù)。
  
  在level-3中,駕駛員可以擺脫駕駛?cè)蝿?wù),車輛將要求立即做出反應(yīng),因此駕駛員仍必須準(zhǔn)備在有限的時(shí)間內(nèi)進(jìn)行干預(yù)。
  
  在level-4中,與level-3相同,但出于安全考慮,不需要駕駛員注意,例如,駕駛員可以安全入睡或離開(kāi)駕駛員座椅。
  
  硬件
  
  自動(dòng)駕駛汽車測(cè)試平臺(tái)應(yīng)能夠?qū)崿F(xiàn)實(shí)時(shí)通信,如控制器局域網(wǎng)(CAN)總線和以太網(wǎng),并能夠?qū)崟r(shí)準(zhǔn)確地完成和控制車輛的方向、油門和制動(dòng)器。車輛傳感器配置是為了滿足環(huán)境感知的可靠性要求并最大限度地降低生產(chǎn)成本。
  
  自動(dòng)駕駛汽車的傳感主要分為3類:
  
  自車傳感
  
  定位
  
  周圍傳感
  
  自車感應(yīng)通過(guò)自車感覺(jué)傳感器測(cè)量當(dāng)前車輛狀態(tài),即速度、加速度、偏航和轉(zhuǎn)向角等。自車感應(yīng)傳感器包括里程計(jì)、慣性測(cè)量單元(IMU)、陀螺儀和CAN總線。定位,使用外部傳感器,如全球定位系統(tǒng)(GPS)或通過(guò)IMU讀數(shù)進(jìn)行航位推算,確定車輛的全球和本地位置。周圍感知使用外部傳感器來(lái)感知道路標(biāo)線、道路坡度、交通標(biāo)志、天氣狀況和障礙物。
  
  自車感知傳感器和外部感知傳感器可以分為主動(dòng)傳感器或被動(dòng)傳感器。有源傳感器以電磁波的形式發(fā)射能量,并測(cè)量返回時(shí)間以確定距離等參數(shù)。示例包括聲納、雷達(dá)和LiDAR傳感器。被動(dòng)傳感器不發(fā)射信號(hào),而是感知環(huán)境中已經(jīng)存在的電磁波(例如,基于光的和紅外的相機(jī))。
  
  另一個(gè)重要問(wèn)題是計(jì)算平臺(tái),它支持傳感器數(shù)據(jù)處理,以識(shí)別環(huán)境,并通過(guò)優(yōu)化、計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)等計(jì)算密集型算法對(duì)車輛進(jìn)行實(shí)時(shí)控制。有不同的計(jì)算平臺(tái),從CPU、GPU、ASIC到FPGA等。為了支持基于人工智能的自動(dòng)駕駛,需要云服務(wù)器支持大數(shù)據(jù)服務(wù),如大規(guī)模機(jī)器學(xué)習(xí)和大尺寸數(shù)據(jù)存儲(chǔ)(例如高清地圖)。
  
  為了支持車路協(xié)同,車輛側(cè)和路邊都需要邊緣通信和計(jì)算設(shè)備。自動(dòng)駕駛汽車中的傳感器配置示例如圖2所示。它安裝了激光雷達(dá)、攝像頭、雷達(dá)、GPS和IMU等。
 
  
  如果需要收集多模態(tài)傳感器數(shù)據(jù),則需要進(jìn)行傳感器校準(zhǔn),包括確定每個(gè)傳感器數(shù)據(jù)之間的坐標(biāo)系關(guān)系,例如相機(jī)校準(zhǔn)、相機(jī)-激光雷達(dá)校準(zhǔn)、激光雷達(dá)-IMU校準(zhǔn)和相機(jī)-雷達(dá)校準(zhǔn)。
  
  此外,傳感器之間需要使用統(tǒng)一的時(shí)鐘(以GNSS為例),然后使用特定的信號(hào)來(lái)觸發(fā)傳感器的操作。例如,激光雷達(dá)的傳輸信號(hào)可以觸發(fā)相機(jī)的曝光時(shí)間,這是時(shí)間同步的。
  
  軟件
  
  自動(dòng)駕駛軟件平臺(tái)分為多個(gè)層次,從下到上依次為實(shí)時(shí)操作系統(tǒng)、中間件、功能軟件和應(yīng)用軟件。軟件體系結(jié)構(gòu)可以是端到端或模塊化風(fēng)格。
  
  端到端系統(tǒng)直接從傳感輸入產(chǎn)生控制信號(hào)??刂菩盘?hào)可以是方向盤和踏板(油門和制動(dòng)器)的操作,用于加速/減速(甚至停止)和向左/向右轉(zhuǎn)彎。端到端驅(qū)動(dòng)主要有3種方法:
  
  直接監(jiān)督深度學(xué)習(xí)
  
  神經(jīng)進(jìn)化
  
  深度強(qiáng)化學(xué)習(xí)
  
  模塊化系統(tǒng)是由多個(gè)組件組成的管道,將傳感輸入連接到執(zhí)行器輸出。模塊化自動(dòng)駕駛系統(tǒng)(ADS)的關(guān)鍵功能定期總結(jié)為:感知、定位和地圖、預(yù)測(cè)、規(guī)劃和決策以及車輛控制等。圖3說(shuō)明了E2E和模塊化系統(tǒng)。
 
  
  Perception從傳感器收集信息,并從環(huán)境中發(fā)現(xiàn)相關(guān)知識(shí)。它發(fā)展了對(duì)駕駛環(huán)境的上下文理解,如障礙物的檢測(cè)、跟蹤和分割、路標(biāo)/標(biāo)記和自由空間可駕駛區(qū)域?;谒鶎?shí)現(xiàn)的傳感器,可以通過(guò)使用激光雷達(dá)、相機(jī)、雷達(dá)或這3種設(shè)備之間的融合來(lái)處理環(huán)境感知任務(wù)。
  
  在最高層次上,感知方法可以分為3類:中介感知、行為反射感知和直接感知。中介感知開(kāi)發(fā)了關(guān)于周圍環(huán)境的詳細(xì)地圖,包括車輛、行人、樹(shù)木、道路標(biāo)記等等。行為反射感知將傳感器數(shù)據(jù)(圖像、點(diǎn)云、GPS位置)直接映射到駕駛操作上。直接感知將行為反射感知與中介感知方法的度量集合相結(jié)合。
  
  地圖是指用道路、車道、標(biāo)志/標(biāo)線和交通規(guī)則等信息構(gòu)建地圖。通常,地圖有兩大類:平面地圖是指依賴于地理信息系統(tǒng)(GIS)上的圖層或平面的地圖,例如高清地圖;點(diǎn)云地圖是指基于GIS中一組數(shù)據(jù)點(diǎn)的地圖。
  
  高清地圖包含一些有用的靜態(tài)目標(biāo),如車道、建筑物、紅綠燈和道路標(biāo)記等,這些元素是自動(dòng)駕駛所必需的,即使是由于遮擋而無(wú)法被傳感器適當(dāng)檢測(cè)到的物體。用于自動(dòng)駕駛的高清地圖與車輛定位功能緊密相連,并與激光雷達(dá)、雷達(dá)和攝像頭等車輛傳感器保持交互,以構(gòu)建自動(dòng)駕駛系統(tǒng)的感知模塊。
  
  定位決定了其在駕駛環(huán)境方面的地位。全球?qū)Ш叫l(wèi)星系統(tǒng)(GNSS),如GPS、GLONASS、北斗和伽利略,依靠至少4顆衛(wèi)星以相對(duì)較低的成本估計(jì)全球位置??梢酝ㄟ^(guò)使用差分GPS來(lái)提高GPS精度。GPS通常與IMU集成,以設(shè)計(jì)低成本的車輛定位系統(tǒng)。IMU已被用于估計(jì)車輛相對(duì)于其初始位置的位置,這種方法被稱為“死推算”。
  
  由于高清地圖已被用于自動(dòng)駕駛,因此基于該地圖的定位也被考慮在內(nèi)。最近,出現(xiàn)了許多關(guān)于自給式里程計(jì)算方法和同時(shí)定位與測(cè)繪(SLAM)的研究。通常,SLAM技術(shù)應(yīng)用里程計(jì)算法來(lái)獲得姿勢(shì),該姿勢(shì)隨后被饋送到全局地圖優(yōu)化算法中。
  
  由于基于圖像的計(jì)算機(jī)視覺(jué)算法的缺點(diǎn),如特征提取和匹配、相機(jī)運(yùn)動(dòng)估計(jì)、三維重建和優(yōu)化,視覺(jué)SLAM仍然是一個(gè)具有挑戰(zhàn)性的方向。
  
  預(yù)測(cè)是指根據(jù)障礙物的運(yùn)動(dòng)學(xué)、行為和長(zhǎng)期/短期歷史來(lái)估計(jì)障礙物的軌跡。為了完全解決軌跡預(yù)測(cè)問(wèn)題,智能非常重要,因?yàn)楸仨毾拗聘鞣N可能性,在已知社會(huì)智能的情況下,無(wú)限的搜索空間必須是有限的。為了模擬社會(huì)互動(dòng),作者需要了解Agent人及其周圍環(huán)境的動(dòng)態(tài),以預(yù)測(cè)他們未來(lái)的行為并防止任何崩潰。
  
  規(guī)劃決定將車輛帶到目的地,同時(shí)避開(kāi)障礙物,從而生成參考路徑或軌跡。規(guī)劃可以分為不同層次的路線(任務(wù))規(guī)劃、行為規(guī)劃和運(yùn)動(dòng)規(guī)劃。
  
  路線規(guī)劃是指在有向圖中找到點(diǎn)對(duì)點(diǎn)的最短路徑,傳統(tǒng)方法分為4類,即goal-directed、separator-based、hierarchical和bounded-hop技術(shù)。
  
  行為規(guī)劃決定了本地駕駛?cè)蝿?wù),該任務(wù)將車輛駛向目的地,并遵守傳統(tǒng)上由有限狀態(tài)機(jī)(FSM)定義的交通規(guī)則。最近,人們正在研究模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)來(lái)生成用于車輛導(dǎo)航的行為。
  
  然后,運(yùn)動(dòng)規(guī)劃在環(huán)境中選擇一條連續(xù)的路徑,以完成局部驅(qū)動(dòng)任務(wù),例如RRT(快速探索隨機(jī)樹(shù))和Lattice規(guī)劃。
  
  控制通過(guò)選擇適當(dāng)?shù)闹聞?dòng)器輸入來(lái)執(zhí)行計(jì)劃的動(dòng)作。通常控制可以分為橫向控制和縱向控制。大多數(shù)情況下,控制設(shè)計(jì)被解耦為2個(gè)階段,軌跡/路徑生成和跟蹤,例如純追蹤方法。然而,它可以同時(shí)生成軌跡/路徑和軌跡。
  
  V2X是一種車輛技術(shù)系統(tǒng),使車輛能夠與周圍的交通和環(huán)境進(jìn)行通信,包括車對(duì)車通信(V2V)和車對(duì)基礎(chǔ)設(shè)施(V2I)。從行人的移動(dòng)設(shè)備到紅綠燈上的固定傳感器,使用V2X的車輛可以訪問(wèn)大量數(shù)據(jù)。通過(guò)積累來(lái)自其他同行的詳細(xì)信息,可以緩解自車車輛的缺點(diǎn),如感應(yīng)范圍、盲點(diǎn)和規(guī)劃不足。V2X有助于提高安全性和交通效率。如何在車輛-車輛或車輛-道路之間進(jìn)行協(xié)作仍然具有挑戰(zhàn)性。
  
  值得一提的是,ISO-26262駕駛車輛功能安全標(biāo)準(zhǔn)為確保車輛軟件開(kāi)發(fā)的安全性定義了一套全面的要求。它建議使用危險(xiǎn)分析和風(fēng)險(xiǎn)評(píng)估(HARA)方法來(lái)識(shí)別危險(xiǎn)事件,并定義減輕危險(xiǎn)的安全目標(biāo)。汽車安全完整性等級(jí)(ASIL)是ISO-26262在汽車系統(tǒng)中定義的風(fēng)險(xiǎn)分類方案。人工智能系統(tǒng)帶來(lái)了更多的安全問(wèn)題,這些問(wèn)題由一個(gè)新建立的標(biāo)準(zhǔn)ISO/PAS-21448 SOTIF(預(yù)期功能的安全)來(lái)處理。
  
  除了模塊化或端到端系統(tǒng)之外,ADS開(kāi)發(fā)中還有一個(gè)重要的平臺(tái)“模擬”。由于實(shí)驗(yàn)車輛在道路上的駕駛成本仍然很高,并且在現(xiàn)有人類駕駛道路網(wǎng)絡(luò)上的實(shí)驗(yàn)受到限制,因此模擬環(huán)境有利于在實(shí)際道路測(cè)試之前開(kāi)發(fā)某些算法/模塊。模擬系統(tǒng)由以下核心組件組成:
  
  傳感器建模(攝像頭、雷達(dá)、激光雷達(dá)和聲納)
  
  車輛動(dòng)力學(xué)和運(yùn)動(dòng)學(xué)
  
  行人、駕駛者和騎自行車者的形狀和運(yùn)動(dòng)學(xué)建模
  
  道路網(wǎng)絡(luò)和交通網(wǎng)絡(luò)
  
  三維虛擬環(huán)境(城市和農(nóng)村場(chǎng)景)
  
  駕駛行為建模(年齡、文化、種族等)
  
  模擬平臺(tái)中存在的關(guān)鍵問(wèn)題是“sim2real”和“real2sim”,前者是指如何模擬現(xiàn)實(shí)場(chǎng)景,后者是指如何作為數(shù)字孿生進(jìn)行場(chǎng)景再現(xiàn)。
  
  ▍感知
  
  感知周圍環(huán)境并提取信息是自動(dòng)駕駛的關(guān)鍵任務(wù)。
  
  使用不同感知模式的各種任務(wù)屬于感知范疇。相機(jī)是基于計(jì)算機(jī)視覺(jué)技術(shù)最常用的傳感器,3D視覺(jué)成為一種強(qiáng)有力的替代/補(bǔ)充。
  
  最近,BEV(鳥瞰圖)感知已成為自動(dòng)駕駛中最活躍的感知方向,尤其是在基于視覺(jué)的系統(tǒng)中,有兩大優(yōu)勢(shì)。
  
  首先,駕駛場(chǎng)景的BEV表示可以由下游駕駛應(yīng)用程序直接部署,如軌跡預(yù)測(cè)和運(yùn)動(dòng)規(guī)劃等。
  
  其次,BEV提供了一種可解釋的方式來(lái)融合來(lái)自不同視圖、模態(tài)、時(shí)間序列和Agent的信息。例如,其他常用的傳感器,如激光雷達(dá)和雷達(dá),可以在3D空間中捕獲數(shù)據(jù),可以很容易地轉(zhuǎn)換為BEV,并直接與相機(jī)進(jìn)行傳感器融合。
  
  在之前的調(diào)查論文中,BEV工作可分為以下幾類,如圖4所示。
  
  首先,基于視圖變換分為基于幾何的變換和基于網(wǎng)絡(luò)的變換;
  
  基于幾何的方法充分利用相機(jī)的物理原理來(lái)傳遞視圖,可以進(jìn)一步分為經(jīng)典的基于同形圖的方法(即逆投影地圖)和基于深度的方法,通過(guò)顯式或隱式深度估計(jì)將2D特征提升到3D空間?;谏疃刃畔⒌睦梅绞剑髡呖梢詫⒒谏疃鹊姆椒ǚ譃閮煞N類型:基于點(diǎn)和基于體素。
  
  基于點(diǎn)的方法直接使用深度估計(jì)將像素轉(zhuǎn)換為點(diǎn)云,在連續(xù)的3D空間中散射;
  
  基于體素的方法通常直接利用深度引導(dǎo)將2D特征(而不是點(diǎn))散射在相應(yīng)的3D位置。
  
  基于網(wǎng)絡(luò)的方法可以采用自下而上的策略,其中神經(jīng)網(wǎng)絡(luò)的作用類似于視圖投影儀,另一種選擇可以采用自上而下的策略,通過(guò)交叉注意力機(jī)制(基于Transformer)直接構(gòu)建BEV查詢并搜索前視圖圖像上的相應(yīng)特征,或者提出混合查詢以匹配不同的下游任務(wù)。
  
  到目前為止,BEV網(wǎng)絡(luò)已被用于目標(biāo)檢測(cè)、語(yǔ)義分割、在線地圖、傳感器融合和軌跡預(yù)測(cè)等。
  
  如圖5所示,BEV融合算法有2種典型的流水線設(shè)計(jì)。其主要區(qū)別在于2D到3D的轉(zhuǎn)換和融合模塊。在透視圖管道(a)中,不同算法的結(jié)果首先被轉(zhuǎn)換到3D空間中,然后使用先驗(yàn)或手工規(guī)則進(jìn)行融合。BEV管道(b)首先將透視圖特征轉(zhuǎn)換為BEV,然后融合特征以獲得最終預(yù)測(cè),從而保持大多數(shù)原始信息并避免手工設(shè)計(jì)。
  
  在圖6中,作者給出了僅用于相機(jī)輸入、僅用于激光雷達(dá)輸入以及相機(jī)和激光雷達(dá)輸入的BEV和OCC網(wǎng)絡(luò)的3個(gè)示例。
  
  對(duì)于圖6(a)所示的僅相機(jī)輸入,多相機(jī)圖像首先通過(guò)“Backbone”模塊進(jìn)行編碼,如EfficientNetor/RegNet加FPN/Bi-FPN,然后分為兩條路徑;一方面,圖像特征進(jìn)入“視圖變換”模塊,通過(guò)深度分布或Transformer架構(gòu)構(gòu)建BEV特征,然后分別轉(zhuǎn)到兩個(gè)不同的Head:
  
  一個(gè)Head通過(guò)“map ele detector”模塊(其結(jié)構(gòu)類似于基于transformer的DETR模型,也有一個(gè)可變形的注意力模塊,輸出關(guān)鍵點(diǎn)的位置和它們所屬元素的ID)和“折線生成”模塊輸出地圖元素的矢量化表示(它也是一個(gè)基于Transformer架構(gòu)的模型,輸入了這些嵌入的關(guān)鍵點(diǎn),折線分布模型可以生成折線的頂點(diǎn)并獲得地圖元素的幾何表示);
  
  另一個(gè)Head通過(guò)“BEV obj Detector”模塊獲得obj BEV邊界框,其可以使用Transformer架構(gòu)或類似的PointPillar架構(gòu)來(lái)實(shí)現(xiàn)。
  
  另一方面,在“2D-3D變換”模塊中,基于深度分布將二維特征編碼投影到三維坐標(biāo),其中保留了高度信息;然后獲得的相機(jī)體素特征進(jìn)入“3D解碼”模塊獲得多尺度體素特征,然后進(jìn)入“占用”模塊進(jìn)行類別預(yù)測(cè),生成體素語(yǔ)義分割。
  
  對(duì)于圖6(b)所示的僅限激光雷達(dá)的輸入,一些模塊與圖6(a)相同;首先,在“體素化”模塊中,將點(diǎn)云劃分為均勻分布的體素網(wǎng)格,生成3D點(diǎn)和體素之間的多對(duì)一地圖;然后進(jìn)入“Feature Encod”模塊,將體素網(wǎng)格轉(zhuǎn)換為點(diǎn)云特征圖(使用PointNet或PointPillar)。
  
  一方面,在“視圖變換”模塊中,將特征圖投影到BEV上,將特征聚合器和特征編碼器組合在一起,然后在BEV空間中進(jìn)行BEV解碼,分為兩個(gè)Head:一個(gè)Head的工作原理如圖6(a)所示,經(jīng)過(guò)“map-Ele-Det”模塊和“PolyLine-Generat”模塊;
  
  另一個(gè)Head通過(guò)“obj-det”模塊進(jìn)行BEV物體檢測(cè),結(jié)構(gòu)類似PointPillar模型;另一方面,3D點(diǎn)云特征圖可以直接進(jìn)入“3D解碼”模塊,通過(guò)3D去卷積獲得多尺度體素特征,然后在“occep.”模塊中進(jìn)行上采樣和類預(yù)測(cè),生成體素語(yǔ)義分割。
  
  對(duì)于圖6(c)所示的相機(jī)和激光雷達(dá)輸入,大多數(shù)模塊與圖6(a)和6(b)相同,只是“特征連接”模塊將連接激光雷達(dá)路徑和相機(jī)路徑的特征。
  
  ▍軌跡預(yù)測(cè)
  
  為了安排安全高效的導(dǎo)航,自動(dòng)駕駛汽車應(yīng)該考慮周圍其他智能體的未來(lái)軌跡。軌跡預(yù)測(cè)是一項(xiàng)極具挑戰(zhàn)性的任務(wù),最近引起了很多關(guān)注,它可以預(yù)測(cè)場(chǎng)景中所有動(dòng)態(tài)智能體的當(dāng)前和過(guò)去狀態(tài)。
  
  預(yù)測(cè)任務(wù)可以分為兩個(gè)部分。第一部分是“意向”分類任務(wù);它通??梢员灰暈橐粋€(gè)有監(jiān)督的學(xué)習(xí)問(wèn)題,作者需要注釋Agent可能的分類意圖。第二部分是“軌跡”,它需要預(yù)測(cè)Agent在接下來(lái)的N個(gè)未來(lái)幀中的一組可能的未來(lái)位置,稱為路點(diǎn)。這建立了他們與其他Agent以及道路的互動(dòng)。
  
  傳統(tǒng)上,作者根據(jù)基于物理的、基于機(jī)動(dòng)的和感知交互的模型對(duì)行為預(yù)測(cè)模型進(jìn)行分類?;谖锢淼哪P蜆?gòu)成了動(dòng)力學(xué)方程,為不同類別的智能體手工設(shè)計(jì)的運(yùn)動(dòng)建模?;跈C(jī)動(dòng)的模型是基于主體的預(yù)期運(yùn)動(dòng)類型的實(shí)用模型。
  
  交互感知模型通常是基于ML的系統(tǒng),可以對(duì)場(chǎng)景中的每個(gè)Agent進(jìn)行配對(duì)推理,并為所有動(dòng)態(tài)Agent生成交互感知預(yù)測(cè)。
  
  圖7給出了Cruise.AI設(shè)計(jì)的預(yù)測(cè)模型圖,該模型是通用汽車收購(gòu)的L4自動(dòng)駕駛初創(chuàng)公司。顯然,它說(shuō)明了一個(gè)編碼器-解碼器框架。在編碼器中,有一個(gè)“場(chǎng)景編碼器”來(lái)處理環(huán)境上下文(地圖),如Google Waymo的ChaufeurNet(光柵化圖像作為輸入)或VectorNet(矢量化輸入)架構(gòu),一個(gè)“目標(biāo)歷史編碼器”來(lái)處理Agent歷史數(shù)據(jù)(位置),以及一個(gè)基于注意力的圖網(wǎng)絡(luò)來(lái)捕捉Agent之間的聯(lián)合交互。
  
  為了處理動(dòng)態(tài)場(chǎng)景的變化,將混合專家(MoE)編碼到門控網(wǎng)絡(luò)中,例如,停車場(chǎng)中有不同的行為,如反向拉出、拉出和K轉(zhuǎn)彎、平行停車第二次嘗試、倒車和拉出、反向平行停車和垂直拉出等。
  
  在圖7所示的解碼器中,有一個(gè)兩階段結(jié)構(gòu),其中初始軌跡由一個(gè)簡(jiǎn)單的回歸器生成,然后由具有“多模態(tài)不確定性”估計(jì)的長(zhǎng)期預(yù)測(cè)器進(jìn)行細(xì)化。為了增強(qiáng)軌跡預(yù)測(cè)器,有一些輔助訓(xùn)練任務(wù),如“聯(lián)合軌跡不確定性”估計(jì)、“交互檢測(cè)和不確定性”估算以及“占用預(yù)測(cè)”。
  
  這種軌跡預(yù)測(cè)器的一大創(chuàng)新是其“自車監(jiān)督”機(jī)制?;谟^察到的“后知后覺(jué)的未來(lái)”,他們提供了“機(jī)動(dòng)自標(biāo)記器”和“交互自動(dòng)標(biāo)記器”來(lái)為預(yù)測(cè)模型生成大量的訓(xùn)練數(shù)據(jù)。
  
  ▍Mapping
  
  該地圖,尤其是高清地圖,是自動(dòng)駕駛的首選。地圖構(gòu)建技術(shù)可分為在線地圖繪制和離線地圖繪制。在離線地圖中,作者在一個(gè)中心位置收集所有數(shù)據(jù)。數(shù)據(jù)捕獲來(lái)自安裝了全球?qū)Ш叫l(wèi)星系統(tǒng)、IMU、激光雷達(dá)和相機(jī)等的車輛。另一方面,在線地圖構(gòu)建是使用輕型模塊在船上進(jìn)行的。
  
  目前所有有前途的地圖技術(shù)都使用激光雷達(dá)作為主要傳感器,尤其是用于高清地圖。另一方面,有一些方法只使用視覺(jué)傳感器來(lái)構(gòu)建地圖,比如Mobileye的REM或基于視覺(jué)SLAM和深度學(xué)習(xí)的路標(biāo)。
  
  HD地圖生成通常包括收集高質(zhì)量的點(diǎn)云、對(duì)齊同一場(chǎng)景的多個(gè)點(diǎn)云、標(biāo)記地圖元素以及頻繁更新地圖。這個(gè)管道需要大量的人力工作,這限制了它的可擴(kuò)展性。BEV感知提供了在線地圖學(xué)習(xí)的潛力,該學(xué)習(xí)基于局部傳感器觀測(cè)動(dòng)態(tài)構(gòu)建高清地圖,似乎是一種為自動(dòng)駕駛汽車提供語(yǔ)義和幾何先驗(yàn)的更具可擴(kuò)展性的方式。
  
  在這里,作者介紹了最近在在線地圖方面的一項(xiàng)工作,稱為Bi-Mapper。Bi-Mapper從透視圖和IPM視圖構(gòu)建BEV路線圖。透視圖提供了物體之間的關(guān)系,在幾何結(jié)構(gòu)方面與BEV不同。由假設(shè)深度產(chǎn)生的IPM視圖可以獲得附近對(duì)象的魯棒表示,但會(huì)導(dǎo)致遠(yuǎn)處對(duì)象的失真。
  
  Bi-Mapper的框架如圖8所示:它由全局交叉視圖流、局部自車視圖流、異步互學(xué)習(xí)和解碼器模塊組成;除了分割損失外,還有一個(gè)跨空間損失,可以緩解幾何失真問(wèn)題。
  
  在Bi-Mapper中,全局跨視圖流在自車坐標(biāo)系中融合了不同視圖的特征,這完全依賴于多視圖的交叉學(xué)習(xí)。BEV路線圖是在自車坐標(biāo)系中繪制的,其中像素和相機(jī)坐標(biāo)系之間的關(guān)系可以從相機(jī)校準(zhǔn)參數(shù)中獲得。局部自車視圖流遵循該模型分別從多個(gè)視圖學(xué)習(xí)局部特征。為了減輕幾何失真,他們?cè)O(shè)置了“跨空間”損失。異步相互學(xué)習(xí)模塊讓兩個(gè)流相互學(xué)習(xí)。
  
  ▍定位
  
  準(zhǔn)確定位自動(dòng)駕駛汽車可以對(duì)行為規(guī)劃等下游任務(wù)產(chǎn)生巨大影響。雖然使用IMU和GPS等傳統(tǒng)動(dòng)態(tài)傳感器可以產(chǎn)生可接受的結(jié)果,但基于視覺(jué)的傳感器、激光雷達(dá)或相機(jī)顯然適用于這項(xiàng)任務(wù),因?yàn)槭褂么祟悅鞲衅鳙@得的定位不僅對(duì)車輛本身,而且對(duì)其周圍場(chǎng)景都有響應(yīng)。雖然這兩種傳感器都具有良好的定位性能,但它們也存在一些局限性。
  
  多年來(lái),自動(dòng)駕駛汽車的本地化一直在進(jìn)行,大多數(shù)時(shí)候與地圖繪制方面相結(jié)合,帶來(lái)了兩條截然不同的路線:第一條是SLAM,定位和地圖繪制在一個(gè)循環(huán)中同時(shí)運(yùn)行;第二種是在離線構(gòu)建地圖的同時(shí)拆分定位和地圖。
  
  最近,深度學(xué)習(xí)為SLAM帶來(lái)了數(shù)據(jù)驅(qū)動(dòng)的方法,在這里,作者展示了一個(gè)基于Transformer的定位方法的例子,稱為卷積變換器的基于能量的跨模態(tài)定位(ECMLCT):沒(méi)有GPS和IMU的車輛通過(guò)LiDAR點(diǎn)云根據(jù)衛(wèi)星圖像進(jìn)行定位,該點(diǎn)云被展平為旋轉(zhuǎn)鳥瞰圖(BEV)圖像;從地圖中提取候選衛(wèi)星,并將其與BEV激光雷達(dá)圖像配對(duì)以找到姿態(tài)相似性;具有高相似性的激光雷達(dá)衛(wèi)星對(duì)實(shí)現(xiàn)低能量。ECML-CT架構(gòu)如圖9所示。
  
  BEV激光雷達(dá)圖像與候選衛(wèi)星瓦片陣列相連,用作模型的輸入。他們使用具有ReLU激活和最大池化的兩個(gè)卷積層來(lái)獲得中間表示。Reshape后,將其送入Transformer編碼器。Mlayer Transformer編碼器的順序輸出之后是序列池化步驟,該步驟隨后被地圖到MLP頭中的LiDAR衛(wèi)星對(duì)的相似性得分a。
  
  ▍規(guī)劃
  
  大多數(shù)規(guī)劃方法,尤其是行為規(guī)劃,都是基于規(guī)則的,這給數(shù)據(jù)驅(qū)動(dòng)的系統(tǒng)探索和升級(jí)帶來(lái)了負(fù)擔(dān)。
  
  基于規(guī)則的方法規(guī)劃框架負(fù)責(zé)計(jì)算自車車輛的低級(jí)控制器要跟蹤的軌跡點(diǎn)序列。作為一個(gè)主要優(yōu)點(diǎn),基于規(guī)則的規(guī)劃框架是可解釋的,當(dāng)發(fā)生故障或意外的系統(tǒng)行為時(shí),可以識(shí)別出有缺陷的模塊。限制在于它需要許多手動(dòng)啟發(fā)式函數(shù)。
  
  基于學(xué)習(xí)的計(jì)劃方法已成為自動(dòng)駕駛研究的一種趨勢(shì)。駕駛模型可以通過(guò)模仿學(xué)習(xí)學(xué)習(xí)知識(shí),通過(guò)強(qiáng)化學(xué)習(xí)探索駕駛策略。與基于規(guī)則的方法相比,基于學(xué)習(xí)的方法更有效地處理了車輛與環(huán)境的交互。盡管它的概念很吸引人,但很難甚至不可能找出模型行為不端的原因。
  
  模仿學(xué)習(xí)是指基于專家軌跡的智能體學(xué)習(xí)策略。每個(gè)專家軌跡都包含一系列狀態(tài)和動(dòng)作,并提取所有“狀態(tài)-動(dòng)作”對(duì)來(lái)構(gòu)建數(shù)據(jù)集。
  
  為了處理標(biāo)記數(shù)據(jù)的負(fù)擔(dān),一些科學(xué)家將強(qiáng)化學(xué)習(xí)(RL)算法應(yīng)用于行為規(guī)劃或決策。Agent可以通過(guò)與環(huán)境互動(dòng)來(lái)獲得一些獎(jiǎng)勵(lì)。RL的目標(biāo)是通過(guò)試錯(cuò)來(lái)優(yōu)化累積數(shù)字獎(jiǎng)勵(lì)。通過(guò)與環(huán)境持續(xù)交互,Agent逐漸獲得最佳策略的知識(shí),以到達(dá)目標(biāo)端點(diǎn)。在RL中從頭開(kāi)始訓(xùn)練策略通常是耗時(shí)且困難的。將RL與其他方法(如IL和課程學(xué)習(xí))相結(jié)合可能是一個(gè)可行的解決方案。
  
  近年來(lái),深度學(xué)習(xí)(DL)技術(shù)通過(guò)深度神經(jīng)網(wǎng)絡(luò)(DNN)的奇妙特性:函數(shù)逼近和表示學(xué)習(xí),為行為規(guī)劃問(wèn)題提供了強(qiáng)大的解決方案。DL技術(shù)使得RL/IL能夠縮放到以前難以解決的問(wèn)題(例如,高維狀態(tài)空間)。
  
  這里提出了一種兩階段占用預(yù)測(cè)導(dǎo)向神經(jīng)規(guī)劃器(OPGP),它將未來(lái)占用和運(yùn)動(dòng)規(guī)劃的聯(lián)合預(yù)測(cè)與預(yù)測(cè)導(dǎo)向相結(jié)合,如圖10所示。
  
  在OPGP的第一階段,在變壓器Backbone上建立了一個(gè)集成網(wǎng)絡(luò)。視覺(jué)特征是歷史占用網(wǎng)格和光柵化BEV路線圖的組合,表示特定場(chǎng)景下交通參與者的時(shí)空狀態(tài)。矢量化上下文最初涉及以自動(dòng)駕駛汽車為中心的參與者的動(dòng)態(tài)上下文。同時(shí)輸出所有類型交通參與者的占用預(yù)測(cè),同時(shí)考慮視覺(jué)特征和矢量化上下文的交互感知。同時(shí),編碼后的場(chǎng)景特征和占用率在規(guī)劃器Head中被共享并有條件地查詢,規(guī)劃器Head進(jìn)行多模式運(yùn)動(dòng)規(guī)劃。
  
  OPGP的第二階段側(cè)重于建模來(lái)自占用預(yù)測(cè)的明確指導(dǎo),以優(yōu)化可行的方式進(jìn)行細(xì)化。更具體地說(shuō),在Frenet空間中構(gòu)建了一個(gè)優(yōu)化管道,用于使用變換的占用預(yù)測(cè)進(jìn)行規(guī)劃細(xì)化。
  
  ▍控制
  
  與自動(dòng)駕駛管道中的其他模塊(如感知和規(guī)劃)相比,車輛控制相對(duì)成熟,經(jīng)典控制理論發(fā)揮著主要作用。然而,深度學(xué)習(xí)方法不僅在各種非線性控制問(wèn)題上獲得了優(yōu)異的性能,而且在將先前學(xué)習(xí)的規(guī)則外推到新的場(chǎng)景中也取得了很大的進(jìn)展。因此,深度學(xué)習(xí)在自動(dòng)駕駛控制中的應(yīng)用越來(lái)越受歡迎。
  
  傳感器配置多種多樣;雖然有些人的目標(biāo)是僅用視覺(jué)控制車輛,但其他人則利用測(cè)距傳感器(激光雷達(dá)或雷達(dá))的低維數(shù)據(jù),有些人則利用多傳感器。在控制目標(biāo)方面也有變化,一些人將系統(tǒng)公式化為高級(jí)控制器來(lái)提供目標(biāo),然后通過(guò)低級(jí)控制器來(lái)實(shí)現(xiàn)目標(biāo),通常使用經(jīng)典控制技術(shù)。其他人的目標(biāo)是學(xué)習(xí)端到端駕駛,將觀察結(jié)果直接地圖到低級(jí)車輛控制界面命令。
  
  車輛控制大致可分為兩個(gè)任務(wù):橫向控制和縱向控制。橫向控制系統(tǒng)旨在控制車輛在車道上的位置,并實(shí)現(xiàn)其他橫向動(dòng)作,如變道或防撞操作。在深度學(xué)習(xí)領(lǐng)域,這通常是通過(guò)使用車載相機(jī)/激光雷達(dá)的圖像/點(diǎn)云作為神經(jīng)網(wǎng)絡(luò)的輸入來(lái)捕捉環(huán)境來(lái)實(shí)現(xiàn)的。
  
  縱向控制管理車輛的加速度,使其在車道上保持理想的速度,與前車保持安全距離,并避免追尾碰撞。雖然橫向控制通常通過(guò)視覺(jué)輸入(攝像頭)實(shí)現(xiàn),但縱向控制依賴于與前/后車輛的相對(duì)速度和距離的測(cè)量。這意味著雷達(dá)或激光雷達(dá)等測(cè)距傳感器更常用于縱向控制系統(tǒng)。
  
  在本節(jié)中,作者描述了一種具有語(yǔ)義視覺(jué)地圖和攝像頭的端到端(E2E)駕駛模型。這些地圖用于促進(jìn)分割置信度Mask的注意力機(jī)制,從而將網(wǎng)絡(luò)集中在捕獲圖像中的語(yǔ)義類上。類人駕駛是使用對(duì)抗性學(xué)習(xí)實(shí)現(xiàn)的,不僅通過(guò)最小化相對(duì)于人類駕駛員的模仿?lián)p失,還通過(guò)進(jìn)一步定義鑒別器,該鑒別器迫使駕駛模型產(chǎn)生類人的動(dòng)作序列。
  
  訓(xùn)練數(shù)據(jù)(命名為“Drive360數(shù)據(jù)集”)來(lái)自一輛安裝了8個(gè)攝像頭的車輛(在實(shí)驗(yàn)中,只使用了前置攝像頭數(shù)據(jù)),這是一個(gè)渲染的TomTom視覺(jué)路線規(guī)劃模塊,其中記錄了人類駕駛員的車速和方向盤角度。
  
  然后,用HERE Technologies的地圖數(shù)據(jù)離線擴(kuò)充數(shù)據(jù)集,以提供準(zhǔn)確同步的視覺(jué)路線規(guī)劃模塊和額外的語(yǔ)義地圖信息,如到紅綠燈、十字路口、人行橫道、限速和道路曲率等的距離。HERE語(yǔ)義圖的一個(gè)有用特征是,它們通過(guò)定義數(shù)據(jù)子集來(lái)實(shí)現(xiàn)特定駕駛場(chǎng)景的模型訓(xùn)練和評(píng)估。
  
  基本的E2E駕駛模型采用一系列過(guò)去的圖像(例如,最后K幀)和地圖渲染,并預(yù)測(cè)未來(lái)時(shí)間步長(zhǎng)的轉(zhuǎn)向角和速度。
  
  考慮到Drive360數(shù)據(jù)集,使用模仿學(xué)習(xí)來(lái)訓(xùn)練這種端到端駕駛模型是很簡(jiǎn)單的,該網(wǎng)絡(luò)的架構(gòu)如圖11(a)所示。
  
  附加語(yǔ)義圖信息的幼稚方法,稱為后期融合方法,將數(shù)據(jù)附加到模型管道的末端,如圖11(b)所示:所有語(yǔ)義圖信息都作為向量嵌入,然后由完全連接的網(wǎng)絡(luò)進(jìn)行處理。
  
  他們提出了一種基于語(yǔ)義圖信息提高分割網(wǎng)絡(luò)輸出類概率的新方法,其完整架構(gòu)如圖11(c)所示。這種方法使用語(yǔ)義分割網(wǎng)絡(luò),為所有19個(gè)類別(如行人、道路和交通標(biāo)志)生成置信度Mask。
  
  然后,使用獲取語(yǔ)義圖信息并輸出19類注意力向量的軟注意力網(wǎng)絡(luò)來(lái)促進(jìn)這些Mask。因此,注意力網(wǎng)絡(luò)允許提升分割網(wǎng)絡(luò)的個(gè)體類概率,其中提升基于數(shù)字地圖信息和LSTM的先前隱藏狀態(tài)。
  
  在訓(xùn)練駕駛模型時(shí),決策問(wèn)題被視為具有i.i.d.目標(biāo)(專家行動(dòng))的監(jiān)督回歸問(wèn)題。在訓(xùn)練E2E駕駛模型時(shí),考慮到時(shí)間依賴性,提出了匹配動(dòng)作序列(稱為小驅(qū)動(dòng))而不是單一動(dòng)作。為了產(chǎn)生小驅(qū)動(dòng)程序的時(shí)間損失,模仿學(xué)習(xí)問(wèn)題被公式化為生成對(duì)抗性網(wǎng)絡(luò)(GAN),其中驅(qū)動(dòng)模型是生成器,鑒別器判斷小驅(qū)動(dòng)程序是否與人類小驅(qū)動(dòng)程序來(lái)自相同的分布。
  
  ▍V2X
  
  得益于通信基礎(chǔ)設(shè)施的更好建設(shè)和通信技術(shù)的發(fā)展,如車輛對(duì)一切(V2X)通信,車輛可以以可靠的方式交換信息,從而實(shí)現(xiàn)它們之間的協(xié)作。協(xié)同駕駛利用車對(duì)車(V2V)和車對(duì)基礎(chǔ)設(shè)施(V2I)通信技術(shù),旨在實(shí)現(xiàn)協(xié)同功能:
  
  協(xié)同感知
  
  協(xié)同機(jī)動(dòng)
  
  有一些通用的協(xié)同駕駛場(chǎng)景:智能停車、變道和并線以及交叉口協(xié)同管理。車輛排隊(duì),也稱為車隊(duì)駕駛,是在同一車道上以較小的車間距(通常小于1秒)以相同的速度駕駛兩輛或兩輛以上連續(xù)車輛的做法,這是實(shí)現(xiàn)協(xié)同自動(dòng)駕駛的主要用例。
  
  使用集中或分散方法進(jìn)行的有價(jià)值的研究工作集中在協(xié)調(diào)交叉口的CAV和高速公路入口匝道的合并上。在集中式方法中,系統(tǒng)中至少有一項(xiàng)任務(wù)是由單個(gè)中央控制器為所有車輛全局決定的。在分散控制中,每個(gè)車輛基于從道路上的其他車輛或某個(gè)協(xié)調(diào)器接收到的信息來(lái)確定其自己的控制策略。
  
  分散的方法可以分為三類:協(xié)商、協(xié)議和緊急。
  
  最具代表性的談判協(xié)議有:用于合作問(wèn)題的合同網(wǎng)和用于競(jìng)爭(zhēng)問(wèn)題的拍賣。協(xié)調(diào)過(guò)程中的協(xié)議將產(chǎn)生一系列可接受的舉措,甚至是目標(biāo)的動(dòng)態(tài)重新確定。Emergent使每輛車都根據(jù)其目標(biāo)和感知以自私的方式行事,例如,博弈論或自組織。
  
  在自動(dòng)駕駛中,利用多個(gè)智能體之間的互動(dòng)來(lái)改善感知的協(xié)作或合作感知取代了個(gè)人感知,受到了相當(dāng)大的關(guān)注。隨著深度學(xué)習(xí)方法在自動(dòng)駕駛感知中的廣泛應(yīng)用,提高協(xié)同感知系統(tǒng)能力和可靠性的努力正在穩(wěn)步增加。
  
  根據(jù)傳遞的信息和協(xié)作階段,協(xié)作感知方案可以大致分為早期、中期和后期協(xié)作。早期的協(xié)作采用網(wǎng)絡(luò)輸入處的原始數(shù)據(jù)融合,也稱為數(shù)據(jù)級(jí)融合或低級(jí)融合。
  
  考慮到早期協(xié)作的高帶寬,一些工作提出了中間協(xié)作方法來(lái)平衡性能和帶寬的權(quán)衡。后期協(xié)作或?qū)ο蠹?jí)協(xié)作在網(wǎng)絡(luò)上采用預(yù)測(cè)融合。協(xié)作感知中的挑戰(zhàn)性問(wèn)題包括:車輛的校準(zhǔn)、定位、同步和空間配準(zhǔn)等。
  
  在這里,作者提出了一個(gè)分層的V2X傳感平臺(tái),如圖12所示。時(shí)間同步信息傳達(dá)來(lái)自不同Agent的數(shù)據(jù)之間的時(shí)間差。為了靈活,數(shù)據(jù)容器優(yōu)選保持時(shí)間窗口,例如1秒(對(duì)于激光雷達(dá)/雷達(dá)為10幀,對(duì)于相機(jī)為30幀)??臻g配準(zhǔn)需要姿態(tài)信息,這些信息是從車輛定位和校準(zhǔn)中獲取的,大多基于在線地圖或與離線構(gòu)建的高清地圖中的信息匹配。
  
  作者假設(shè)傳感器是相機(jī)和激光雷達(dá)。神經(jīng)網(wǎng)絡(luò)模型可以處理原始數(shù)據(jù)以輸出中間表示(IR)、場(chǎng)景分割和目標(biāo)檢測(cè)。為了統(tǒng)一協(xié)作空間,將原始數(shù)據(jù)地圖到BEV,并且處理后的結(jié)果也位于同一空間中。
  
  為了保持有限的尺度空間,在IR中保留了多個(gè)層,例如3層,這允許不同數(shù)據(jù)分辨率的靈活融合。V2X的協(xié)同感知需要在接收器中做更多的工作,以整合來(lái)自其他車輛和路邊的信息,分別融合IR、分割和檢測(cè)通道。融合模塊可以是基于CNN、基于Transformer或基于圖神經(jīng)網(wǎng)絡(luò)(GNN)的。
  
  ▍仿真
  
  在封閉或公共道路上進(jìn)行物理測(cè)試是不安全的,成本高昂,而且并不總是可重復(fù)的。這就是模擬測(cè)試有助于填補(bǔ)空白的地方,但模擬測(cè)試的問(wèn)題在于,它只能與用于測(cè)試的模擬器以及模擬場(chǎng)景在真實(shí)環(huán)境中的代表性一樣好。
  
  理想的模擬器是盡可能接近現(xiàn)實(shí)的模擬器。然而,這意味著它必須在3D虛擬環(huán)境方面非常詳細(xì),并且在較低level-的車輛計(jì)算(如汽車物理)方面非常精確。因此,在3D場(chǎng)景的真實(shí)性和車輛動(dòng)力學(xué)的簡(jiǎn)化之間存在權(quán)衡。
  
  通常,在虛擬場(chǎng)景中學(xué)習(xí)到的駕駛知識(shí)會(huì)轉(zhuǎn)移到現(xiàn)實(shí)世界,因此如何使在模擬中學(xué)習(xí)的駕駛知識(shí)適應(yīng)現(xiàn)實(shí)成為一個(gè)關(guān)鍵問(wèn)題。虛擬世界和現(xiàn)實(shí)世界之間的差距通常被稱為“現(xiàn)實(shí)差距”。為了解決這一差距,提出了各種方法,分為兩類:從模擬到現(xiàn)實(shí)的知識(shí)轉(zhuǎn)移(sim2real)和數(shù)字孿生學(xué)習(xí)(real2sim)。
  
  sim2real逐漸發(fā)展出6種方法,包括課程學(xué)習(xí)、元學(xué)習(xí)、知識(shí)蒸餾、魯棒強(qiáng)化學(xué)習(xí)、領(lǐng)域隨機(jī)化和遷移學(xué)習(xí)?;跀?shù)字孿生的方法旨在使用來(lái)自傳感器和物理模型的數(shù)據(jù),在模擬環(huán)境中構(gòu)建真實(shí)世界物理實(shí)體的地圖,以實(shí)現(xiàn)反映相應(yīng)物理實(shí)體(如AR(增強(qiáng)現(xiàn)實(shí))和MR(混合現(xiàn)實(shí)))的整個(gè)生命周期過(guò)程的作用。
  
  盡管在模擬中測(cè)試自動(dòng)駕駛系統(tǒng)相對(duì)便宜且安全,但為評(píng)估生成的安全關(guān)鍵場(chǎng)景對(duì)于管理風(fēng)險(xiǎn)和降低成本應(yīng)該更重要。事實(shí)上,安全關(guān)鍵場(chǎng)景在現(xiàn)實(shí)世界中是罕見(jiàn)的,因此在模擬中生成這些場(chǎng)景數(shù)據(jù)的各種方法被投入了研究,分為3種類型:數(shù)據(jù)驅(qū)動(dòng)的生成,僅利用收集到的數(shù)據(jù)集中的信息來(lái)生成場(chǎng)景,使用來(lái)自部署在仿真中的自動(dòng)駕駛車輛的反饋的對(duì)抗性生成,以及利用主要來(lái)自外部知識(shí)的信息作為生成的約束或指導(dǎo)的基于知識(shí)的生成。
  
  在這里,作者報(bào)道了一個(gè)最新的神經(jīng)傳感器模擬平臺(tái)-UniSim,由多倫多大學(xué)Waabi和麻省理工學(xué)院建造。UniSim將配備傳感器的車輛捕獲的單個(gè)記錄日志轉(zhuǎn)換為真實(shí)的閉環(huán)多傳感器模擬,作為可編輯和可控的數(shù)字孿生。圖13顯示了UniSim的概述。
  
  如圖13所示,UniSim是一個(gè)神經(jīng)渲染閉環(huán)模擬器,它從環(huán)境的單次通過(guò)中捕獲的傳感器數(shù)據(jù)中聯(lián)合學(xué)習(xí)靜態(tài)場(chǎng)景和動(dòng)態(tài)演員的形狀和外觀表示。為了更好地處理外推視圖,為動(dòng)態(tài)對(duì)象引入了可學(xué)習(xí)的先驗(yàn),并利用卷積網(wǎng)絡(luò)來(lái)完成看不見(jiàn)的區(qū)域。
  
  此外,UniSim中的3D場(chǎng)景分為靜態(tài)背景(灰色)和一組動(dòng)態(tài)演員(紅色)。對(duì)于靜態(tài)背景和動(dòng)態(tài)演員模型,分別查詢神經(jīng)特征字段,并執(zhí)行體繪制以生成神經(jīng)特征描述符。靜態(tài)場(chǎng)景是用稀疏特征網(wǎng)格建模的,并使用Hypernet從可學(xué)習(xí)的潛在因素中生成每個(gè)參與者的表示。最后,使用CNN將特征塊解碼為圖像。
  
  注:一類新興的生成模型,稱為擴(kuò)散模型,其通用管道包括學(xué)習(xí)數(shù)據(jù)分布的前向過(guò)程和后向過(guò)程,以及生成新數(shù)據(jù)的采樣過(guò)程,在計(jì)算機(jī)視覺(jué)中獲得了極大的關(guān)注。近年來(lái),它在圖像到圖像、文本到圖像、3D形狀生成、人體運(yùn)動(dòng)合成、視頻合成等領(lǐng)域越來(lái)越受歡迎。期望擴(kuò)散模型為自動(dòng)駕駛模擬器合成可想象的駕駛場(chǎng)景內(nèi)容。
  
  ▍安全
  
  安全是自動(dòng)駕駛系統(tǒng)(ADS)在現(xiàn)實(shí)世界部署中的主要問(wèn)題。除了對(duì)傳感器和網(wǎng)絡(luò)系統(tǒng)的經(jīng)典攻擊外,基于人工智能或機(jī)器學(xué)習(xí)(包括深度學(xué)習(xí))的系統(tǒng)尤其需要考慮神經(jīng)網(wǎng)絡(luò)天生容易受到對(duì)抗性示例中的對(duì)抗性攻擊所帶來(lái)的新安全問(wèn)題。
  
  目前,對(duì)抗性防御可以分為主動(dòng)防御和被動(dòng)防御。主動(dòng)方法側(cè)重于提高目標(biāo)人工智能模型的穩(wěn)健性,而被動(dòng)方法旨在在將對(duì)抗性示例輸入模型之前檢測(cè)和對(duì)抗這些示例。主動(dòng)防御方法主要有5種:
  
  對(duì)抗性訓(xùn)練
  
  網(wǎng)絡(luò)提煉
  
  網(wǎng)絡(luò)正則化
  
  模型集成
  
  認(rèn)證防御
  
  反應(yīng)防御嘗試對(duì)抗性檢測(cè)和對(duì)抗性轉(zhuǎn)換。為了提供安全保障,需要針對(duì)ADS將面臨的現(xiàn)實(shí)世界中的場(chǎng)景規(guī)模進(jìn)行大量的驗(yàn)證和確認(rèn)(V&V)。V&V最大化場(chǎng)景覆蓋的一個(gè)常見(jiàn)策略是在模擬的大量生成場(chǎng)景樣本中驗(yàn)證ADS。有兩種方法可以保證合理的覆蓋范圍:基于場(chǎng)景采樣的方法和形式化方法。
  
  場(chǎng)景采樣方法是人工智能安全控制的主要方法,包括基于測(cè)試的采樣,以最小的努力最大限度地?cái)U(kuò)大場(chǎng)景覆蓋范圍,以及基于偽造的采樣,尋找更值得開(kāi)發(fā)者關(guān)注的安全角落案例,如安全關(guān)鍵場(chǎng)景。
  
  AV安全中常用的形式化方法包括模型檢驗(yàn)、可達(dá)性分析和定理證明。模型檢查源于軟件開(kāi)發(fā),以確保軟件行為符合設(shè)計(jì)規(guī)范。當(dāng)安全規(guī)范用公理和引理表示時(shí),則定理證明可以用于使用最壞情況假設(shè)來(lái)驗(yàn)證安全性??蛇_(dá)性分析由于其為動(dòng)力系統(tǒng)生成安全聲明的固有能力,捕捉到了動(dòng)態(tài)駕駛?cè)蝿?wù)(DDT)的主要特征,如Mobileye的安全模型RSS(責(zé)任敏感安全)和Nvidia的安全模型SFF(安全力場(chǎng))。
  
  廣泛使用的安全指南標(biāo)準(zhǔn)ISO 26262《道路車輛功能安全》僅適用于緩解與已知部件故障相關(guān)的已知不合理風(fēng)險(xiǎn)(即已知的不安全場(chǎng)景),但它沒(méi)有解決由于復(fù)雜的環(huán)境變化以及ADS如何應(yīng)對(duì)這些變化而導(dǎo)致的AV駕駛風(fēng)險(xiǎn),而車輛中沒(méi)有任何技術(shù)故障。
  
  ISO 21448預(yù)期功能的安全性(SOTIF)中提出了一個(gè)定性目標(biāo),該目標(biāo)描述了最大限度地減少ADS功能設(shè)計(jì)的已知和未知不安全場(chǎng)景結(jié)果的高級(jí)目標(biāo),如圖14所示。
  
  基于樣本的方法在發(fā)現(xiàn)未知的不安全場(chǎng)景方面具有較少的偏見(jiàn)和更多的探索能力,從未知到已知的推動(dòng)具有“水平”性質(zhì),因?yàn)樗胁蓸訄?chǎng)景通常都在一致的模擬環(huán)境和相同的保真度水平內(nèi)。
  
  ▍總結(jié)
  
  在這篇關(guān)于自動(dòng)駕駛的綜述中,作者概述了一些關(guān)鍵的創(chuàng)新以及尚未解決的問(wèn)題。已經(jīng)提出了幾種基于深度學(xué)習(xí)的架構(gòu)模型,即BEV/占用感知、V2X中的協(xié)作感知、基于BEV的感知、預(yù)測(cè)和規(guī)劃的端到端自動(dòng)駕駛(BP3)。
  
  最后,作者想簡(jiǎn)要討論基礎(chǔ)模型對(duì)自動(dòng)駕駛領(lǐng)域的影響及其數(shù)據(jù)閉環(huán)范式。
  
  最近,在大型語(yǔ)言模型(LLM)的支持下,聊天系統(tǒng),如ChatGPT和PaLM,出現(xiàn)并迅速成為在自然語(yǔ)言處理(NLP)中實(shí)現(xiàn)人工通用智能(AGI)的一個(gè)有前途的方向。
  
  事實(shí)上,關(guān)鍵的創(chuàng)造,如在整個(gè)萬(wàn)維網(wǎng)中獲取知識(shí)的大規(guī)模預(yù)預(yù)訓(xùn)練、微調(diào)、即時(shí)學(xué)習(xí)、情境學(xué)習(xí)、思想鏈(COT)和來(lái)自人類反饋的強(qiáng)化學(xué)習(xí)(RLHF),在提高LLM的適應(yīng)性和表現(xiàn)方面發(fā)揮了重要作用。同時(shí),也帶來(lái)了一些關(guān)于強(qiáng)化偏見(jiàn)、侵犯隱私、有害幻覺(jué)(不真實(shí)的廢話)和顯著的計(jì)算機(jī)功耗等方面的擔(dān)憂。
  
  基礎(chǔ)模型的概念已經(jīng)從NLP擴(kuò)展到其他領(lǐng)域,如計(jì)算機(jī)視覺(jué)和機(jī)器人。同時(shí),實(shí)現(xiàn)了多模態(tài)輸入或輸出,使其應(yīng)用更加廣泛。視覺(jué)語(yǔ)言模型(VLM)從網(wǎng)絡(luò)級(jí)圖像文本對(duì)中學(xué)習(xí)豐富的視覺(jué)語(yǔ)言相關(guān)性,并使用單個(gè)VLM(如CLIP和PaLM-E)對(duì)各種計(jì)算機(jī)視覺(jué)任務(wù)進(jìn)行零樣本預(yù)測(cè)。
  
  Meta提出了ImageBind,這是一種學(xué)習(xí)跨6種不同模態(tài)(圖像、文本、音頻、深度、Heat和IMU數(shù)據(jù))的聯(lián)合嵌入的方法。它實(shí)際上利用了大規(guī)模的視覺(jué)語(yǔ)言模型,并通過(guò)與圖像的配對(duì)將零樣本功能擴(kuò)展到了一種新的形式。
  
  擴(kuò)散模型的巨大成功始于圖像合成,但擴(kuò)展到其他模態(tài),如視頻、音頻、文本、圖形和三維模型等。作為多視圖重建的一個(gè)新分支,NeRF提供了三維信息的隱式表示。擴(kuò)散模型和NeRF的結(jié)合在文本到三維合成中取得了顯著的成果。
  
  總之,LLMs的出現(xiàn)使AGI從NLP到各個(gè)領(lǐng)域,特別是計(jì)算機(jī)視覺(jué),產(chǎn)生了連鎖反應(yīng)。自動(dòng)駕駛系統(tǒng)(ADS)肯定會(huì)受到這一趨勢(shì)的影響。如果有足夠龐大的數(shù)據(jù)和視覺(jué)語(yǔ)言模型,再加上NeRF和擴(kuò)散模型,基礎(chǔ)模型的思想和操作將在自動(dòng)駕駛中產(chǎn)生革命。
  
  “長(zhǎng)尾”問(wèn)題將在很大程度上得到緩解,數(shù)據(jù)閉環(huán)可能會(huì)轉(zhuǎn)變?yōu)榱硪环N循環(huán)模式,即預(yù)訓(xùn)練+微調(diào)+強(qiáng)化學(xué)習(xí),更不用說(shuō)為輕型貨車模型構(gòu)建模擬平臺(tái)和自動(dòng)標(biāo)記訓(xùn)練數(shù)據(jù)的容易性了。