CVPR 2024 | 自動(dòng)化所新作速覽(一)
【ZiDongHua 之智能自動(dòng)化收錄關(guān)鍵詞:計(jì)算機(jī)視覺 自動(dòng)駕駛 傳感器 機(jī)器人 】
CVPR 2024 | 自動(dòng)化所新作速覽(一)
導(dǎo)讀 | CVPR全稱為IEEE國(guó)際計(jì)算機(jī)視覺與模式識(shí)別會(huì)議,是計(jì)算機(jī)視覺領(lǐng)域三大頂級(jí)會(huì)議之一。CVPR 2024將在美國(guó)西雅圖舉辦。我們將分兩期對(duì)自動(dòng)化所的錄用研究成果進(jìn)行簡(jiǎn)要介紹(排名不分先后),歡迎大家共同交流討論。

1. 駛向未來:面向自動(dòng)駕駛的多視圖預(yù)測(cè)與規(guī)劃的世界模型
Driving into the Future: Multiview Visual Forecasting and Planning with World Model for Autonomous Driving
論文作者:王宇琪,何嘉偉,范略,李鴻鑫,陳韞韜,張兆翔
最近,世界模型的概念引發(fā)了廣泛關(guān)注。我們首次提出了一種名為Drive-WM的全新多視圖世界模型,旨在增強(qiáng)端到端自動(dòng)駕駛規(guī)劃的安全性。Drive-WM模型通過多視圖世界模型,能夠想象不同規(guī)劃路線的未來情景,并根據(jù)視覺預(yù)測(cè)獲取相應(yīng)的獎(jiǎng)懲反饋,從而優(yōu)化當(dāng)前的路線選擇,為自動(dòng)駕駛系統(tǒng)的安全提供了保障。Drive-WM是與現(xiàn)有端到端規(guī)劃模型兼容的第一個(gè)駕駛世界模型。通過視圖因子分解促進(jìn)的聯(lián)合時(shí)空建模,我們的模型在駕駛場(chǎng)景中生成了高保真度的多視角視頻。在其強(qiáng)大的生成能力基礎(chǔ)上,我們首次展示了將世界模型應(yīng)用于安全駕駛規(guī)劃的潛力。對(duì)真實(shí)世界駕駛數(shù)據(jù)集的評(píng)估驗(yàn)證了我們的方法可以生成高質(zhì)量、一致性和可控性的多視角視頻,為真實(shí)世界的模擬和安全規(guī)劃開辟了新的可能性。

圖1. 自動(dòng)駕駛世界模型

圖2. 基于多視圖世界模型的預(yù)測(cè)和規(guī)劃
2. PanoOcc:面向視覺三維全景分割任務(wù)的統(tǒng)一柵格占用表示
PanoOcc: Unified Occupancy Representation for Camera-based 3D Panoptic Segmentation
作者:王宇琪,陳韞韜,廖星宇,范略,張兆翔
全面的三維場(chǎng)景感知對(duì)于自動(dòng)駕駛和機(jī)器人領(lǐng)域至關(guān)重要。基于相機(jī)的三維感知取得了迅速發(fā)展,但過去的任務(wù)如三維目標(biāo)檢測(cè)、地圖語(yǔ)義分割等,各自關(guān)注場(chǎng)景表示的某一方面,且表示方式不統(tǒng)一。我們希望能夠探索一種統(tǒng)一的場(chǎng)景表示,使其能統(tǒng)一表達(dá)這些任務(wù),并將背景和前景物體統(tǒng)一建模。目前基于鳥瞰圖特征的方法在三維目標(biāo)檢測(cè)上表現(xiàn)出色,但由于缺失了高度和形狀信息,直接應(yīng)用于三維場(chǎng)景感知任務(wù)時(shí)性能較差。這啟示需要探索適合三維場(chǎng)景的特征表示,這也使得三維的柵格占用表示重新受到關(guān)注。然而,與二維空間相比,三維空間更加稀疏,直接將二維鳥瞰圖特征擴(kuò)展到三維體素表示將帶來巨大的顯存和計(jì)算開銷。本研究提出PanoOcc模型,將檢測(cè)和分割任務(wù)聯(lián)合學(xué)習(xí),統(tǒng)一了檢測(cè)和分割任務(wù)的輸出表示。為實(shí)現(xiàn)高效的特征學(xué)習(xí),我們?cè)O(shè)計(jì)了從粗到細(xì)的解碼層結(jié)構(gòu),并探索了稀疏表示的應(yīng)用。本研究進(jìn)行了大量消融研究以驗(yàn)證有效性和效率,在基于相機(jī)的機(jī)的三維語(yǔ)義分割、全景分割和密集占用柵格預(yù)測(cè)等任務(wù)中都取得了最先進(jìn)性能。

圖. PanoOcc的整體模型設(shè)計(jì)
3. 基于可靠持續(xù)學(xué)習(xí)的失敗檢測(cè)
RCL: Reliable Continual Learning for Unified Failure Detection
作者:朱飛,程真,張煦堯,劉成林,張兆翔
深度神經(jīng)網(wǎng)絡(luò)往往對(duì)未知輸入過于自信,給實(shí)際應(yīng)用帶來了較大風(fēng)險(xiǎn)。已有研究主要關(guān)注檢測(cè)來自未知類別的分布外樣本,而忽略了來自已知類別的錯(cuò)分樣本。最近的研究發(fā)現(xiàn),分布外檢測(cè)方法往往對(duì)錯(cuò)分檢測(cè)有害,表明這兩項(xiàng)任務(wù)之間似乎存在折中。本文研究了統(tǒng)一失敗檢測(cè)問題,即同時(shí)檢測(cè)錯(cuò)分樣本和分布外樣本。我們發(fā)現(xiàn)對(duì)二者的學(xué)習(xí)目標(biāo)進(jìn)行聯(lián)合訓(xùn)練不足以獲得統(tǒng)一檢測(cè)的能力,而序列學(xué)習(xí)的模式有較大潛力。受此啟發(fā),本文提出了一種可靠的持續(xù)學(xué)習(xí)范式,使模型先具備錯(cuò)分檢測(cè)的能力,然后在不降低已有可靠性的前提下通過持續(xù)學(xué)習(xí)提升模型的分布外檢測(cè)能力。實(shí)驗(yàn)表明,該方法具有優(yōu)異的失敗檢測(cè)性能。

可靠持續(xù)學(xué)習(xí)示意圖
4. 基于偏振光融合優(yōu)化的深度測(cè)量增強(qiáng)方法
Robust Depth Enhancement via Polarization Prompt Fusion Tuning
作者:池村敬,黃一鳴,菲利克斯·海德,張兆翔,陳啟峰,雷晨陽(yáng)
本文提出了一個(gè)利用偏振成像改進(jìn)各種深度傳感器不準(zhǔn)確深度測(cè)量的通用框架?,F(xiàn)有的深度傳感器在存在透明或反射物體的復(fù)雜場(chǎng)景中會(huì)提供不準(zhǔn)確的深度值,而此前基于偏振的深度增強(qiáng)方法主要利用純物理公式來處理單一傳感器的數(shù)據(jù)。相比之下,本文所提出的方法采用深度學(xué)習(xí),通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)從偏振數(shù)據(jù)和來自不同傳感器的傳感器深度圖來獲得更稠密準(zhǔn)確的深度圖。本文提出了一種稱為Polarization Prompt Fusion Tuning (PPFT)的策略,其利用在大規(guī)模RGB數(shù)據(jù)集上預(yù)訓(xùn)練的模型,在規(guī)模有限的偏振數(shù)據(jù)集上進(jìn)行融合增強(qiáng),從而有效地訓(xùn)練出更強(qiáng)大的深度增強(qiáng)模型。本文在一個(gè)公共數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn)證明,與現(xiàn)有的深度增強(qiáng)基準(zhǔn)方法相比,所提出的方法表現(xiàn)最佳。

圖1. 圖中數(shù)據(jù)來自偏振相機(jī)以及d-ToF深度傳感器,本方法在具有挑戰(zhàn)性的深度增強(qiáng)問題上產(chǎn)生準(zhǔn)確的結(jié)果,包括深度補(bǔ)全、透明表面的深度修復(fù)、形狀校正等。如圖所示,透明水瓶處的深度被有效修復(fù) 。

圖2. 本文所提出的偏振提示融合塊(PPFB)將偏振光信息作為額外視覺提示輸入,采用遞進(jìn)的方法依次融合到從預(yù)訓(xùn)練層提取的特征中。
5. MemoNav: 基于類人工作記憶的視覺導(dǎo)航智能體
MemoNav: Working Memory Model for Visual Navigation
論文作者:李鴻鑫,王澤禹,楊旭,楊雨然,梅樹起,張兆翔
人類導(dǎo)航至多目標(biāo)時(shí),會(huì)回憶起與目標(biāo)相關(guān)的地點(diǎn)特征,忽視其他無關(guān)區(qū)域的記憶,并利用激活的這部分局部信息來快速規(guī)劃路線,無需重復(fù)探索。MemoNav借鑒人類這種工作記憶機(jī)制,結(jié)合短期記憶和長(zhǎng)期記憶一起提升導(dǎo)航?jīng)Q策性能(圖1)。其引入了遺忘機(jī)制、長(zhǎng)期記憶、和工作記憶三個(gè)協(xié)同組件:
選擇性遺忘機(jī)制 由于并非所有地圖結(jié)點(diǎn)都和導(dǎo)航目標(biāo)有關(guān),MemoNav提出利用目標(biāo)注意力機(jī)制,計(jì)算地圖結(jié)點(diǎn)和當(dāng)前目標(biāo)的注意力分?jǐn)?shù),然后暫時(shí)“遺忘”分?jǐn)?shù)較低即對(duì)導(dǎo)航幫助不大的偏遠(yuǎn)結(jié)點(diǎn),被保留的則用于下游決策。
長(zhǎng)期記憶 為了習(xí)得場(chǎng)景的全局表征,智能體維護(hù)一個(gè)和所有短期記憶結(jié)點(diǎn)相連的全局結(jié)點(diǎn)作為長(zhǎng)期記憶,不斷地通過圖注意力機(jī)制聚合短期記憶特征。
工作記憶 利用一個(gè)圖注意力機(jī)制編碼保留的短期記憶和長(zhǎng)期記憶,得到和當(dāng)前導(dǎo)航任務(wù)最相關(guān)的工作記憶,輸入給下游策略模塊以得到最終導(dǎo)航行為。
在Gibson和Matterport3D場(chǎng)景中,該方法的多目標(biāo)導(dǎo)航性能大幅超越SoTA模型。定性實(shí)驗(yàn)顯示其可以規(guī)劃更快捷的路徑,且死鎖概率更?。▓D2)。

圖1. MemoNav借鑒人腦工作記憶的導(dǎo)航模型。MemoNav通過注意力機(jī)制選擇與當(dāng)前導(dǎo)航目標(biāo)相關(guān)的短期記憶(即地圖結(jié)點(diǎn))和長(zhǎng)期記憶(即全局結(jié)點(diǎn))一起生成工作記憶,用于下游決策。

圖2. MemoNav和現(xiàn)有其它方法的定性對(duì)比。
6. 預(yù)訓(xùn)練視覺模型的連續(xù)遺忘
Continual Forgetting for Pre-trained Vision Models
論文作者:趙宏博、尼博琳、樊峻菘、王玉璽、陳韞韜、孟高峰、張兆翔
出于隱私和安全考慮,如今變得越來越明顯的是,需要從預(yù)訓(xùn)練的視覺模型中擦除不需要的信息。在現(xiàn)實(shí)世界場(chǎng)景中,用戶和模型擁有者可以隨時(shí)提出擦除請(qǐng)求。這些請(qǐng)求通常形成一個(gè)序列。因此,在這樣的設(shè)置下,期望從預(yù)訓(xùn)練模型中連續(xù)移除選定信息,同時(shí)保留其余信息。我們將這個(gè)問題定義為持續(xù)遺忘,并確定了兩個(gè)關(guān)鍵挑戰(zhàn)。(i) 對(duì)于不需要的知識(shí),有效且高效的刪除至關(guān)重要。(ii) 對(duì)于剩余的知識(shí),遺忘過程帶來的影響應(yīng)盡可能小。為了解決這些問題,我們提出了群稀疏LoRA(GS-LoRA)。具體來說,針對(duì)(i),我們使用LoRA模塊獨(dú)立地對(duì)Transformer塊中的FFN層進(jìn)行微調(diào),以應(yīng)對(duì)每個(gè)遺忘任務(wù),并針對(duì)(ii),采用了簡(jiǎn)單的組稀疏正則化,實(shí)現(xiàn)了特定LoRA群組的自動(dòng)選擇并將其他群歸零。GS-LoRA有效、參數(shù)高效、數(shù)據(jù)高效且易于實(shí)現(xiàn)。我們?cè)谌四樧R(shí)別、目標(biāo)檢測(cè)和圖像分類上進(jìn)行了廣泛實(shí)驗(yàn),并展示了GS-LoRA能夠在對(duì)其他類別影響最小的情況下忘記特定類別。

圖1. 連續(xù)遺忘

圖2. GS-LoRA管線示意圖
7. 通過語(yǔ)言引導(dǎo)監(jiān)督加強(qiáng)視覺連續(xù)學(xué)習(xí)
Enhancing Visual Continual Learning with Language-Guided Supervision
論文作者:尼博琳、趙宏博、張承灝、胡珂、孟高峰、張兆翔、向世明
連續(xù)學(xué)習(xí)旨在使模型能夠在不忘記先前獲得的知識(shí)的情況下學(xué)習(xí)新的任務(wù)。當(dāng)前的工作往往集中在網(wǎng)絡(luò)結(jié)構(gòu)、回放數(shù)據(jù)和正則化等技術(shù)。然而,數(shù)據(jù)類別標(biāo)簽中的語(yǔ)義信息在很大程度上被忽略了。當(dāng)前的方法往往使用獨(dú)熱標(biāo)簽,每個(gè)任務(wù)獨(dú)立學(xué)習(xí)分類頭。我們認(rèn)為,獨(dú)熱標(biāo)簽無法捕捉連續(xù)學(xué)習(xí)場(chǎng)景下不同類別跨任務(wù)的語(yǔ)義關(guān)系,阻礙了知識(shí)在任務(wù)間的有效轉(zhuǎn)移。在本工作中,我們重新審視了分類頭在連續(xù)學(xué)習(xí)場(chǎng)景中的作用,并用來自預(yù)訓(xùn)練語(yǔ)言模型的語(yǔ)義知識(shí)取代了隨機(jī)初始化的分類頭。具體來說,我們使用預(yù)訓(xùn)練語(yǔ)言模型為每個(gè)類別生成語(yǔ)義目標(biāo),這些目標(biāo)在訓(xùn)練期間被凍結(jié)作為監(jiān)督信號(hào)。這些目標(biāo)充分考慮了跨任務(wù)的所有類之間的語(yǔ)義相關(guān)性。實(shí)證研究表明,我們的方法通過減輕表征漂移和促進(jìn)跨任務(wù)的知識(shí)轉(zhuǎn)移來減輕遺忘。所提出的方法易于實(shí)現(xiàn),并且可以無縫地插入到現(xiàn)有方法中。

圖1. LingoCL示意圖及效果
8. HardMo:一個(gè)大規(guī)模難例動(dòng)作捕捉數(shù)據(jù)集
HardMo: A Large-Scale Hardcase Dataset for Motion Capture
論文作者:廖佳琪,羅傳琛,杜伊諾,王玉璽,殷緒成,張曼,張兆翔,彭君然
本文介紹了一個(gè)大規(guī)模的難例動(dòng)作捕捉數(shù)據(jù)集——HardMo,旨在彌補(bǔ)現(xiàn)有人體mesh恢復(fù)方法(HMR)在處理舞蹈和武術(shù)等場(chǎng)景中不常見姿勢(shì)的不足。由于這些領(lǐng)域的動(dòng)作具有高速度和高張力特征,而現(xiàn)有數(shù)據(jù)集大多聚焦于日常動(dòng)作,缺乏這類復(fù)雜動(dòng)作的樣本,導(dǎo)致模型難以有效處理舞蹈和武術(shù)場(chǎng)景。為此,我們提出了一套數(shù)據(jù)收集流程,包括自動(dòng)爬取、精確標(biāo)注和難例挖掘,基于此流程快速建立了包含700萬張的大型數(shù)據(jù)集HardMo。這些覆蓋了15類舞蹈和14類武術(shù),每張都配有精確的標(biāo)注。實(shí)驗(yàn)發(fā)現(xiàn),舞蹈和武術(shù)中的預(yù)測(cè)失敗主要表現(xiàn)在手腕和腳踝的不對(duì)齊上。此外針對(duì)這兩個(gè)難點(diǎn),我們利用提出的自動(dòng)化流程篩選出相關(guān)數(shù)據(jù),構(gòu)建了名為HardMo-Hand和HardMo-Foot的子集。廣泛的實(shí)驗(yàn)表明,我們的標(biāo)注流程和數(shù)據(jù)驅(qū)動(dòng)解決方案的有效性。特別是,經(jīng)HardMo訓(xùn)練后的HMR方法甚至在我們的基準(zhǔn)測(cè)試上超過了當(dāng)前的最先進(jìn)技術(shù)4DHumans。
9. 屬性引導(dǎo)的行人檢索:跨越行人重識(shí)別中的內(nèi)在屬性變化
Attribute-Guided Pedestrian Retrieval: Bridging Person Re-ID with Internal Attribute Variability
論文作者:黃延、張彰、吳強(qiáng)、鐘怡、王亮
在智能監(jiān)控領(lǐng)域中,行人檢索(重識(shí)別)技術(shù),扮演著至關(guān)重要的角色。目前的Re-ID方法常常忽略對(duì)行人細(xì)微屬性變化所導(dǎo)致的外觀變化顯式建模。針對(duì)這一問題,我們的研究提出了視覺屬性引導(dǎo)的行人檢索(AGPR)任務(wù),旨在通過對(duì)特定人體屬性查詢條件與查詢圖像的整合來提高行人檢索準(zhǔn)確性。我們提出的基于ViT屬性引導(dǎo)的行人檢索(ATPR)框架通過對(duì)行人屬性組間相關(guān)性和屬性組內(nèi)去相關(guān)性建立正則化項(xiàng),有效地融合了全局行人ID識(shí)別與局部屬性學(xué)習(xí)。我們基于RAP行人屬性數(shù)據(jù)集構(gòu)建了新的AGPR任務(wù)基準(zhǔn),并進(jìn)行了廣泛實(shí)驗(yàn),結(jié)果驗(yàn)證了我們提出的ATPR方法在AGPR任務(wù)中的有效性。
10. 調(diào)查視覺-語(yǔ)言模型在視覺定位任務(wù)上的組合關(guān)系挑戰(zhàn)
Investigating Compositional Challenges in Vision-Language Models for Visual Grounding
論文作者:曾宇楠,黃巖,張津津,揭澤群,柴振華,王亮
預(yù)訓(xùn)練的視覺-語(yǔ)言模型(VLMs)在各種下游任務(wù)中取得了高性能,這些模型已被廣泛應(yīng)用于視覺定位任務(wù)。然而,盡管大規(guī)模的視覺和語(yǔ)言預(yù)訓(xùn)練貢獻(xiàn)了性能提升,我們發(fā)現(xiàn)最先進(jìn)的VLMs在定位任務(wù)的組合推理上存在困難。為了證明這一點(diǎn),我們提出了屬性、關(guān)系和主次定位(ARPGrounding)基準(zhǔn)測(cè)試,以測(cè)試VLMs在視覺定位任務(wù)中的組合推理能力。ARPGrounding包含11,425個(gè)樣本,并從三個(gè)維度評(píng)估VLMs的組合理解能力:1)屬性,測(cè)試對(duì)目標(biāo)屬性的理解;2)關(guān)系,測(cè)試對(duì)目標(biāo)之間關(guān)系的理解;3)主次,反映了與名詞相關(guān)的詞性的意識(shí)。使用ARPGrounding基準(zhǔn)測(cè)試,我們?cè)u(píng)估了幾種主流的VLMs。實(shí)驗(yàn)結(jié)果表明,這些模型在傳統(tǒng)的視覺定位數(shù)據(jù)集上表現(xiàn)相當(dāng)好,達(dá)到或超過了最先進(jìn)方法的性能,然而在組合推理上顯示出明顯的不足。更進(jìn)一步,我們提出了組合關(guān)系感知的微調(diào)流程,展示了利用低成本的圖像-文本標(biāo)注來增強(qiáng)VLMs在定位任務(wù)中的組合理解能力的潛力。
11. 多模態(tài)提示感知器:為多功能圖像復(fù)原賦能自適應(yīng)性、泛化性和保真度
Multimodal Prompt Perceiver: Empower Adaptiveness, Generalizability and Fidelity for All-in-One Image Restoration
論文作者:論文作者:艾雨昂,黃懷波,周曉強(qiáng),王杰翔,赫然
本文介紹了一種名為MPerceiver的多模態(tài)提示學(xué)習(xí)方法,旨在解決多功能圖像復(fù)原中面臨的復(fù)雜真實(shí)場(chǎng)景退化問題。MPerceiver通過利用Stable Diffusion中的先驗(yàn)知識(shí)來增強(qiáng)自適應(yīng)性、泛化性和保真度。具體來說,本文提出了一個(gè)雙分支模塊提供多模態(tài)提示:文本提示用于整體表征,而視覺提示用于多尺度細(xì)節(jié)表征。這兩種提示通過CLIP圖像編碼器的退化預(yù)測(cè)動(dòng)態(tài)調(diào)整,能夠適應(yīng)各種未知的退化情況。此外,MPerceiver采用了一個(gè)插件式細(xì)節(jié)精煉模塊,通過編碼器到解碼器的信息跳連,改善了圖像復(fù)原的保真度。MPerceiver在9個(gè)圖像復(fù)原任務(wù)中進(jìn)行了訓(xùn)練,并且在許多任務(wù)中甚至超越了最先進(jìn)的特定任務(wù)方法。在多任務(wù)預(yù)訓(xùn)練之后,MPerceiver學(xué)習(xí)到了底層視覺的通用表征,展現(xiàn)了強(qiáng)大的Zero-Shot和Few-Shot能力。在16個(gè)復(fù)原任務(wù)上的實(shí)驗(yàn)證明了MPerceiver在自適應(yīng)性、泛化性和保真度方面的優(yōu)越性。
12. 基于小波增強(qiáng)Transformer和不確定性感知的無源自適應(yīng)圖像超分辨率
Uncertainty-Aware Source-Free Adaptive Image Super-Resolution with Wavelet Augmentation Transformer
論文作者:艾雨昂,周曉強(qiáng),黃懷波,張磊,赫然
無監(jiān)督領(lǐng)域適應(yīng)能夠通過同時(shí)訪問源數(shù)據(jù)和目標(biāo)數(shù)據(jù),有效地解決真實(shí)場(chǎng)景圖像超分辨率中的域差異問題??紤]到實(shí)際場(chǎng)景中源數(shù)據(jù)的隱私政策或傳輸限制,本文提出了一種無源領(lǐng)域自適應(yīng)框架SODA-SR用于圖像超分辨率。SODA-SR利用源訓(xùn)練模型生成精細(xì)化的偽標(biāo)簽,用于師生學(xué)習(xí)。為了更好地利用偽標(biāo)簽,本文提出了一種新穎的基于小波的增強(qiáng)方法,名為小波增強(qiáng)Transformer,它可以靈活地結(jié)合現(xiàn)有網(wǎng)絡(luò),隱式地產(chǎn)生有用的增強(qiáng)數(shù)據(jù)。此外,本文提出了一種不確定性感知的自訓(xùn)練機(jī)制,以提高偽標(biāo)簽的準(zhǔn)確性,不準(zhǔn)確的預(yù)測(cè)將通過不確定性估計(jì)得到糾正。實(shí)驗(yàn)表明,即使不訪問源數(shù)據(jù),SODA-SR也在多種設(shè)置中超越最先進(jìn)的UDA方法,并且不受特定網(wǎng)絡(luò)架構(gòu)的限制。
RMT: Retentive Networks Meet Vision Transformers
論文作者:樊齊航,黃懷波,陳銘銳,劉紅敏,赫然
最近,Retentive Network(RetNet)作為一種有可能取代Transformer的架構(gòu)出現(xiàn),引起了自然語(yǔ)言處理社區(qū)的廣泛關(guān)注。作者將RetNet的思想遷移到視覺領(lǐng)域并將RetNet和Transformer結(jié)合起來,提出了RMT。受RetNet啟發(fā),RMT在視覺Backbone中引入了顯式衰減,將與空間距離相關(guān)的先驗(yàn)知識(shí)引入到視覺模型中。這種與距離相關(guān)的空間先驗(yàn)允許顯式控制每個(gè)Token可以關(guān)注的Token范圍。此外,為了降低全局建模的計(jì)算成本,作者沿圖像的兩個(gè)坐標(biāo)軸分解了這個(gè)建模過程。大量的實(shí)驗(yàn)表明,RMT在各種計(jì)算機(jī)視覺任務(wù)如分類、目標(biāo)檢測(cè)、實(shí)例分割和語(yǔ)義分割等中表現(xiàn)出色。
14. 面向測(cè)試過程檢測(cè)及修復(fù)的神經(jīng)后門防御
Backdoor Defense via Test-Time Detecting and Repairing
論文作者:關(guān)霽洋,梁堅(jiān),赫然
針對(duì)神經(jīng)后門防御問題,之前的工作主要在模型部署之前使用干凈樣本來去除模型神經(jīng)后門,而本文研究了利用部分污染的模型測(cè)試數(shù)據(jù)從模型中去除神經(jīng)后門,并提出了一種兩階段的神經(jīng)后門防御方法。在第一階段,本文提出了一種后門樣本檢測(cè)方法DDP,它從一批混合的部分投毒數(shù)據(jù)中識(shí)別出后門樣本,其后,本文使用夏普利值估計(jì)定位并去除模型中的神經(jīng)后門。我們的的方法TTBD在多種網(wǎng)絡(luò)結(jié)構(gòu)下針對(duì)多種不同的神經(jīng)后門攻擊,均取得了良好的神經(jīng)后門防御效果。
15. MoPE-CLIP:使用模塊化剪枝誤差度量的高效視覺-語(yǔ)言模型結(jié)構(gòu)化剪枝方法
MoPE-CLIP: Structured Pruning for Efficient Vision-Language Models with Module-wise Pruning Error Metric
論文作者:林浩坤,柏昊立,劉智立,侯璐,孫沐毅,宋林琦,魏穎,孫哲南
本文探索了多種多模態(tài)視覺語(yǔ)言預(yù)訓(xùn)練模型(如CLIP)的小型化方案,研究發(fā)現(xiàn)直接使用較小的預(yù)訓(xùn)練模型或應(yīng)用基于權(quán)重大小的剪枝,往往導(dǎo)致靈活性不足和性能不佳。針對(duì)上述挑戰(zhàn),我們提出了一種新穎的模塊化剪枝誤差(MoPE)度量方法,旨在精確評(píng)估CLIP模塊在跨模態(tài)任務(wù)中的重要性。利用MoPE度量,我們進(jìn)一步提出適用于預(yù)訓(xùn)練和特定任務(wù)微調(diào)兩個(gè)壓縮階段的剪枝框架,同時(shí)設(shè)計(jì)了更高效的知識(shí)蒸餾損失函數(shù)。在預(yù)訓(xùn)練階段,MoPE-CLIP利用教師模型的知識(shí),顯著減少了預(yù)訓(xùn)練成本,并保持CLIP模型強(qiáng)大的零樣本能力。在微調(diào)階段,通過先寬度剪枝再深度剪枝的方式,我們能夠在特定任務(wù)上產(chǎn)生性能強(qiáng)大的專用模型。我們通過兩個(gè)階段的廣泛實(shí)驗(yàn)驗(yàn)證了MoPE度量的有效性, MoPE-CLIP超越了之前最先進(jìn)的多模型模型剪枝方案,與先前采用單一模態(tài)剪枝度量或涉及昂貴的可學(xué)習(xí)掩模搜索過程的方法相比,我們的方法不僅提高了性能,而且提供了一種更靈活、成本效益更高的解決方案。
16. SfmCAD:基于“草圖+特征”建模的無監(jiān)督CAD重建
SfmCAD: Unsupervised CAD Reconstruction by Learning Sketch-based Feature Modeling Operations
論文作者:李樸,郭建偉,李慧斌,Bedrich Benes,嚴(yán)冬明
SfmCAD通過學(xué)習(xí)現(xiàn)代CAD工作流中基于草圖的特征建模操作來重構(gòu)三維形狀。給定一個(gè)體素形式表示的三維形狀,SfmCAD能夠無監(jiān)督地學(xué)習(xí)一種草圖+路徑參數(shù)化表示方法,包括形狀部件的二維草圖及其三維掃掠路徑。SfmCAD利用二維草圖來表達(dá)局部幾何細(xì)節(jié),并通過三維路徑捕捉整體結(jié)構(gòu),實(shí)現(xiàn)了形狀細(xì)節(jié)與結(jié)構(gòu)之間的解耦。這種轉(zhuǎn)化為參數(shù)化形式的方法不僅增強(qiáng)了模型的可解釋性,還提高了輸出結(jié)果的可編輯性,使用戶能夠方便地編輯形狀的幾何和結(jié)構(gòu)特征。我們通過將SfmCAD應(yīng)用于各種不同類型的對(duì)象,如CAD部件、ShapeNet形狀和樹干結(jié)構(gòu),展示了我們方法的有效性。
17. SVDTree:基于語(yǔ)義體素?cái)U(kuò)散模型的單張圖像樹木三維重建
SVDTree: Semantic Voxel Diffusion for Single Image Tree Reconstruction
論文作者:李源、劉志浩、Bedrich Benes、張曉鵬、郭建偉
高效地表示和重建樹木的三維幾何仍然是計(jì)算機(jī)視覺和圖形領(lǐng)域中的一個(gè)極具挑戰(zhàn)性的問題。本研究提出了一種新穎的方法,用于從單個(gè)視角的照片生成逼真的樹木三維模型。本研究將三維信息推理問題轉(zhuǎn)化為語(yǔ)義體素?cái)U(kuò)散過程,該過程將樹木的輸入圖像轉(zhuǎn)換為三維空間中的新穎語(yǔ)義體素結(jié)構(gòu)(SVS)。SVS編碼了幾何外觀和語(yǔ)義結(jié)構(gòu)信息(例如樹干、樹枝和樹葉),從而保留了復(fù)雜的樹木內(nèi)部特征。針對(duì)SVS,本研究提出了一種新的混合樹木建模方法,SVDTree,包括面向結(jié)構(gòu)的樹干重建和基于自組織的樹冠重建兩部分。本研究使用合成和真實(shí)樹木的圖像對(duì)SVDTree進(jìn)行了算法驗(yàn)證和對(duì)比,結(jié)果表明,本研究方法能夠更好地保留樹木細(xì)節(jié),并實(shí)現(xiàn)了更為逼真和準(zhǔn)確的重建結(jié)果。
18. UnionFormer: 用于圖像篡改檢測(cè)和定位的多視角表征聯(lián)合學(xué)習(xí)Transformer模型
UnionFormer: Unified-Learning Transformer with Multi-View Representation for Image Manipulation Detection and Localization
論文作者:李帥伯、馬偉、郭建偉、徐世彪、李本沖、張曉鵬
本研究提出了UnionFormer,一種針對(duì)圖像篡改檢測(cè)與定位的新穎Transformer框架,它采用聯(lián)合學(xué)習(xí)機(jī)制,整合了三個(gè)不同視角的篡改信息,以準(zhǔn)確判別真?zhèn)螆D像。在該研究中,我們?cè)O(shè)計(jì)了能夠從RGB視角和噪聲視角交互提取篡改表征的BSFI-Net,其不僅對(duì)邊界處的異常痕跡有著敏感的響應(yīng),而且能夠建模多尺度的空間連續(xù)性。此外,本研究引入圖像內(nèi)不同目標(biāo)間的不一致性作為全新的判別視角,并將其構(gòu)建過程與檢測(cè)、定位任務(wù)融合于一個(gè)統(tǒng)一的三任務(wù)聯(lián)合學(xué)習(xí)架構(gòu)中,從而實(shí)現(xiàn)不同任務(wù)間的相互促進(jìn)。由此,本研究提出的模型在多重監(jiān)督下,成功學(xué)習(xí)并整合三個(gè)視角的篡改判別特征,實(shí)現(xiàn)了高性能的同步檢測(cè)與定位。實(shí)驗(yàn)結(jié)果表明,與先前的方法相比,本研究方法對(duì)多種類型的圖像篡改具有更高的檢測(cè)與定位準(zhǔn)確率。
我要收藏
點(diǎn)個(gè)贊吧
轉(zhuǎn)發(fā)分享
咨詢?cè)斍椋?/strong>如需咨詢文中涉及的相關(guān)產(chǎn)品或解決方案詳情,請(qǐng)加微信:ZiDongHuaX 。
微信聯(lián)盟:自動(dòng)駕駛微信群、傳感器微信群、機(jī)器人微信群,各細(xì)分行業(yè)微信群:點(diǎn)擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線監(jiān)測(cè)儀器、智慧農(nóng)業(yè)在線監(jiān)測(cè)儀器 查看各品牌在細(xì)分領(lǐng)域的定位宣傳語(yǔ)
微信聯(lián)盟:自動(dòng)駕駛微信群、傳感器微信群、機(jī)器人微信群,各細(xì)分行業(yè)微信群:點(diǎn)擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線監(jiān)測(cè)儀器、智慧農(nóng)業(yè)在線監(jiān)測(cè)儀器 查看各品牌在細(xì)分領(lǐng)域的定位宣傳語(yǔ)


評(píng)論排行