AAAI 2024 | 中國科學(xué)院自動化研究所新作速覽
【ZiDongHua 之智能自動化收錄關(guān)鍵詞:中國科學(xué)院自動化研究所 強化學(xué)習(xí) 神經(jīng)網(wǎng)絡(luò) 】
AAAI 2024 | 自動化所新作速覽
導(dǎo)讀 | 日前,中國計算機學(xué)會(CCF)推薦的A類國際學(xué)術(shù)會議AAAI公布論文接收結(jié)果。AAAI(AAAI Conference on Artificial Intelligence) 由國際先進人工智能協(xié)會主辦,是人工智能領(lǐng)域的頂級國際學(xué)術(shù)會議之一。第38屆AAAI人工智能年度會議將于2024年2月在加拿大溫哥華舉行。本文將介紹中國科學(xué)院自動化研究所團隊在AAAI 2024中錄用的27篇論文(排序不分先后)。
01. 語義概念引導(dǎo)下的集合預(yù)測用于多樣化視頻描述
Set Prediction Guided by Semantic Concepts for Diverse Video Captioning
作者:盧一帆,張子琦,原春鋒,李鵬,王炎,李兵,胡衛(wèi)明
現(xiàn)有多樣化描述方法使用獨立的“視頻-單句描述”對作為訓(xùn)練樣本,不同描述間缺乏交互,描述集合內(nèi)多樣性的沒有被充分挖掘。在本工作中,我們提出了基于語義概念引導(dǎo)集合預(yù)測(SCG-SP, Semantic-Concept-Guided Set Prediction)的多樣化視頻描述方法。首先,我們將視頻多樣化任務(wù)形式化為一個集合預(yù)測問題,使用模型直接擬合視頻的人工標注的描述集合,實現(xiàn)集合層面的建模。隨后,我們考慮了描述多樣性的來源:語義概念(目標、行為、場景等)。不同的語義概念組合代表了對視覺內(nèi)容的不同解讀,因此我們使用語義概念引導(dǎo)集合預(yù)測,進一步提升生成描述的語義多樣性。語義概念引導(dǎo)包含兩方面:1)對視頻中的語義概念進行檢測,利用其得到語義特定的視頻編碼;2)增加語義概念預(yù)測的輔助任務(wù),引入額外語義監(jiān)督。我們的方法在多個視頻描述數(shù)據(jù)集上取得了先進表現(xiàn)。

02. 基于強化學(xué)習(xí)的圖像信號處理參數(shù)順序優(yōu)化方法
RL-SeqISP: Reinforcement Learning-based Sequential Optimization for Image Signal Processing
作者:孫鑫雨,趙治坤,魏莉莉,郎叢妍,蔡明軒,韓龍飛,王雋,李兵,郭宇軒
硬件圖像信號處理(ISP)旨在將輸入的RAW圖轉(zhuǎn)換為RGB圖像,它由一系列處理模塊組成,且每個模塊都包含了許多可調(diào)的參數(shù)。目前,ISP參數(shù)大都由成像專家根據(jù)圖像質(zhì)量和特定任務(wù)下的性能指標進行手動調(diào)整,這一過程耗時耗力,而且會受到人類視覺主觀偏好影響。此外,每個參數(shù)的變化與輸出性能指標之間的關(guān)系是復(fù)雜的非線性函數(shù),所以優(yōu)化如此大量的ISP參數(shù)極具挑戰(zhàn)性。受人類專家的序列化調(diào)優(yōu)過程的啟發(fā),我們提出了一種序列化ISP參數(shù)優(yōu)化模型(RL-SeqISP),它利用深度強化學(xué)習(xí)來預(yù)測不同成像應(yīng)用的所有ISP參數(shù)。我們提出的模型通過融合來自圖像特征空間和參數(shù)空間的信息來逐步提高圖像質(zhì)量。此外,為了避免ISP參數(shù)陷入局部最優(yōu),我們引入動態(tài)參數(shù)優(yōu)化模塊。與其他的方法相比,RL-SeqISP模型的優(yōu)點及效率通過在廣泛的下游任務(wù)上的綜合實驗得到證實。這里特別需要指出的是即使只使用10%的訓(xùn)練數(shù)據(jù),我們的模型在兩個視覺分析任務(wù)上也比其他SOTA方法平均高出7%的mAP。

03. 動態(tài)圖片利用的多模態(tài)摘要方法
DIUSum: Dynamic Image Utilization for Multimodal Summarization
作者:肖敏,朱軍楠,翟飛飛,周玉,宗成慶
已有的多模態(tài)摘要工作都在假設(shè)圖片一定對摘要或多或少有幫助的前提下,結(jié)合圖片信息生成摘要,而忽視了不是所有樣本都可以幫助提升摘要質(zhì)量的問題。因此,我們提出了一個動態(tài)圖像利用框架,以動態(tài)選擇用于多模態(tài)總結(jié)的圖像。首先,我們提出了一個圖像選擇器,根據(jù)多模態(tài)特征對每個圖像進行評分。該圖像選擇器預(yù)測圖像是否有助于生成比單模輸入更高質(zhì)量的摘要。具體而言,我們使用自我標記方法優(yōu)化圖像選擇器,該方法根據(jù)多模輸入是否有助于生成比單模輸入更高質(zhì)量的摘要來定義圖像的貢獻。然后,在圖像選擇器的指導(dǎo)下,解碼器動態(tài)地利用多模態(tài)信息生成摘要。通過這些步驟,模型可以獲取對生成摘要更有效的圖像信息,并為摘要提供更好的多模態(tài)信息。
通過實驗結(jié)果,對圖片動態(tài)利用的方法均在兩個公開數(shù)據(jù)集上拿到了最好的(State of Art, SOTA)的性能。這也進一步證明了我們的初衷,即不同樣本對不同模態(tài)的需求是不一樣的。

圖1. 模型框架
“TxtEnc”和“ImgEnc”分別代表文本和圖像特征提取器。“Selc”代表圖像選擇器
表1 在MMSS數(shù)據(jù)集上的實驗結(jié)果

04. 神經(jīng)群體編碼啟發(fā)的連續(xù)旋轉(zhuǎn)群等變網(wǎng)絡(luò)
Continuous Rotation Group Equivariant Network Inspired by Neural Population Coding
作者:陳智強,陳陽,鄒曉龍,余山
群體編碼在生物神經(jīng)元中是一個普遍的機制,比如海馬中的‘place cell’、初級視覺皮層的方向、顏色、朝向等神經(jīng)元都是通過群體編碼的方式來編碼信息的。鐘型調(diào)諧曲線(bell-shaped tuning curve)對于神經(jīng)群體編碼通過離散的最優(yōu)刺激來編碼連續(xù)信息是至關(guān)重要的。受此啟發(fā),我們通過高斯調(diào)制將鐘型的調(diào)諧曲線嵌入到離散的群等變卷積中,從而實現(xiàn)使用離散群卷積達到連續(xù)群等變的目的。受益于高斯調(diào)制,卷積核在幾何維度上(如位置維度、方向維度)也具有平滑的梯度,這使得可以使用稀疏的帶有可學(xué)習(xí)幾何參數(shù)的權(quán)重來生成群等變卷積核,從而使得網(wǎng)絡(luò)既具有競爭性的性能又具有極高的參數(shù)效率。
實驗結(jié)果表明:1)在MNIST-rot上相比于之前的方法,我們的方法能夠使用更少的參數(shù)(少于25%)達到極具競爭力的性能;2)尤其是在小樣本學(xué)習(xí)下,我們的方法能夠得到更加顯著的性能提升(24%);3)同時在更多的數(shù)據(jù)集(如MNIST、CIFAR和ImageNet)和不同的網(wǎng)絡(luò)架構(gòu)上(平直網(wǎng)絡(luò)架構(gòu)和ResNet架構(gòu))都具有不錯的旋轉(zhuǎn)泛化能力。


05. 從靜態(tài)域到事件域的脈沖神經(jīng)網(wǎng)絡(luò)知識遷移策略
An Efficient Knowledge Transfer Strategy for Spiking Neural Networks from Static to Event Domain
作者:何翔,趙東城,李楊,申國斌,孔慶群,曾毅
脈沖神經(jīng)網(wǎng)絡(luò) (SNN) 因為其事件驅(qū)動的優(yōu)勢而著稱,時間上的特征使得SNN適合處理事件數(shù)據(jù)。然而事件數(shù)據(jù)往往規(guī)模較小,限制了其進一步發(fā)展。相比而言,靜態(tài)的RGB數(shù)據(jù)集規(guī)模較大且更易獲取。靜態(tài)的圖片能為事件數(shù)據(jù)提供有價值的空間信息,但由于事件數(shù)據(jù)與靜態(tài)圖片是兩種不同的模態(tài),它們存在著固有的域差異。
為了減小域差異,優(yōu)化SNN在事件數(shù)據(jù)上的表現(xiàn),我們主要從兩個方面來進行解決:第一是特征分布,第二是訓(xùn)練策略。對于特征分布,我們設(shè)計了知識轉(zhuǎn)移損失函數(shù),其包括域?qū)R損失和時空正則化。域?qū)R損失通過減少靜態(tài)圖像和事件數(shù)據(jù)之間的邊緣分布距離,來學(xué)習(xí)和獲取域不變空間特征。時空正則化為域?qū)R損失提供動態(tài)調(diào)整的系數(shù),以更好地學(xué)習(xí)數(shù)據(jù)中的時間特征。在訓(xùn)練策略方面,我們提出了滑動訓(xùn)練策略,即在訓(xùn)練過程中用事件數(shù)據(jù)概率性地逐步替換靜態(tài)圖像輸入,從而平滑地減少知識轉(zhuǎn)移損失的作用,使訓(xùn)練過程更加穩(wěn)定。在三個數(shù)據(jù)集上的實驗結(jié)果充分表明了所提方法的有效性。

相關(guān)代碼開源在:
https://github.com/BrainCog-X/Brain-Cog/tree/main/examples/Perception_and_Learning/img_cls/transfer_for_dvs.
06. 弱分布檢測器可以提升視覺語言提示調(diào)整的泛化性能
Weak Distribution Detectors Lead to Stronger Generalizability of Vision-Language Prompt Tuning
作者:丁昆,張好劍,于強,王穎,向世明,潘春洪
預(yù)訓(xùn)練視覺語言大模型包含豐富的知識,將這些模型在不同的下游任務(wù)上微調(diào)以快速解決特定領(lǐng)域的問題是最近的一個研究趨勢。傳統(tǒng)的微調(diào)技術(shù)在參數(shù)效率和泛化性上均存在問題。近期,基于提示調(diào)整的參數(shù)高效微調(diào)技術(shù)在圖像識別、圖像分割等任務(wù)中取得不錯的性能。然而,提示調(diào)整技術(shù)在保持跨類別泛化性方面仍存在缺陷,即在可見類上進行提示調(diào)整后,新類上的識別性能顯著下降。
考慮到未經(jīng)提示調(diào)整的零樣本分類器在新類上具有很好的識別性能,而提示調(diào)整的小樣本分類器在可見類上識別性能更優(yōu),本研究將跨類別泛化性問題轉(zhuǎn)換為分布外檢測(OOD,Out-of-Distribution)問題。首先,針對零樣本分類器和小樣本分類器分別計算分布內(nèi)得分;接著,基于這兩個得分計算兩個分類器各自的權(quán)重;最后,使用上述權(quán)重對兩個分類器進行動態(tài)加權(quán)。本研究在理論和實驗上展示了即時所使用的分布檢測器的分類精度不高,仍然能促進視覺語言提示調(diào)整的跨類別泛化性?! ?img alt="" src="http://m.openheartcreations.com/uploadfile/2024/0105/03582073322163818.png" style="width: 831px; height: 479px;" />

07. 學(xué)習(xí)如何去看:用于目標檢測和相機調(diào)整的協(xié)作具身學(xué)習(xí)
Learn How to See: Collaborative Embodied Learning for Object Detection and Camera Adjusting
作者:申領(lǐng)東,霍春雷,許諾,韓超偉,王子辰
被動的目標檢測器通常是在大規(guī)模靜態(tài)數(shù)據(jù)集上訓(xùn)練的,往往忽視了從物體檢測到圖像獲取的反饋。具身視覺和主動檢測通過與環(huán)境互動緩解了這個問題。然而,實現(xiàn)主動性取決于資源密集型的數(shù)據(jù)收集和標注。為了解決這些挑戰(zhàn),我們提出了一個協(xié)作式的學(xué)生-教師框架。技術(shù)上,我們基于軌跡數(shù)據(jù)構(gòu)建了一個replay buffer,封裝了狀態(tài)、動作和獎勵之間的關(guān)系。此外,學(xué)生網(wǎng)絡(luò)通過使用蘊含因果自注意力的GPT結(jié)構(gòu)的序列決策路徑來替代使用強化學(xué)習(xí)的決策過程。此外,教師網(wǎng)絡(luò)基于相鄰狀態(tài)的差異建立了狀態(tài)-獎勵映射,為學(xué)生提供可靠的獎勵,使其能夠基于龐大的未標記的replay buffer數(shù)據(jù)自適應(yīng)地調(diào)整權(quán)重。教師網(wǎng)絡(luò)內(nèi)還提出了一個簡單但有效的獎勵參考值,增強了其有效性和簡潔性。利用靈活的replay buffer和教師-學(xué)生之間的具身協(xié)作,該框架學(xué)會在檢測之前用更淺的特征和更短的推理步驟進行觀察。實驗證明,我們的算法在與最先進的檢測器相比具有顯著優(yōu)勢。

08. 對抗類別增量學(xué)習(xí)中的不平衡遺忘
Defying Imbalanced Forgetting in Class Incremental Learning
作者:許世雄,孟高峰,聶興,尼博琳,樊彬,向世明
我們首次觀察到在同一個舊任務(wù)中不同類別的準確性存在高度不平衡的現(xiàn)象。這個有趣的現(xiàn)象是在基于回放的類別增量學(xué)習(xí)(CIL)中發(fā)現(xiàn)的,它揭示了已學(xué)習(xí)類別的遺忘存在不平衡,因為在災(zāi)難性遺忘發(fā)生之前它們的準確性是接近的。由于CIL中依賴于平均增量準確性作為衡量標準,這種衡量標準假設(shè)同一任務(wù)中的類別準確性是相似的,因此此前的研究工作中忽視了這個現(xiàn)象。然而,在面對災(zāi)難性遺忘時,這個假設(shè)是無效的。進一步的實驗與分析表明,這種不平衡的遺忘是因為語義上相似的舊類別和新類別之間在特征空間中存在沖突引起的。這些沖突源于基于回放的CIL方法中存在的類別不平衡?;谶@些發(fā)現(xiàn),我們提出了Class-Aware Disentanglement(CLAD)方法,用于預(yù)測更有可能被遺忘的舊類別并提高它們的準確性。重要的是,CLAD可以無縫地集成到現(xiàn)有的CIL方法中。大量的實驗表明,CLAD能夠穩(wěn)定的改進當(dāng)前的基于回放的方法,帶來高達2.56%的性能提升。

09. 基于互補專家的長尾半監(jiān)督算法
Three Heads Are Better Than One: Complementary Experts for Long-Tailed Semi-supervised Learning
作者:馬成丞,Ismail Elezi,鄧健康,董未名,徐常勝
在長尾半監(jiān)督圖像分類任務(wù)中,訓(xùn)練集包含少量的有標注數(shù)據(jù)和大量的無標注數(shù)據(jù),有標注子集服從長尾分布,無標注子集服從未知的類別分布,且可能與有標注子集不同。在經(jīng)典的半監(jiān)督算法框架FixMatch中,數(shù)據(jù)集的長尾分布會導(dǎo)致大量的無標注數(shù)據(jù)被誤分為頭部類別,而這些類別不均衡的偽標注反過來加重了模型的認知偏差(confirmation bias)問題,最終模型將大部分測試樣本誤分成頭部類別。本文基于混合專家(Mixture-of-Experts,MoE)的思想,采用不同強度的logit adjustment同時訓(xùn)練三個分類頭,從而保證在多種不同的無標注子集類別分布下始終可以有一個分類頭能預(yù)測出準確的偽標注,保證模型特征提取器的訓(xùn)練效果。實驗證明,本文在CIFAR-10/100和STL-10數(shù)據(jù)集上均能取得不錯的分類精度。

相關(guān)鏈接:
https://github.com/machengcheng2016/CPE-LTSSL
10. 基于時變反演擴散模型的音樂風(fēng)格遷移
Music Style Transfer with Time-Varying Inversion of Diffusion Models
作者:李思霏,張宇欣,唐帆,馬重陽,董未名,徐常勝
隨著擴散模型的發(fā)展,文本引導(dǎo)的圖像風(fēng)格遷移已經(jīng)展示出高質(zhì)量可控的結(jié)果。然而,利用文本進行多樣化的音樂風(fēng)格遷移面臨著嚴峻的挑戰(zhàn),主要是由于可用的匹配的音頻-文本數(shù)據(jù)集的有限性。音樂作為一種抽象而復(fù)雜的藝術(shù)形式,即使在同一種風(fēng)格中也表現(xiàn)出較高復(fù)雜性,因此準確的文本描述具有挑戰(zhàn)性。本文提出了一種能夠使用最少數(shù)據(jù)有效捕捉音樂屬性的音樂風(fēng)格轉(zhuǎn)換方法。我們引入了一種新穎的時間變化的文本反演模塊,以精確捕捉不同層次的梅爾頻譜特征。在推理過程中,我們提出了一種減少偏差的風(fēng)格化技術(shù),以獲得穩(wěn)定的風(fēng)格化結(jié)果。實驗結(jié)果表明,我們的方法可以轉(zhuǎn)換特定樂器的風(fēng)格,并結(jié)合自然聲音來創(chuàng)作旋律。
相關(guān)鏈接:
https://lsfhuihuiff.github.io/MusicTI/
11. 基于復(fù)合文本監(jiān)督的提示學(xué)習(xí)
Compound Text-Guided Prompt Tuning via Image-Adaptive Cues
作者:譚淏、李俊、周亦莊、萬軍、雷震、張祥雨
隨著大規(guī)模視覺-文本預(yù)訓(xùn)練的出現(xiàn),視覺-文本模型在下游任務(wù)中展現(xiàn)出強大的泛化能力。然而:1)現(xiàn)有的基于提示學(xué)習(xí)的微調(diào)框架需要對所有類別的文本輸入進行并行化處理,當(dāng)目標數(shù)據(jù)集含有大量類別時,會造成巨大的顯存消耗;2)此外,現(xiàn)有工作需要在提示輸入中包含類別名稱,在處理模糊類別名時表現(xiàn)不佳。
為了解決這些不足,我們提出使用復(fù)合文本引導(dǎo)提示學(xué)習(xí),顯著減少了顯存需求,并獲得了更好的性能。具體而言,我們引入文本監(jiān)督來約束提示向量的優(yōu)化,以帶來兩個好處:1)在推理階段,模型不再依賴預(yù)定義的類別名集合,實現(xiàn)了更靈活的提示輸入;2)減少了文本端的輸入數(shù)量,從而顯著降低顯存消耗。具體而言,我們發(fā)現(xiàn)復(fù)合文本監(jiān)督(即基于類別的監(jiān)督和基于內(nèi)容的監(jiān)督)十分有效,它們分別提供了類間可分性和類內(nèi)多樣性。此外,我們還設(shè)計了一個連接器模塊來橋接文本與視覺模態(tài),促進提示向量與視覺特征的對齊。
我們在少樣本圖像識別和域泛化任務(wù)上進行了廣泛的實驗,證明了所提出的方法以較低的訓(xùn)練成本實現(xiàn)了更優(yōu)的性能。我們希望這項工作能夠啟發(fā)更豐富、通用的文本監(jiān)督,以進一步增強提示微調(diào)在更廣泛下游任務(wù)上的表現(xiàn)。

圖1. 方法框架圖

圖2. 顯存消耗與性能對比圖
代碼地址:
https://github.com/EricTan7/TGP-T
12. WaveNet:基于圖譜小波的非平穩(wěn)圖信號處理
WaveNet: Tackling Non-Stationary Graph Signals via Graph Spectral Wavelets
作者:楊智睿,胡羽藍,歐陽晟,劉敬宇,王書強,馬喜波,Wenhan Wang,Hanjing Su,劉勇
在譜圖神經(jīng)網(wǎng)絡(luò)的研究中,多項式方法在基于拉普拉斯矩陣的濾波器設(shè)計上占據(jù)主導(dǎo)地位。然而,由拉普拉斯矩陣析取的多項式組合在信息傳遞中存在一定的限制(如過度平滑),并且多數(shù)譜圖神經(jīng)網(wǎng)絡(luò)采用的多項式基也會導(dǎo)致圖譜信號高頻信號的丟失。此外,本研究發(fā)現(xiàn),即使增加多項式階數(shù)也無法改變這種情況,這意味著基于多項式的模型在面對高頻信號時存在一定的缺陷。為解決這些問題,本研究打破了多項式方法在譜圖神經(jīng)網(wǎng)絡(luò)設(shè)計中的主導(dǎo)地位,并為研究人員引入了一種新的視角。首先,本研究在譜圖信號上采用多分辨率分析,證明了小波對高頻信號的強大擬合能力。然后,本研究利用尺度函數(shù)在圖中重構(gòu)譜信號。進一步,本研究還采用圖像圖表實驗、節(jié)點分類實驗以及合成玩具實驗證明了所提方法在學(xué)習(xí)復(fù)雜濾波器方面的有效性、性能優(yōu)越性以及細小成分捕捉能力的高效性。最后,本研究還對學(xué)習(xí)到的濾波器進行了可視化,驗證了真實世界數(shù)據(jù)集的真實濾波器的復(fù)雜性。

圖1. WaveNet的架構(gòu)示意圖。信號重構(gòu)過程基于小波基,本研究利用Haar小波在圖數(shù)據(jù)上進行濾波。

圖2. BernNet和WaveNet學(xué)習(xí)的濾波器示意圖。WaveNet表現(xiàn)出了比BernNet更好的濾波器擬合性能。
13. 基于倒角法向距離和多尺度幾何特征的魯棒點云法向估計
CMG-Net: Robust Normal Estimation for Point Clouds via Chamfer Normal Distance and Multi-scale Geometry
作者:吳應(yīng)睿、趙明陽、李克強、全衛(wèi)澤、于天琪、羊箭鋒、賈曉紅、嚴冬明
本文提出了一種魯棒的高準確度點云法向估計方法。先前的方法對噪聲的魯棒性較差,難以被應(yīng)用于實際場景中,主要原因為:1)直接以標注法向作為擬合目標,導(dǎo)致在帶噪聲點云上擬合目標與潛在表面不一致;2)輸入尺度選取在細節(jié)保留和噪聲平滑上存在矛盾。針對標注法向與潛在表面不一致的問題,本文以帶噪聲點云和干凈點云的法向相似度為衡量標準,提出了倒角法向距離(Chamfer Normal Distance,CND)作為更合理的評價指標,并基于CND修正了網(wǎng)絡(luò)訓(xùn)練的損失函數(shù),提高了網(wǎng)絡(luò)對噪聲的魯棒性,如圖1所示。
此外,本文設(shè)計了一種基于多尺度局部特征聚合和分層幾何信息融合的法向估計網(wǎng)絡(luò),如圖2所示。
這種架構(gòu)能夠利用不同尺度特征的優(yōu)勢,更有效地捕捉復(fù)雜的幾何細節(jié),并緩解在尺度選擇上的矛盾。實驗證明,本文的方法在合成和真實的數(shù)據(jù)集上都取得了最佳的效果,且在噪聲魯棒性方面有較大的提升。

圖1. (a) CND圖示,(b) 不同方法的法向估計效果對比

圖2. CMG-Net流程
論文鏈接:
https://arxiv.org/abs/2312.09154
代碼鏈接:
https://github.com/YingruiWoo/CMG-Net Pytorch
14. AnomalyGPT: 基于多模態(tài)大模型的工業(yè)異常檢測方法
AnomalyGPT: Detecting Industrial Anomalies Using Large Vision-Language Models
作者:古兆鵬,朱炳科,朱貴波,陳盈盈,唐明,王金橋
MiniGPT-4,LLaVA 等多模態(tài)大模型在圖像理解方面展現(xiàn)了卓越的能力,在多種通用視覺任務(wù)中取得了顯著效果,但是現(xiàn)有的多模態(tài)大模型缺乏特定領(lǐng)域知識,而且對物體中局部細節(jié)的理解較弱,這導(dǎo)致這些方法不能很好地完成工業(yè)異常檢測任務(wù)。另一方面,大多數(shù)現(xiàn)有的工業(yè)異常檢測方法僅預(yù)測異常分數(shù),需要人工設(shè)定閾值以區(qū)分正常和異常樣本,這限制了這些方法的實際應(yīng)用場景。本文提出了一種基于多模態(tài)大模型的新型工業(yè)異常檢測方法——AnomalyGPT,通過模擬異常樣本的方式生成多模態(tài)訓(xùn)練數(shù)據(jù),使用圖像解碼器為語言大模型提供圖像細節(jié)語義信息,并設(shè)計了一個提示學(xué)習(xí)器,使用提示嵌入對多模態(tài)大模型進行微調(diào)。AnomalyGPT不需要手動設(shè)置閾值,可以直接判斷異常是否存在并指出異常位置,可以實現(xiàn)多輪對話,而且可以在測試階段利用少樣本遷移到之前從未見過的新類別物體上。在僅提供一個正常樣本的條件下,AnomalyGPT在 MVTec 數(shù)據(jù)集上達到了 85.5% 的準確率,94.1% 的圖像級 AUC 和 95.4% 的像素級 AUC,顯著地超過了現(xiàn)有方法的性能,在工業(yè)場景少樣本和無監(jiān)督場景中取得了業(yè)內(nèi)最好性能。

圖1. AnomalyGPT與現(xiàn)有的多模態(tài)大模型和工業(yè)異常檢測方法的效果對比圖

圖2. AnomalyGPT多模態(tài)大模型框架圖
論文鏈接:
https://arxiv.org/abs/2308.15366
項目主頁鏈接:
https://anomalygpt.github.io
開源代碼鏈接:
https://github.com/CASIA-IVA-Lab/AnomalyGPT
15. 基于波動性度量的大語言模型的自適應(yīng)結(jié)構(gòu)化剪枝
Fluctuation-based Adaptive Structured Pruning for Large Language Models
作者:安永琪、趙旭、于濤、唐明、王金橋
網(wǎng)絡(luò)結(jié)構(gòu)剪枝是解決大語言模型(LLMs)計算資源需求過大問題的有效方法。用于LLM的剪枝方法一般是無需重新訓(xùn)練的,以避免計算量過大。然而,現(xiàn)有幾乎所有的無需重新訓(xùn)練的LLM剪枝方法都屬于非結(jié)構(gòu)化剪枝,需要特定硬件支持以獲得真實加速。本文歸納了LLM結(jié)構(gòu)化剪枝的三個關(guān)鍵要素:結(jié)構(gòu)化剪枝度量、全局壓縮結(jié)構(gòu)和性能恢復(fù),并由此提出了一種無需重新訓(xùn)練的LLM結(jié)構(gòu)化剪枝框架——FLAP。FLAP利用波動性度量判斷去除各權(quán)重組后輸出特征圖的可恢復(fù)性,然后歸一化各層度量指標以全局搜索壓縮結(jié)構(gòu),最后通過統(tǒng)計基準值添加額外的偏置項來恢復(fù)輸出特征圖。在多種語言基準測試中,F(xiàn)LAP的表現(xiàn)顯著優(yōu)于現(xiàn)有的結(jié)構(gòu)化剪枝方法,包括Wanda(結(jié)構(gòu)化剪枝版本)、LLM Pruner。在50%剪枝率下,F(xiàn)LAP的困惑度相較于現(xiàn)有SOTA降低了19%,零樣本任務(wù)準確率比現(xiàn)有SOTA高1.49%,并實現(xiàn)了相較原始模型66%的推理加速。
論文鏈接:
https://arxiv.org/abs/2312.11983
代碼鏈接:
https://github.com/CASIA-IVA-Lab/FLAP
16. 針對深度合成音頻檢測的自適應(yīng)連續(xù)學(xué)習(xí)方法
What to Remember: Self-Adaptive Continual Learning for Audio Deepfake Detection
作者:張曉輝,易江燕,王成龍,章楚源,曾思丁,陶建華
語音合成和聲音轉(zhuǎn)換的迅速發(fā)展引起了重大關(guān)注,因為這種技術(shù)的潛在濫用可能性,迫切需要有效的音頻深度偽造檢測機制?,F(xiàn)有的檢測模型在區(qū)分已知類型的深度偽造音頻方面已顯示出可喜的成功,但在遇到新的攻擊類型時則面臨巨大的挑戰(zhàn)。為了應(yīng)對這一挑戰(zhàn),一種新興且有效的方法是連續(xù)學(xué)習(xí)。在這篇論文中,我們提出了一種稱為幅度權(quán)重修正(RWM)的連續(xù)學(xué)習(xí)方法,用于音頻深度偽造檢測。RWM的基本概念涉及將所有類別分為兩組:一組是在任務(wù)中具有緊湊特征分布的類別,如真實音頻;另一組是分布更離散的類別,如各種類型的假音頻。這些區(qū)別通過類內(nèi)余弦距離來量化,隨后RWM引入針對不同數(shù)據(jù)類型的可訓(xùn)練梯度方向修正的機制。通過與一眾主流連續(xù)學(xué)習(xí)方法進行比較,實驗結(jié)果表明RWM在新知識獲取和減少對已學(xué)知識的遺忘方面的優(yōu)越性。此外,RWM不僅適用于音頻深度偽造檢測,實驗結(jié)果還顯示了其在圖像識別等多個機器學(xué)習(xí)領(lǐng)域的潛在應(yīng)用價值。
論文鏈接:
https://arxiv.org/abs/2312.09651
代碼鏈接:
https://github.com/Cecile-hi/Radian-Weight-Modification
17. 根據(jù)顏色的低頻先驗評估輻射場的幾何形狀
Evaluate Geometry of Radiance Fields with Low-frequency Color Prior
作者:方啟航,宋亞斐,李克強,申麗,吳懷宇,熊剛,薄列峰
輻射場是三維場景的一種有效表示方式,它已被廣泛應(yīng)用于新視角合成和三維重建中。評估重建的幾何形狀,即密度場,仍然是一個開放且具有挑戰(zhàn)性的問題。這是因為物體幾何形狀的真值不易獲得,往往需要3D掃描和各種預(yù)處理,所以許多廣泛使用的數(shù)據(jù)集都沒有物體幾何形狀的真值,這導(dǎo)致密度場難以評估。為此,我們提出了一種新的度量標準,即逆平均顏色殘差(Inverse Mean Residual Color,IMRC),它只需物體圖像就可以評估重建的密度場。其關(guān)鍵在于,重建的密度場越準確,計算出顏色場的頻率就越低。具體地,我們設(shè)計了一種計算顏色場的方法,用低頻球面諧波來逼近顏色場,并采用逼近的殘差代替顏色場的頻率,由此計算IMRC。IMRC越高,則密度場的幾何形狀越好。定性和定量的實驗結(jié)果驗證了所提IMRC的有效性。我們還使用IMRC對幾種最先進的方法進行了基準測試,以推動未來相關(guān)研究的發(fā)展。

圖1. IMRC計算流程圖

圖2. 新視角下渲染的圖像、深度圖以及顏色殘差。IMRC可以正確分析重建的密度場質(zhì)量
代碼地址:
https://github.com/qihangGH/IMRC
18. 基于一致性與均勻性重新審視圖掩碼自編碼器
Rethinking Graph Masked Autoencoders through Alignment and Uniformity
作者:王亮,陶翔,劉強,吳書,王亮
圖自監(jiān)督學(xué)習(xí)可以分為對比式方法和生成式方法。在過去幾年中,對比式方法即圖對比學(xué)習(xí)(GCL),在該領(lǐng)域中占據(jù)了主導(dǎo)地位。然而,最近提出的圖掩碼自編碼器(GraphMAE)重新引起了人們對生成式方法的關(guān)注。盡管生成式方法和對比式方法都在實踐中取得了成功,但它們之間的聯(lián)系與差異還未被充分探討。因此,我們首先在理論上建立了GraphMAE與GCL之間的關(guān)聯(lián),證明了GraphMAE中的節(jié)點級重構(gòu)目標隱式地執(zhí)行了上下文級別的GCL?;谖覀兊睦碚摲治觯覀冞M一步從表征一致性和均勻性的角度分析GraphMAE的局限性:其一致性受限于掩碼策略,而均勻性并未得到嚴格保證。為了克服這些局限,我們提出了一致性與均勻性增強的圖掩碼自編碼器AUG-MAE。具體來說,我們提出了一種由易到難的對抗掩碼策略,以提供難以對齊的樣本,從而改善表征一致性。同時,我們引入了顯式的均勻性約束,以確保學(xué)習(xí)到的表征具有均勻性。在基準數(shù)據(jù)集上的實驗結(jié)果證明了我們模型具有顯著優(yōu)勢。
19. 學(xué)習(xí)用于神經(jīng)輻射場人臉重演的稠密對應(yīng)
Learning Dense Correspondence for NeRF-Based Face Reenactment
作者:楊嵩林,王偉,蘭宇時,樊翔宇,彭勃,楊磊,董晶
人臉重演是一項具有挑戰(zhàn)性的任務(wù),需要建立在不同的人臉表征之間的稠密對應(yīng)關(guān)系用于運動遷移。最近的研究采用了神經(jīng)輻射場(NeRF)作為基礎(chǔ)表征,進一步提高了多視圖人臉重演在照片逼真度和3D一致性方面的性能。然而,由于隱式表征缺乏像基于網(wǎng)格的3D參數(shù)化模型(例如3DMM)的索引對齊頂點標注,因此在不同人臉NeRF之間建立稠密對應(yīng)關(guān)系并非易事。盡管通過將3DMM空間與基于 NeRF 的人臉表征對齊可以實現(xiàn)運動控制,但由于其有限的僅面部建模和低身份保真度,這并不是最佳選擇。因此,我們受到啟發(fā)提出了一個問題:我們是否可以在沒有3D參數(shù)模型先驗的情況下學(xué)習(xí)不同人臉NeRF 表征之間的稠密對應(yīng)關(guān)系?為了解決這個挑戰(zhàn),我們提出了一個新穎的框架,采用三平面作為基礎(chǔ)NeRF表征 ,并將人臉三平面分解為三個組件:標準型空間三平面、身份形變和運動形變。在運動控制方面,我們的主要貢獻是提出了一個平面字典模塊,它將運動條件高效地映射為一組可學(xué)習(xí)的正交平面基的線性加權(quán)和。我們的框架是第一個在沒有3D參數(shù)模型先驗的情況下實現(xiàn)單圖、多視角人臉重演的工作。大量實驗證明,我們在精細運動控制和身份保持方面取得了比先前方法更好的結(jié)果。
相關(guān)鏈接:
https://songlin1998.github.io/planedict/
20. 基于多目標優(yōu)化的長尾學(xué)習(xí)
Long-Tailed Learning as Multi-Objective Optimization
作者:李煒騏,呂凡,尚凡華,萬亮,馮偉
現(xiàn)實世界中普遍存在的長尾分布(數(shù)據(jù)嚴重不平衡)問題通常會導(dǎo)致模型偏向具有足夠樣本的類別,對稀有類別表現(xiàn)不佳,針對該問題研究的方法稱為長尾學(xué)習(xí)方法。長尾學(xué)習(xí)中常采用重新平衡類別的策略,但該策略面臨補償不平衡問題,即提高尾部類別的性能可能會降低頭部類別的性能,反之亦然。本文認為模型學(xué)習(xí)不平衡問題源于不同類別梯度的不平衡,即在更新過程中抑制了欠學(xué)習(xí)類別的梯度貢獻,或者過度補償欠學(xué)習(xí)類別導(dǎo)致過擬合。為實現(xiàn)對各類別梯度進行理想補償,本文將長尾學(xué)習(xí)問題構(gòu)建為多目標優(yōu)化問題,公平對待頭部和尾部類別的貢獻。為提高優(yōu)化效率,提出了梯度平衡分組(GBG)策略,將具有相似梯度方向的類別聚在一起,使每次模型參數(shù)更新近似地往帕累托下降方向前進。本文提出的GBG方法使具有相似梯度方向的類別組合為更具代表性的梯度,并為尾部類別提供理想的補償。
相關(guān)鏈接:
https://arxiv.org/abs/2310.20490
21. 用于文本和表格事實核查的異構(gòu)圖推理
Heterogeneous Graph Reasoning for Fact Checking over Texts and Tables
作者:龔海松,許偉志,吳書,劉強,王亮
本研究旨在通過對多個證據(jù)進行推理,從而預(yù)測論斷的真實性。通常,這包括證據(jù)檢索和真實性推理兩個主要步驟。本文聚焦于后者,即對非結(jié)構(gòu)化文本和結(jié)構(gòu)化表格信息進行推理。過去的研究主要依賴于微調(diào)預(yù)訓(xùn)練語言模型或訓(xùn)練同質(zhì)圖模型。盡管它們有效,但我們認為它們未能充分探索不同結(jié)構(gòu)下潛在的語義信息。為解決這一問題,我們提出了一種新穎的基于異構(gòu)圖的事實檢查模型——HeterFC。我們的方法利用異構(gòu)證據(jù)圖,以單詞為節(jié)點,巧妙設(shè)計的邊表示不同的證據(jù)屬性。通過關(guān)系圖神經(jīng)網(wǎng)絡(luò)進行信息傳播,促進論斷和證據(jù)之間的交互。我們采用基于注意力的方法整合信息,結(jié)合語言模型生成預(yù)測。引入多任務(wù)損失函數(shù)以考慮證據(jù)檢索中的潛在不準確性。在大規(guī)模事實檢查數(shù)據(jù)集FEVEROUS上進行的綜合實驗證明了HeterFC的有效性。
22. 基于擴散語言模型的文本引導(dǎo)分子生成
Text-Guided Molecule Generation with Diffusion Language Model
作者:龔海松,劉強,吳書,王亮
文本引導(dǎo)的分子生成旨在根據(jù)文本的描述通過AI生成符合文本描述內(nèi)容的分子,從而輔助可能的藥物設(shè)計和研發(fā)。近年來基于SMILES分子表達的分子生成方法多依賴于自回歸的生成模型。本研究指出自回歸生成模型有因固定生成順序而無法修改已生成內(nèi)容的弊端,可能在分子生成領(lǐng)域帶來缺乏對全局約束有效利用的不利影響。因此本研究提出使用擴散語言模型進行文本引導(dǎo)的分子生成,并提出TGM-DLM模型進行驗證。TGM-DLM采用兩階段的逆擴散過程從隨機噪聲中生成分子,其中第一階段以文本描述為約束生成符合文本描述的分子SMILES嵌入,第二階段對第一階段結(jié)果進行矯正,修正可能存在的語法錯誤。通過實驗,TGM-DLM展現(xiàn)了優(yōu)秀的性能,與同參數(shù)量級的采用自回歸生成框架的MolT5比較,獲得了3倍的準確匹配率以及分子指紋相似性指標上18%至36%的增長。
23. 基于顯式接觸和隱式物體相結(jié)合的單目手物交互重建
Learning Explicit Contact for Implicit Reconstruction of Hand-held Objects from Monocular Images
作者:胡俊星,張鴻文,陳澤睿,李夢成,王云龍,劉燁斌,孫哲南
基于單目RGB圖像的手物交互重建是一項具有挑戰(zhàn)性的任務(wù)?,F(xiàn)有方法利用隱式函數(shù)可以較好地重建手持物體,但是它們沒有很好地利用手物接觸信息,從而導(dǎo)致交互重建的效果不夠理想。本工作將顯式的手部接觸預(yù)測和隱式的物體重建相結(jié)合,以促進手物交互的重建。首先,直接從單張圖像中預(yù)測三維的手物接觸,通過將區(qū)域級和頂點級的圖變換器以從粗到細的方式級聯(lián)來獲得更準確的接觸預(yù)測。然后,將估計的接觸信息從手部網(wǎng)格表面擴散到附近物體所處的三維空間,并利用擴散的接觸概率構(gòu)建物體的隱式神經(jīng)表達,這種建模方式可以有效改善手物接觸部分的重建。在多個數(shù)據(jù)集上的實驗表明,本方法在取得最佳指標的同時,可以實現(xiàn)視覺上更加合理的手物交互重建。

圖1. 本方法的整體流程圖

圖2. 輸入一張RGB 圖像,本方法可以預(yù)測手-物接觸的區(qū)域并以此指導(dǎo)手持物體的三維重建
相關(guān)鏈接:
https://junxinghu.github.io/projects/hoi.html
24. 動態(tài)深度路由的多任務(wù)強化學(xué)習(xí)
Not All Tasks Are Equally Difficult: Multi-Task Reinforcement Learning with Dynamic Depth Routing
作者:何金岷,李凱,臧一凡,傅浩波,付強,興軍亮,程健
多任務(wù)強化學(xué)習(xí)致力于用單一策略完成一系列不同的任務(wù)。為了通過在多個任務(wù)中共享參數(shù)來提高數(shù)據(jù)效率,一種常見的做法是將網(wǎng)絡(luò)分割成不同的模塊,并訓(xùn)練路由網(wǎng)絡(luò)將這些模塊重新組合成特定任務(wù)的策略。然而,現(xiàn)有的路由方法對所有任務(wù)都采用固定數(shù)量的模塊,忽略了難度不同的任務(wù)通常需要不同數(shù)量的知識。我們提出了一種動態(tài)深度路由(D2R)框架,它可以選擇性地跳過某些中間模塊,從而靈活地為每個任務(wù)選擇不同的模塊數(shù)量。在此框架下,我們進一步引入了ResRouting方法,以解決離策略訓(xùn)練過程中行為策略和目標策略之間路由路徑不一致的問題。此外,我們還設(shè)計了一種自動路由平衡機制,以鼓勵在不干擾已掌握任務(wù)路由的情況下,繼續(xù)探索未掌握任務(wù)的路由。我們在機械臂操作環(huán)境Meta-World中進行了廣泛的實驗,結(jié)果表明與MTRL基準算法相比,D2R在采樣效率和最終性能方面都有顯著提高。
25. 合作型多智能體強化學(xué)習(xí)的內(nèi)在動作趨勢一致性
Intrinsic Action Tendency Consistency for Cooperative Multi-Agent Reinforcement Learning
作者:張峻凱,張一帆,張希,臧一凡,程健
在合作型多智能體系統(tǒng)中,集中訓(xùn)練分散執(zhí)行算法(CTDE)仍存在智能體高效合作的挑戰(zhàn)。我們分析認為智能體之間的動作策略分歧是影響其訓(xùn)練效率的一個重要因素,這導(dǎo)致算法需要大量的訓(xùn)練樣本來訓(xùn)練智能體的團隊共識。這種分歧源于CTDE算法的信用分配過程缺乏足夠的團隊共識相關(guān)的獎勵指導(dǎo)信號。為了解決這個問題,我們提出了合作型多智能體強化學(xué)習(xí)的內(nèi)在動作趨勢一致性算法。我們利用動作模型使得鄰居智能體能夠預(yù)測中心智能體的動作趨勢。通過動作趨勢的預(yù)測計算我們設(shè)計了一個合作型內(nèi)在獎勵,它鼓勵將中心智能體與鄰居智能體的動作趨勢相匹配。除此之外我們通過理論分析建立了RA-CTDE與CTDE的等價性,證明了CTDE的訓(xùn)練過程可以用每個agent的獨立目標來實現(xiàn)。在此基礎(chǔ)上,我們提出了一種結(jié)合內(nèi)在獎勵和CTDE的新方法。我們在SMAC和GRF基準環(huán)境中對具有挑戰(zhàn)性的任務(wù)進行了大量實驗,性能提升證明了我們的方法的有效性。
26. 針對高效掩碼圖像建模的塊感知樣本選擇
Patch-Aware Sample Selection for Efficient Masked Image Modeling
作者:諸葛正陽,王家興,李勇,包勇軍,王培松,程健
盡管樣本選擇在傳統(tǒng)的監(jiān)督學(xué)習(xí)中可以通過提取最具重要性的子數(shù)據(jù)集來有效減少訓(xùn)練成本,但由于樣本級別的重要性賦分和圖像塊級別的預(yù)訓(xùn)練模式存在一定差異,將樣本選擇用于掩碼圖像建模(MIM)的加速仍然存在挑戰(zhàn)。我們首先構(gòu)建了在MIM預(yù)訓(xùn)練中進行樣本選擇的基本框架,并發(fā)現(xiàn)其存在嚴重的性能下降的問題。我們認為該問題主要歸因于兩個因素:隨機的掩碼策略和簡單的平均函數(shù)。因此我們提出了塊感知的樣本選擇方法(PASS),其中包括一個低成本的動態(tài)訓(xùn)練掩碼預(yù)測器 (DTMP) 和加權(quán)選擇得分 (WSS)。DTMP始終保持對樣本中的復(fù)雜區(qū)域進行掩碼,確保相對準確和公平的樣本重要性得分。WSS利用圖像塊級別的差異來增強重要性得分。廣泛的下游任務(wù)實驗顯示了PASS在加速MIM預(yù)訓(xùn)練方面的有效性。PASS在各種數(shù)據(jù)集、不同的MIM方法和各類任務(wù)中都展現(xiàn)出了優(yōu)越的性能。例如,PASS在僅使用37%的訓(xùn)練數(shù)據(jù)預(yù)算的同時,在ImageNet-1K上維持了和標準MAE相當(dāng)?shù)男阅?,并實現(xiàn)了約1.7倍的訓(xùn)練加速。
27. 基于智能體拓撲的多智能體策略梯度算法
TAPE: Leveraging Agent Topology for Cooperative Multi-Agent Policy Gradient
作者:婁行舟,張俊格,Timothy J. Norman,黃凱奇,杜雅麗
多智能體策略梯度(Multi-Agent Policy Gradient,MAPG)近年來取得了顯著的進展。然而,在最先進的MAPG方法中,集中式評論家仍然面臨著中心化-去中心化不匹配(Centralized-Decentralized Mismatch,CDM)的問題,這意味著一些智能體的次優(yōu)行為會影響其他智能體的策略學(xué)習(xí)。雖然使用個體評論家進行策略更新可以避免這個問題,但它們會嚴重限制智能體之間的合作。為了解決這個問題,我們提出了一個智能體拓撲框架,該框架決定其他智能體是否應(yīng)該在策略梯度中被考慮,并在促進合作和減輕CDM問題之間實現(xiàn)折衷。智能體拓撲允許智能體使用聯(lián)合效用作為學(xué)習(xí)目標,而不是集中評論家的全局效用或個體評論家的局部效用。
為構(gòu)建智能體拓撲,我們研究了多種隨機圖模型。我們?yōu)殡S機和確定性MAPG方法都提出了基于拓撲的多智能體策略梯度(Topology-based multi-Agent Policy gradiEnt,TAPE)。我們從理論上證明了隨機TAPE的策略提升定理,并為智能體之間合作能力的提升提供了理論解釋。在幾個基準測試中的實驗結(jié)果顯示,智能體拓撲分別能夠促進智能體之間的合作或減輕CDM問題以提高TAPE的性能。最后,我們還進行了多個消融研究并提出了一個啟發(fā)式圖搜索算法,以展示智能體拓撲的有效性。
我要收藏
點個贊吧
轉(zhuǎn)發(fā)分享
咨詢詳情:如需咨詢文中涉及的相關(guān)產(chǎn)品或解決方案詳情,請加微信:ZiDongHuaX 。
微信聯(lián)盟:強化學(xué)習(xí)微信群、神經(jīng)網(wǎng)絡(luò)微信群,各細分行業(yè)微信群:點擊這里進入。
鴻達安視:水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器 查看各品牌在細分領(lǐng)域的定位宣傳語
微信聯(lián)盟:強化學(xué)習(xí)微信群、神經(jīng)網(wǎng)絡(luò)微信群,各細分行業(yè)微信群:點擊這里進入。
鴻達安視:水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器 查看各品牌在細分領(lǐng)域的定位宣傳語


評論排行