【ZiDongHua之智能自動(dòng)化收錄關(guān)鍵詞:中國(guó)科學(xué)院自動(dòng)化研究所 人工智能
 
  AAAI 2025|自動(dòng)化所新作速覽(二)
 
  AAAI(AAAI Conference on Artificial Intelligence)由國(guó)際先進(jìn)人工智能協(xié)會(huì)主辦,是人工智能領(lǐng)域的頂級(jí)國(guó)際學(xué)術(shù)會(huì)議之一。第39屆AAAI人工智能年度會(huì)議將于2025年2月在美國(guó)賓夕法尼亞州費(fèi)城召開。本文將繼續(xù)介紹自動(dòng)化所在本屆大會(huì)上的錄用成果。
 
 
  

引導(dǎo)多智能體強(qiáng)化學(xué)習(xí)的策略與人類常識(shí)對(duì)齊是一個(gè)具有挑戰(zhàn)性的問(wèn)題,這主要源于將常識(shí)建模為獎(jiǎng)勵(lì)的復(fù)雜性,特別是在復(fù)雜的長(zhǎng)時(shí)序任務(wù)中。最近的研究表明,通過(guò)獎(jiǎng)勵(lì)塑造(如基于勢(shì)函數(shù)的獎(jiǎng)勵(lì))可以有效提升策略的對(duì)齊效果。然而,現(xiàn)有方法主要依賴專家設(shè)計(jì)基于規(guī)則的獎(jiǎng)勵(lì),這通常需要大量人力,并且缺乏對(duì)常識(shí)的高層語(yǔ)義理解。為了解決這一問(wèn)題,我們提出了一種基于層次化視覺獎(jiǎng)勵(lì)塑造的方法,充分結(jié)合了視覺語(yǔ)言模型(VLM)的輕量化優(yōu)勢(shì)和視覺大語(yǔ)言模型(vLLM)的推理能力。在底層,一個(gè)VLM作為通用勢(shì)函數(shù),利用其內(nèi)在的語(yǔ)義理解能力,引導(dǎo)策略與人類常識(shí)對(duì)齊。在頂層,我們?cè)O(shè)計(jì)了一個(gè)基于vLLM的自適應(yīng)技能選擇模塊,用以幫助策略適應(yīng)長(zhǎng)時(shí)任務(wù)中的不確定性和變化。該模塊通過(guò)指令、視頻回放和訓(xùn)練記錄,動(dòng)態(tài)選擇預(yù)設(shè)池中的適用勢(shì)函數(shù)。此外,我們的方法可從理論上證明不改變最優(yōu)策略。我們?cè)?Google Research Football 環(huán)境中進(jìn)行的大量實(shí)驗(yàn)表明,該方法不僅實(shí)現(xiàn)了更高的勝率,還能夠有效地將策略與人類常識(shí)對(duì)齊。


近期基于大規(guī)模語(yǔ)言模型的研究在數(shù)學(xué)推理能力上取得了顯著提升,尤其是在基礎(chǔ)難度的數(shù)學(xué)問(wèn)題上。但是面對(duì)高中及大學(xué)以上水平的復(fù)雜問(wèn)題時(shí),現(xiàn)階段模型的表現(xiàn)仍然有很大提升空間。本文通過(guò)對(duì)人類解決數(shù)學(xué)問(wèn)題的過(guò)程進(jìn)行分析,將解決數(shù)學(xué)問(wèn)題的思維過(guò)程分解為選擇合適的數(shù)學(xué)定理知識(shí)和做出分步解答兩個(gè)階段。在此基礎(chǔ)上,對(duì)思維鏈方法進(jìn)行擴(kuò)展,提出了在思維鏈的前置引入思考特定數(shù)學(xué)定理的過(guò)程,這一過(guò)程對(duì)解答的質(zhì)量及緩解幻覺有著重要的約束作用,但是在以往語(yǔ)言模型數(shù)學(xué)推理的研究中被忽略。因此,本文提出學(xué)習(xí)定理原理的概念,并創(chuàng)建了一個(gè)包含(問(wèn)題,定理,解)三元組的數(shù)學(xué)推理數(shù)據(jù)集,用于將針對(duì)具體問(wèn)題選擇特定定理的方法傳遞給特定模型。在此基礎(chǔ)上,本文模仿人類教學(xué)方法,提出一種面向定理的多層次指令進(jìn)化策略,以緩解定理匹配數(shù)據(jù)標(biāo)注困難的問(wèn)題,并從各個(gè)角度促進(jìn)對(duì)定理應(yīng)用方法的理解。在多個(gè)公開數(shù)學(xué)推理數(shù)據(jù)集上的評(píng)估結(jié)果顯示了本文所提出方法的有效性,尤其是在域外場(chǎng)景和涉及大學(xué)及以上的高水平數(shù)學(xué)問(wèn)題上。

 

在多智能體博弈的模仿學(xué)習(xí)離線數(shù)據(jù)集中,通常包含展現(xiàn)多樣化策略的玩家軌跡,因此需要采取措施防止學(xué)習(xí)算法獲取不良行為。對(duì)這些軌跡進(jìn)行表示學(xué)習(xí)是一種有效的方法,每條軌跡的策略表示可以刻畫每個(gè)演示者所采用的策略。然而,現(xiàn)有的學(xué)習(xí)策略往往需要玩家身份信息或依賴于較強(qiáng)的假設(shè),這些假設(shè)在一般的多智能體博弈數(shù)據(jù)集中未必適用。本文提出了策略表示增強(qiáng)模仿學(xué)習(xí)(Strategy Representation for Imitation Learning,STRIL)框架,該框架包含三大部分:(1) 在多智能體博弈中有效地學(xué)習(xí)軌跡對(duì)應(yīng)策略表示;(2) 基于這些策略表示估計(jì)提出的指標(biāo);(3) 利用指標(biāo)篩去次優(yōu)數(shù)據(jù)。STRIL是一種插入式方法,可以集成到現(xiàn)有的模仿學(xué)習(xí)算法中。我們?cè)诙鄠€(gè)競(jìng)爭(zhēng)性多智能體場(chǎng)景中驗(yàn)證了STRIL的有效性,包括雙人Pong、有限注德州撲克和四子棋。我們的方法成功獲取了策略表示和對(duì)應(yīng)指標(biāo),從而識(shí)別出主導(dǎo)軌跡,并顯著提升了這些環(huán)境中現(xiàn)有模仿學(xué)習(xí)算法的性能。


點(diǎn)云補(bǔ)全旨在從不完整的點(diǎn)云中重建完整的三維形狀,這對(duì)于三維物體檢測(cè)、分割和重建等任務(wù)至關(guān)重要。盡管點(diǎn)云分析技術(shù)不斷進(jìn)步,但特征提取方法仍然面臨明顯的局限性。在大多數(shù)方法中用作輸入的點(diǎn)云的稀疏采樣通常會(huì)導(dǎo)致一定的全局結(jié)構(gòu)信息丟失。同時(shí),傳統(tǒng)的局部特征提取方法通常難以捕捉復(fù)雜的幾何細(xì)節(jié)。為了克服這些缺點(diǎn),我們引入了 PointCFormer,這是一個(gè)針對(duì)點(diǎn)云補(bǔ)全中的穩(wěn)健全局保留和精確局部細(xì)節(jié)捕捉進(jìn)行了優(yōu)化的Transformer框架。這個(gè)框架有幾個(gè)關(guān)鍵優(yōu)勢(shì)。

首先,我們提出了一種基于關(guān)系的局部特征提取方法來(lái)感知局部精細(xì)的幾何特征。該方法在目標(biāo)點(diǎn)與其k個(gè)最近鄰點(diǎn)之間建立了細(xì)粒度的關(guān)系度量,量化了每個(gè)相鄰點(diǎn)對(duì)目標(biāo)點(diǎn)局部特征的貢獻(xiàn)。其次,我們引入了一個(gè)漸進(jìn)式特征提取器,將我們的局部特征感知方法與自注意力相結(jié)合。它從更密集的點(diǎn)采樣作為輸入開始,迭代查詢長(zhǎng)距離全局依賴關(guān)系和局部鄰域關(guān)系。此提取器保持了增強(qiáng)的全局結(jié)構(gòu)和精細(xì)的局部細(xì)節(jié),而不會(huì)產(chǎn)生大量的計(jì)算開銷。此外,我們?cè)陔[空間中生成點(diǎn)代理后設(shè)計(jì)了一個(gè)校正模塊,以重新引入來(lái)自輸入點(diǎn)的更密集信息,從而增強(qiáng)點(diǎn)代理的表示能力。PointCFormer 在幾個(gè)廣泛使用的基準(zhǔn)上展示了最先進(jìn)的性能。


音頻驅(qū)動(dòng)的數(shù)字人生成需要在處理多樣化輸入肖像及復(fù)雜的音頻與面部動(dòng)作相關(guān)性時(shí),實(shí)現(xiàn)音視頻數(shù)據(jù)的無(wú)縫融合。針對(duì)這一挑戰(zhàn),我們提出了一個(gè)名為 GoHD的魯棒框架,用于從包含任意動(dòng)作與身份信息的參考人臉圖像生成高度逼真、生動(dòng)且可控的說(shuō)話視頻。GoHD 包含三個(gè)關(guān)鍵創(chuàng)新模塊:首先,采用隱空間向量分解技術(shù)實(shí)現(xiàn)人臉驅(qū)動(dòng)模塊,提升了對(duì)任意風(fēng)格輸入人臉圖像的泛化能力。該模塊實(shí)現(xiàn)了動(dòng)作與身份信息的高度解耦,并通過(guò)引入眼神方向的控制糾正了之前方法易忽視的不自然眼部運(yùn)動(dòng)。其次,設(shè)計(jì)了基于conformer結(jié)構(gòu)的條件擴(kuò)散模型,以確保生成的頭部姿態(tài)能夠感知語(yǔ)音韻律。最后,為了在有限的訓(xùn)練數(shù)據(jù)下估計(jì)出與音頻同步的逼真表情,提出了兩階段訓(xùn)練策略,分別對(duì)頻繁且?guī)嚓P(guān)的唇部動(dòng)作進(jìn)行蒸餾,并與生成其他時(shí)間依賴性但與音頻相關(guān)性較低的動(dòng)作(如眨眼和皺眉)進(jìn)行解耦。大量實(shí)驗(yàn)驗(yàn)證了 GoHD 卓越的泛化能力,展示了其在任意輸入上的逼真說(shuō)話人生成效果。

 

本文提出了RECAD,包含一個(gè)新的柵格化草圖+拉伸的建模表示以及基于這種表示的CAD模型生成框架。與傳統(tǒng)方法使用離散的參數(shù)化線段序列表示草圖不同,RECAD采用柵格圖像來(lái)表示草圖,這種方法具有多個(gè)優(yōu)勢(shì):1)打破了線段/曲線類型和數(shù)量的限制,提供了更強(qiáng)的幾何表達(dá)能力;2)能夠在連續(xù)的潛在空間中進(jìn)行插值;3)允許用戶更直觀地控制輸出結(jié)果。在技術(shù)實(shí)現(xiàn)上,RECAD使用了兩個(gè)擴(kuò)散網(wǎng)絡(luò):第一個(gè)網(wǎng)絡(luò)基于拉伸數(shù)量和類型生成拉伸框,第二個(gè)網(wǎng)絡(luò)基于這些拉伸框生成草圖圖像。通過(guò)結(jié)合這兩個(gè)網(wǎng)絡(luò),RECAD能夠有效地生成基于草圖和拉伸的CAD模型。實(shí)驗(yàn)結(jié)果表明,RECAD在無(wú)條件生成方面取得了良好的性能,同時(shí)在條件生成和輸出編輯方面也展現(xiàn)出良好的效果。


近年來(lái),擴(kuò)散模型在視覺生成領(lǐng)域取得了顯著突破。然而,生成真實(shí)的人體圖像,尤其是手部和面部等復(fù)雜結(jié)構(gòu)部位,仍然面臨重大挑戰(zhàn)。這些問(wèn)題主要源于人體結(jié)構(gòu)的復(fù)雜性及在生成過(guò)程中的信息丟失。針對(duì)這一問(wèn)題,我們提出了一種名為 RealisHuman 的新型后處理框架。該方法分為兩個(gè)階段:第一階段通過(guò)“部位細(xì)節(jié)編碼器”(Part Detail Encoder)結(jié)合畸形部位的參考信息與 3D 姿態(tài)估計(jì)結(jié)果,生成真實(shí)的人體局部圖像,確保生成部分的細(xì)節(jié)一致性和高質(zhì)量;第二階段將生成的局部圖像無(wú)縫地嵌入原始圖像,通過(guò)局部區(qū)域的重繪技術(shù),實(shí)現(xiàn)自然過(guò)渡,避免“剪貼”痕跡。實(shí)驗(yàn)結(jié)果表明,RealisHuman 顯著提高了生成圖像的真實(shí)感和一致性,并在不同風(fēng)格的圖像生成任務(wù)中表現(xiàn)出較強(qiáng)的泛化能力。此外,相較于現(xiàn)有的手部修復(fù)方法 HandRefiner,RealisHuman 在保留手部細(xì)節(jié)、修復(fù)小型手部區(qū)域以及保持整體圖像一致性方面表現(xiàn)更優(yōu)。

在雷達(dá)-相機(jī)3D物體檢測(cè)中,雷達(dá)點(diǎn)云稀疏且噪聲較大,這使得相機(jī)和雷達(dá)模態(tài)的融合變得困難。為了解決這個(gè)問(wèn)題,我們提出了一種新的基于Query的檢測(cè)方法,稱為RCTrans。具體而言,我們首先設(shè)計(jì)了一個(gè)雷達(dá)稠密化編碼器,用以豐富稀疏的有效雷達(dá)Token,然后將其與圖像Token拼接。由此,我們可以充分探索每個(gè)興趣區(qū)域的3D信息,并減少在融合階段無(wú)效Token的干擾。接著,我們?cè)O(shè)計(jì)了一個(gè)可剪枝的序列解碼器,根據(jù)所獲得的Token和隨機(jī)初始化的Query來(lái)預(yù)測(cè)3D框。為了緩解雷達(dá)點(diǎn)云中的高度模糊性,我們通過(guò)序列融合結(jié)構(gòu)逐漸定位物體的位置。這有助于在Token和Query之間獲得更精確和靈活的對(duì)應(yīng)關(guān)系。我們?cè)诮獯a器中采用了剪枝策略,這可以在推理過(guò)程中節(jié)省大量時(shí)間,并防止Query失去其獨(dú)特性。我們?cè)诖笠?guī)模nuScenes數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn),證明了該方法的優(yōu)越性。

 

工具學(xué)習(xí)使大語(yǔ)言模型能夠通過(guò)調(diào)用工具與外部環(huán)境互動(dòng),豐富了大語(yǔ)言模型的準(zhǔn)確性和能力范圍。然而,以往的研究主要集中在提高模型的工具使用準(zhǔn)確性和對(duì)新工具的泛化能力上,過(guò)度強(qiáng)迫大語(yǔ)言模型學(xué)習(xí)特定的工具調(diào)用模式,而沒(méi)有考慮到對(duì)模型通用性能的損害。這偏離了實(shí)際應(yīng)用和整合工具以增強(qiáng)模型的初衷。為了解決這個(gè)問(wèn)題,我們通過(guò)檢查模型組件的隱藏表示變化和使用基于梯度的重要性分?jǐn)?shù)來(lái)剖析這種能力沖突現(xiàn)象。基于分析結(jié)果,我們提出了一種基于組件重要性的工具使用能力注入方法(CITI)。根據(jù)組件的梯度重要性評(píng)分,它通過(guò)對(duì)不同組件應(yīng)用不同的訓(xùn)練策略來(lái)緩解微調(diào)過(guò)程中引起的能力沖突。對(duì)重要組件,CITI應(yīng)用混合LoRA專家結(jié)構(gòu)(MOLoRA)來(lái)學(xué)習(xí)工具調(diào)用的知識(shí);對(duì)于不重要的組件,它微調(diào)大語(yǔ)言模型的主干網(wǎng)絡(luò)中的參數(shù),同時(shí)保持其他參數(shù)不變。CITI能夠有效增強(qiáng)模型的工具使用能力,而不會(huì)過(guò)度犧牲其一般性能。實(shí)驗(yàn)結(jié)果表明,我們的方法在一系列評(píng)估指標(biāo)上取得了出色的表現(xiàn)。


知識(shí)編輯旨在更新大語(yǔ)言模型中過(guò)時(shí)或錯(cuò)誤的知識(shí)。然而,目前的知識(shí)編輯方法在終身編輯方面的可擴(kuò)展性有限。本研究探討了知識(shí)編輯在終身編輯中失敗的根本原因。我們從線性關(guān)聯(lián)記憶推導(dǎo)的閉式解出發(fā),該解是當(dāng)前最先進(jìn)知識(shí)編輯方法的理論基礎(chǔ)。我們將這一解從單次編輯擴(kuò)展到終身編輯,并通過(guò)嚴(yán)格的數(shù)學(xué)推導(dǎo),在最終解中發(fā)現(xiàn)了一個(gè)干擾項(xiàng),這表明編輯知識(shí)可能會(huì)影響無(wú)關(guān)知識(shí)。對(duì)干擾項(xiàng)的進(jìn)一步分析揭示了其與知識(shí)表示之間疊加現(xiàn)象的密切關(guān)系。也就是說(shuō),當(dāng)語(yǔ)言模型中不存在知識(shí)疊加時(shí),干擾項(xiàng)消失,從而實(shí)現(xiàn)無(wú)損的知識(shí)編輯。通過(guò)對(duì)眾多語(yǔ)言模型的實(shí)驗(yàn),我們發(fā)現(xiàn)知識(shí)疊加具有普遍性,其表現(xiàn)為高峭度、零均值和重尾分布,并遵循清晰的擴(kuò)展定律。最終,通過(guò)結(jié)合理論和實(shí)驗(yàn),我們證明了知識(shí)疊加是終身編輯失敗的根本原因。此外,本研究首次從疊加的視角探討了知識(shí)編輯,并廣泛觀察到眾多真實(shí)語(yǔ)言模型中的知識(shí)疊加現(xiàn)象。


近年來(lái),大型語(yǔ)言模型(LLMs,如GPT-4、LLaMA3-70B)在復(fù)雜推理任務(wù)中表現(xiàn)出色,但其龐大的參數(shù)規(guī)模和高計(jì)算成本限制了在資源受限環(huán)境中的應(yīng)用。小型語(yǔ)言模型(SLMs,參數(shù)量小于7B)雖然計(jì)算效率高效,但在處理需要結(jié)合通用認(rèn)知能力和領(lǐng)域?qū)I(yè)知識(shí)的復(fù)雜推理任務(wù)時(shí)表現(xiàn)較差。針對(duì)這一挑戰(zhàn),本文提出神經(jīng)-符號(hào)協(xié)作蒸餾(NesyCD)。該方法將復(fù)雜任務(wù)所需的能力劃分為兩大類:一類是普遍適用的通用能力,這類能力適合通過(guò)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行建模與處理;另一類則是特定應(yīng)用場(chǎng)景下的專用能力和專業(yè)知識(shí),這類能力更適合利用符號(hào)系統(tǒng)進(jìn)行精確表達(dá)與記錄。具體而言,NesyCD通過(guò)傳統(tǒng)的神經(jīng)蒸餾方法,將LLMs中的通用認(rèn)知能力遷移到SLMs中;而對(duì)于復(fù)雜推理任務(wù)中所需的領(lǐng)域?qū)I(yè)知識(shí),則采用符號(hào)知識(shí)蒸餾方法,將LLMs中的專業(yè)知識(shí)提取并存儲(chǔ)到符號(hào)知識(shí)庫(kù)中。實(shí)驗(yàn)結(jié)果表明,NesyCD顯著提升了SLMs在復(fù)雜推理任務(wù)中的表現(xiàn)。例如,經(jīng)過(guò)NesyCD訓(xùn)練的LLaMA3-8B和Qwen2-7B在多個(gè)任務(wù)上的性能超越了GPT-3.5-turbo,并接近LLaMA3-70B。該方法為資源受限環(huán)境下的高效推理提供了新思路。


大語(yǔ)言模型(LLM)的海量預(yù)訓(xùn)練數(shù)據(jù)中,可能包含版權(quán)、隱私、或者不良信息,使得LLM容易生成未授權(quán)、私人、或者冒犯性內(nèi)容。為了消除此類語(yǔ)料對(duì)模型帶來(lái)的不利影響,知識(shí)遺忘作為一種有前景的解決方案應(yīng)運(yùn)而生(圖1a展示了使模型遺忘與著名作家J.K.羅琳相關(guān)知識(shí)的一個(gè)實(shí)例)。然而,現(xiàn)有的知識(shí)遺忘手段得到的模型較為脆弱,容易受到手動(dòng)設(shè)計(jì)的對(duì)抗性用戶輸入的干擾。因此,我們首先提出一種動(dòng)態(tài)的、自動(dòng)的攻擊框架,用來(lái)定量評(píng)估模型遺忘特定知識(shí)后的穩(wěn)定性。如圖1b所示,我們通過(guò)優(yōu)化一個(gè)通用的攻擊性后綴,以最大化遺忘后模型生成相關(guān)知識(shí)的概率。實(shí)驗(yàn)結(jié)果表明,即便在未直接暴露遺忘后模型的情況下,在54%的測(cè)試問(wèn)題中,原本應(yīng)被遺忘的知識(shí)仍可被成功恢復(fù)。為了修復(fù)遺忘過(guò)程的脆弱性,我們提出了基于隱式對(duì)抗攻擊的模型知識(shí)遺忘提升方法。具體而言,該方法分為兩個(gè)優(yōu)化階段(如圖1c所示)。第一階段為攻擊過(guò)程,通過(guò)優(yōu)化模型隱空間中的噪聲向量,以引導(dǎo)模型生成特定知識(shí);第二階段則為防御過(guò)程,固定噪聲向量,轉(zhuǎn)而優(yōu)化模型參數(shù),以抑制特定知識(shí)的生成。實(shí)驗(yàn)結(jié)果表明,我們提出的方法在多個(gè)公開的遺忘數(shù)據(jù)集上取得了顯著效果。在提升模型遺忘有效性53.4%的同時(shí),僅導(dǎo)致11.3%的鄰接知識(shí)損失,并且?guī)缀醪粚?duì)模型的通用能力產(chǎn)生任何負(fù)面影響。