首個機器人4D世界模型來了！

時間：2025-01-08 16:40:55 發(fā)布：tgy 來源：智元機器人第一對焦：智元機器人

　　【ZiDongHua之創(chuàng)新自化成收錄關(guān)鍵詞：智元機器人機器人人工智能】

　　首個機器人4D世界模型來了！

　　EnerVerse主要科研成員來自智元機器人研究院具身算法團隊。論文共同一作黃思淵是上海交通大學(xué)與上海人工智能實驗室的聯(lián)培博士生，師從CUHK-MMLab的李鴻升教授。博士期間的研究課題為基于多模態(tài)大模型的具身智能以及高效智能體的研究。在CoRL、MM、IROS、ECCV等頂級會議上，以第一作者或共同第一作者身份發(fā)表多篇論文。另一位共同一作陳立梁是智元機器人的具身算法專家，主要負責(zé)具身空間智能與世界模型的研究。

　　如何讓機器人在任務(wù)指引和實時觀測的基礎(chǔ)上規(guī)劃未來動作，一直是具身智能領(lǐng)域的核心科學(xué)問題。然而，這一目標(biāo)的實現(xiàn)受兩大關(guān)鍵挑戰(zhàn)制約：

　　模態(tài)對齊：需要在語言、視覺和動作等多模態(tài)空間之間建立精確的對齊策略。

　　數(shù)據(jù)稀缺：缺乏大規(guī)模、多模態(tài)且?guī)в袆幼鳂?biāo)簽的數(shù)據(jù)集。

　　針對上述難題，智元機器人團隊提出了EnerVerse架構(gòu)，通過自回歸擴散模型（autoregressive diffusion），在生成未來具身空間的同時引導(dǎo)機器人完成復(fù)雜任務(wù)。不同于現(xiàn)有方法簡單應(yīng)用視頻生成模型，EnerVerse深度結(jié)合具身任務(wù)需求，創(chuàng)新性地引入稀疏記憶機制（Sparse Memory）與自由錨定視角（Free Anchor View,FAV），在提升4D生成能力的同時，實現(xiàn)了動作規(guī)劃性能的顯著突破。實驗結(jié)果表明，EnerVerse不僅具備卓越的未來空間生成能力，更在機器人動作規(guī)劃任務(wù)中實現(xiàn)了當(dāng)前最優(yōu)（SOTA）表現(xiàn)。

　　項目主頁與論文已上線，模型與相關(guān)數(shù)據(jù)集即將開源：

　　歡迎訪問

　　主頁地址：

　　https://sites.google.com/view/enerverse/home

　　論文地址：

　　https://arxiv.org/abs/2501.01895

　　如何讓未來空間生成賦能機器人動作規(guī)劃？

　　機器人動作規(guī)劃的核心在于基于實時觀測和任務(wù)指令，預(yù)測并完成一系列復(fù)雜的未來操作。然而，現(xiàn)有方法在應(yīng)對復(fù)雜具身任務(wù)時存在如下局限：

　　通用模型局限性：當(dāng)前通用視頻生成模型缺乏對具身場景的針對性優(yōu)化，無法適應(yīng)具身任務(wù)中的特殊需求。

　　視覺記憶泛化能力不足：現(xiàn)有方法依賴稠密連續(xù)的視覺記憶，容易導(dǎo)致生成長程任務(wù)序列時邏輯不連貫，動作預(yù)測性能下降。

　　為此，EnerVerse通過逐塊生成的自回歸擴散框架，結(jié)合創(chuàng)新的稀疏記憶機制與自由錨定視角（FAV）方法，解決了上述瓶頸問題。

　　技術(shù)方案解析

　　逐塊擴散生成：Next Chunk Diffusion

　　EnerVerse采用逐塊生成的自回歸擴散模型，通過逐步生成未來具身空間來引導(dǎo)機器人動作規(guī)劃。其關(guān)鍵設(shè)計包括：

　　擴散模型架構(gòu)：基于結(jié)合時空注意力的UNet結(jié)構(gòu)，每個空間塊內(nèi)部通過卷積與雙向注意力建模；塊與塊之間通過單向因果邏輯（causal logic）保持時間一致性，從而確保生成序列的邏輯合理性。

　　稀疏記憶機制：借鑒大語言模型（LLM）的上下文記憶，EnerVerse在訓(xùn)練階段對歷史幀進行高比例隨機掩碼（mask），推理階段以較大時間間隔更新記憶隊列，有效降低計算開銷，同時顯著提升長程任務(wù)的生成能力。

　　任務(wù)結(jié)束邏輯：通過特殊的結(jié)束幀（EOS frame），實現(xiàn)對任務(wù)結(jié)束時機的精準監(jiān)督，確保生成過程在合適節(jié)點終止。

　　靈活的4D生成：Free Anchor View(FAV)

　　針對具身操作中復(fù)雜遮擋環(huán)境和多視角需求，EnerVerse提出了自由錨定視角（FAV）方法，以靈活表達4D空間。其核心優(yōu)勢包括：

　　自由設(shè)定視角：FAV支持動態(tài)調(diào)整錨定視角，克服固定多視角（fixed multi-anchor view）在狹窄場景中的局限性。例如，在廚房等場景中，F(xiàn)AV可輕松適應(yīng)動態(tài)遮擋關(guān)系。

　　跨視角空間一致性：基于光線投射原理（ray casting），EnerVerse通過視線方向圖（ray direction map）作為視角控制條件，并將2D空間注意力擴展為跨視角的3D空間注意力（cross-view spatial attention），確保生成視頻的幾何一致性。

　　Sim2Real適配：通過在仿真數(shù)據(jù)上訓(xùn)練的4D生成模型（EnerVerse-D）與4D高斯?jié)姙R(4D Gaussian Splatting)交替迭代，EnerVerse構(gòu)建了一個數(shù)據(jù)飛輪，為真實場景下的FAV生成提供偽真值支持。

　　高效動作規(guī)劃：Policy Head

　　EnerVerse通過在生成網(wǎng)絡(luò)下游集成Diffusion策略頭（Diffusion Policy Head），打通未來空間生成與機器人動作規(guī)劃的全鏈條。其關(guān)鍵設(shè)計包括：

　　高效動作預(yù)測：生成網(wǎng)絡(luò)在逆擴散的第一步即可輸出未來動作序列，無需等待完整的空間生成過程，確保動作預(yù)測的實時性。

　　稀疏記憶支持：在動作預(yù)測推理中，稀疏記憶隊列存儲真實或重建的FAV觀測結(jié)果，有效提升長程任務(wù)規(guī)劃能力。

　　實驗結(jié)果

　　1.視頻生成性能

　　在短程與長程任務(wù)視頻生成中，EnerVerse均展現(xiàn)出卓越的性能：

　　在短程生成任務(wù)中，EnerVerse表現(xiàn)優(yōu)于現(xiàn)有微調(diào)視頻生成模型，如基于DynamiCrafter與FreeNoise的擴散模型。

　　在長程生成任務(wù)中，EnerVerse展現(xiàn)出更強的邏輯一致性與連續(xù)生成能力，這是現(xiàn)有模型無法實現(xiàn)的。

　　此外，EnerVerse在LIBERO仿真場景和AgiBot World真實場景中生成的多視角視頻質(zhì)量也得到了充分驗證。

　　2.動作規(guī)劃能力

　　在LIBERO基準測試中，EnerVerse在機器人動作規(guī)劃任務(wù)中取得了顯著優(yōu)勢：

　　•單視角（one FAV）模型在LIBERO四類任務(wù)中的平均成功率已超過現(xiàn)有最佳方法。

　　•多視角（three FAV）設(shè)定進一步提升任務(wù)成功率，在每一類任務(wù)上均超越現(xiàn)有方法。

　　3.消融與訓(xùn)練策略分析

　　•稀疏記憶機制：消融實驗表明，稀疏記憶對長程序列生成的合理性及長程動作預(yù)測精度至關(guān)重要。

　　•二階段訓(xùn)練策略：先進行未來空間生成訓(xùn)練，再進行特定場景動作預(yù)測訓(xùn)練的二階段策略，可顯著提升動作規(guī)劃性能。

　　4.注意力可視化

　　通過可視化Diffusion策略頭中的交叉注意力模塊，研究發(fā)現(xiàn)EnerVerse生成的未來空間與預(yù)測的動作空間具有較強的時序一致性。這直觀體現(xiàn)了EnerVerse在未來空間生成與動作規(guī)劃任務(wù)中的相關(guān)性與優(yōu)勢。

　　智元機器人通過EnerVerse架構(gòu)開創(chuàng)了未來具身智能的新方向。通過未來空間生成引導(dǎo)動作規(guī)劃，EnerVerse不僅突破了機器人任務(wù)規(guī)劃的技術(shù)瓶頸，還為多模態(tài)、長程任務(wù)的研究提供了全新范式。

我要收藏

點個贊吧

自動對焦：機器人人工智能

咨詢詳情：如需咨詢文中涉及的相關(guān)產(chǎn)品或解決方案詳情，請加微信：ZiDongHuaX 。

微信聯(lián)盟：機器人微信群、人工智能微信群，各細分行業(yè)微信群：點擊這里進入。

鴻達安視：水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器　　　　　　查看各品牌在細分領(lǐng)域的定位宣傳語