首個(gè)機(jī)器人4D世界模型來了!
【ZiDongHua之創(chuàng)新自化成收錄關(guān)鍵詞:智元機(jī)器人 機(jī)器人 人工智能】
首個(gè)機(jī)器人4D世界模型來了!
EnerVerse主要科研成員來自智元機(jī)器人研究院具身算法團(tuán)隊(duì)。論文共同一作黃思淵是上海交通大學(xué)與上海人工智能實(shí)驗(yàn)室的聯(lián)培博士生,師從CUHK-MMLab的李鴻升教授。博士期間的研究課題為基于多模態(tài)大模型的具身智能以及高效智能體的研究。在CoRL、MM、IROS、ECCV等頂級會議上,以第一作者或共同第一作者身份發(fā)表多篇論文。另一位共同一作陳立梁是智元機(jī)器人的具身算法專家,主要負(fù)責(zé)具身空間智能與世界模型的研究。
如何讓機(jī)器人在任務(wù)指引和實(shí)時(shí)觀測的基礎(chǔ)上規(guī)劃未來動作,一直是具身智能領(lǐng)域的核心科學(xué)問題。然而,這一目標(biāo)的實(shí)現(xiàn)受兩大關(guān)鍵挑戰(zhàn)制約:
模態(tài)對齊:需要在語言、視覺和動作等多模態(tài)空間之間建立精確的對齊策略。
數(shù)據(jù)稀缺:缺乏大規(guī)模、多模態(tài)且?guī)в袆幼鳂?biāo)簽的數(shù)據(jù)集。
針對上述難題,智元機(jī)器人團(tuán)隊(duì)提出了EnerVerse架構(gòu),通過自回歸擴(kuò)散模型(autoregressive diffusion),在生成未來具身空間的同時(shí)引導(dǎo)機(jī)器人完成復(fù)雜任務(wù)。不同于現(xiàn)有方法簡單應(yīng)用視頻生成模型,EnerVerse深度結(jié)合具身任務(wù)需求,創(chuàng)新性地引入稀疏記憶機(jī)制(Sparse Memory)與自由錨定視角(Free Anchor View,FAV),在提升4D生成能力的同時(shí),實(shí)現(xiàn)了動作規(guī)劃性能的顯著突破。實(shí)驗(yàn)結(jié)果表明,EnerVerse不僅具備卓越的未來空間生成能力,更在機(jī)器人動作規(guī)劃任務(wù)中實(shí)現(xiàn)了當(dāng)前最優(yōu)(SOTA)表現(xiàn)。
項(xiàng)目主頁與論文已上線,模型與相關(guān)數(shù)據(jù)集即將開源:

歡迎訪問
主頁地址:
https://sites.google.com/view/enerverse/home
論文地址:
https://arxiv.org/abs/2501.01895

如何讓未來空間生成賦能機(jī)器人動作規(guī)劃?
機(jī)器人動作規(guī)劃的核心在于基于實(shí)時(shí)觀測和任務(wù)指令,預(yù)測并完成一系列復(fù)雜的未來操作。然而,現(xiàn)有方法在應(yīng)對復(fù)雜具身任務(wù)時(shí)存在如下局限:
通用模型局限性:當(dāng)前通用視頻生成模型缺乏對具身場景的針對性優(yōu)化,無法適應(yīng)具身任務(wù)中的特殊需求。
視覺記憶泛化能力不足:現(xiàn)有方法依賴稠密連續(xù)的視覺記憶,容易導(dǎo)致生成長程任務(wù)序列時(shí)邏輯不連貫,動作預(yù)測性能下降。
為此,EnerVerse通過逐塊生成的自回歸擴(kuò)散框架,結(jié)合創(chuàng)新的稀疏記憶機(jī)制與自由錨定視角(FAV)方法,解決了上述瓶頸問題。
技術(shù)方案解析
逐塊擴(kuò)散生成:Next Chunk Diffusion
EnerVerse采用逐塊生成的自回歸擴(kuò)散模型,通過逐步生成未來具身空間來引導(dǎo)機(jī)器人動作規(guī)劃。其關(guān)鍵設(shè)計(jì)包括:
擴(kuò)散模型架構(gòu):基于結(jié)合時(shí)空注意力的UNet結(jié)構(gòu),每個(gè)空間塊內(nèi)部通過卷積與雙向注意力建模;塊與塊之間通過單向因果邏輯(causal logic)保持時(shí)間一致性,從而確保生成序列的邏輯合理性。
稀疏記憶機(jī)制:借鑒大語言模型(LLM)的上下文記憶,EnerVerse在訓(xùn)練階段對歷史幀進(jìn)行高比例隨機(jī)掩碼(mask),推理階段以較大時(shí)間間隔更新記憶隊(duì)列,有效降低計(jì)算開銷,同時(shí)顯著提升長程任務(wù)的生成能力。
任務(wù)結(jié)束邏輯:通過特殊的結(jié)束幀(EOS frame),實(shí)現(xiàn)對任務(wù)結(jié)束時(shí)機(jī)的精準(zhǔn)監(jiān)督,確保生成過程在合適節(jié)點(diǎn)終止。

靈活的4D生成:Free Anchor View(FAV)
針對具身操作中復(fù)雜遮擋環(huán)境和多視角需求,EnerVerse提出了自由錨定視角(FAV)方法,以靈活表達(dá)4D空間。其核心優(yōu)勢包括:
自由設(shè)定視角:FAV支持動態(tài)調(diào)整錨定視角,克服固定多視角(fixed multi-anchor view)在狹窄場景中的局限性。例如,在廚房等場景中,F(xiàn)AV可輕松適應(yīng)動態(tài)遮擋關(guān)系。
跨視角空間一致性:基于光線投射原理(ray casting),EnerVerse通過視線方向圖(ray direction map)作為視角控制條件,并將2D空間注意力擴(kuò)展為跨視角的3D空間注意力(cross-view spatial attention),確保生成視頻的幾何一致性。
Sim2Real適配:通過在仿真數(shù)據(jù)上訓(xùn)練的4D生成模型(EnerVerse-D)與4D高斯?jié)姙R(4D Gaussian Splatting)交替迭代,EnerVerse構(gòu)建了一個(gè)數(shù)據(jù)飛輪,為真實(shí)場景下的FAV生成提供偽真值支持。
高效動作規(guī)劃:Policy Head
EnerVerse通過在生成網(wǎng)絡(luò)下游集成Diffusion策略頭(Diffusion Policy Head),打通未來空間生成與機(jī)器人動作規(guī)劃的全鏈條。其關(guān)鍵設(shè)計(jì)包括:
高效動作預(yù)測:生成網(wǎng)絡(luò)在逆擴(kuò)散的第一步即可輸出未來動作序列,無需等待完整的空間生成過程,確保動作預(yù)測的實(shí)時(shí)性。
稀疏記憶支持:在動作預(yù)測推理中,稀疏記憶隊(duì)列存儲真實(shí)或重建的FAV觀測結(jié)果,有效提升長程任務(wù)規(guī)劃能力。
實(shí)驗(yàn)結(jié)果
1.視頻生成性能
在短程與長程任務(wù)視頻生成中,EnerVerse均展現(xiàn)出卓越的性能:
在短程生成任務(wù)中,EnerVerse表現(xiàn)優(yōu)于現(xiàn)有微調(diào)視頻生成模型,如基于DynamiCrafter與FreeNoise的擴(kuò)散模型。
在長程生成任務(wù)中,EnerVerse展現(xiàn)出更強(qiáng)的邏輯一致性與連續(xù)生成能力,這是現(xiàn)有模型無法實(shí)現(xiàn)的。
此外,EnerVerse在LIBERO仿真場景和AgiBot World真實(shí)場景中生成的多視角視頻質(zhì)量也得到了充分驗(yàn)證。
2.動作規(guī)劃能力
在LIBERO基準(zhǔn)測試中,EnerVerse在機(jī)器人動作規(guī)劃任務(wù)中取得了顯著優(yōu)勢:
•單視角(one FAV)模型在LIBERO四類任務(wù)中的平均成功率已超過現(xiàn)有最佳方法。
•多視角(three FAV)設(shè)定進(jìn)一步提升任務(wù)成功率,在每一類任務(wù)上均超越現(xiàn)有方法。
3.消融與訓(xùn)練策略分析
•稀疏記憶機(jī)制:消融實(shí)驗(yàn)表明,稀疏記憶對長程序列生成的合理性及長程動作預(yù)測精度至關(guān)重要。
•二階段訓(xùn)練策略:先進(jìn)行未來空間生成訓(xùn)練,再進(jìn)行特定場景動作預(yù)測訓(xùn)練的二階段策略,可顯著提升動作規(guī)劃性能。
4.注意力可視化
通過可視化Diffusion策略頭中的交叉注意力模塊,研究發(fā)現(xiàn)EnerVerse生成的未來空間與預(yù)測的動作空間具有較強(qiáng)的時(shí)序一致性。這直觀體現(xiàn)了EnerVerse在未來空間生成與動作規(guī)劃任務(wù)中的相關(guān)性與優(yōu)勢。
智元機(jī)器人通過EnerVerse架構(gòu)開創(chuàng)了未來具身智能的新方向。通過未來空間生成引導(dǎo)動作規(guī)劃,EnerVerse不僅突破了機(jī)器人任務(wù)規(guī)劃的技術(shù)瓶頸,還為多模態(tài)、長程任務(wù)的研究提供了全新范式。
我要收藏
點(diǎn)個(gè)贊吧
轉(zhuǎn)發(fā)分享
咨詢詳情:如需咨詢文中涉及的相關(guān)產(chǎn)品或解決方案詳情,請加微信:ZiDongHuaX 。
微信聯(lián)盟:機(jī)器人微信群、人工智能微信群,各細(xì)分行業(yè)微信群:點(diǎn)擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器 查看各品牌在細(xì)分領(lǐng)域的定位宣傳語
微信聯(lián)盟:機(jī)器人微信群、人工智能微信群,各細(xì)分行業(yè)微信群:點(diǎn)擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器 查看各品牌在細(xì)分領(lǐng)域的定位宣傳語


評論排行