【ZiDongHua 之“技術(shù)文章區(qū)”收錄關(guān)鍵詞: 智元機(jī)器人 香港大學(xué) 具身模型】
  
  智元機(jī)器人聯(lián)合香港大學(xué)推出的UniVLA入選 RSS 2025 并開源!
  
  導(dǎo) 言
  
  現(xiàn)有具身模型沒有充分利用更加多樣的視頻數(shù)據(jù),難以適應(yīng)未訓(xùn)練過的新任務(wù)與新場(chǎng)景,通用性受限。為此,智元機(jī)器人聯(lián)合香港大學(xué)提出UniVLA:一個(gè)具備跨機(jī)器人本體、場(chǎng)景與任務(wù)泛化能力的通用策略學(xué)習(xí)系統(tǒng)。它構(gòu)建了以任務(wù)為中心的隱式動(dòng)作空間,充分利用語言描述與視頻示范進(jìn)行策略學(xué)習(xí),實(shí)現(xiàn)了從“看視頻”、“聽指令”到“動(dòng)手操作”的通用控制。該成果已被機(jī)器人頂會(huì) RSS 2025 認(rèn)可,同時(shí)代碼也已經(jīng)開源,并成為全球頂尖機(jī)器人賽事 AgiBot World Challenge @ IROS 2025【點(diǎn)擊文字跳轉(zhuǎn)相關(guān)文章】 的baseline之一。
  
  想象一下在不遠(yuǎn)的未來,通用機(jī)器人真正走進(jìn)了日常生活。我們希望當(dāng)你發(fā)出一條自然語言指令,無論是“幫我給貓喂食”,還是“幫我關(guān)掉臺(tái)燈”,它都能夠理解你的意圖,并準(zhǔn)確地完成動(dòng)作——不依賴預(yù)定義的任務(wù)模板,也不受限于曾經(jīng)訓(xùn)練過的數(shù)據(jù)分布。
  
  然而,現(xiàn)有的機(jī)器人系統(tǒng)往往依賴人工標(biāo)注的數(shù)據(jù)與固定的動(dòng)作空間,面對(duì)那些未被明確訓(xùn)練過的任務(wù)或非典型場(chǎng)景,它們常常會(huì)因?yàn)?ldquo;未見過”“無定義”而選擇拒絕執(zhí)行,嚴(yán)重限制了通用性的發(fā)揮。有沒有一種能夠從更廣泛的數(shù)據(jù)來源,如從互聯(lián)網(wǎng)上的人類視頻中學(xué)習(xí)動(dòng)作的方法,并實(shí)現(xiàn)多種場(chǎng)景、任務(wù)的真正通用和泛化呢?
  
  最近,智元機(jī)器人聯(lián)合香港大學(xué)基于此提出了全新框架——UniVLA,一個(gè)跨本體、跨場(chǎng)景、跨任務(wù)的通用策略學(xué)習(xí)系統(tǒng),就像為機(jī)器人安裝了“跨界大腦”,實(shí)現(xiàn)了從“看視頻”、“聽指令”到“動(dòng)手操作”的通用控制。
 
  
  UniVLA:跨本體、跨場(chǎng)景、跨任務(wù)的通用策略