深度觀點(diǎn) | 星海圖趙行:我們希望為所有具身智能開發(fā)者提供好硬件、好數(shù)據(jù)、好模型和好工具
【ZiDongHua 之“會(huì)展賽培壇”收錄關(guān)鍵詞:星海圖 機(jī)器人 具身智能 】
深度觀點(diǎn) | 星海圖趙行:我們希望為所有具身智能開發(fā)者提供好硬件、好數(shù)據(jù)、好模型和好工具

2025年8月11日,星海圖首席科學(xué)家趙行受邀出席2025世界機(jī)器人大會(huì)(2025 WRC),并發(fā)表主題演講《前沿技術(shù)首發(fā):星海圖VLA模型——開啟具身智能新紀(jì)元》。以下為本次演講全文實(shí)錄。
大家好,我是星海圖的趙行,很高興有機(jī)會(huì)和大家進(jìn)行分享,今天這個(gè)時(shí)間非常特殊,因?yàn)榫驮诮裉煳覀冋桨l(fā)布了星海圖首個(gè)VLA模型——星海圖G0,以及我們的開源數(shù)據(jù)集——星海圖開放世界數(shù)據(jù)集。
我們把數(shù)據(jù)采集機(jī)器人部署到了真實(shí)的開放世界中進(jìn)行數(shù)據(jù)采集,包括一系列家庭生活服務(wù)的場景。采集員通過遙操作的方式控制機(jī)器人,讓機(jī)器人去完成復(fù)雜的、長程的、日常的任務(wù)。
這個(gè)數(shù)據(jù)集包含了500個(gè)小時(shí)的機(jī)器人與物理世界交互的數(shù)據(jù),包括了50個(gè)不同場景、150個(gè)真實(shí)世界的任務(wù)。在采集完這些數(shù)據(jù)以后,我們預(yù)訓(xùn)練了VLA模型G0,在下游的任務(wù)里,G0 模型展現(xiàn)出了強(qiáng)大的泛化能力。例如在機(jī)器人鋪床的任務(wù)上,測試員可以隨機(jī)打亂場景,機(jī)器人會(huì)觀察環(huán)境并做出決策,最后閉環(huán)控制完成任務(wù)。同時(shí)我們在一系列不同的任務(wù)和場景上進(jìn)行了模型測試,比如說不同任務(wù)之間的串聯(lián),以及雙臂操作等。
剛才大家看到的這些展示,都只使用了不到 100 條的數(shù)據(jù)來進(jìn)行模型訓(xùn)練進(jìn)而完成的。在這次 WRC 的展會(huì)上,大家也可以來到我們的展臺(tái)上,實(shí)時(shí)地看到我們的機(jī)器人進(jìn)行鋪床整理的展示。我們在每一個(gè)整點(diǎn)都會(huì)有機(jī)器人自主鋪床的任務(wù)演示,并有相應(yīng)的講解。
下面說一說我們?yōu)槭裁匆鲞@個(gè)事情,剛才說到我們發(fā)布了兩個(gè)重磅的成果,第一個(gè)是數(shù)據(jù)集,第二個(gè)是我們的模型。其實(shí)我自己在AI領(lǐng)域已經(jīng)工作了十多年了,在這十多年里給我最大的震撼是什么?我覺得第一個(gè)大家可能都知道是 OpenAI 在幾年前推出的Scaling Law。

Scaling Law講的是什么?講的是我們的AI 模型,隨著它的數(shù)據(jù)規(guī)模擴(kuò)大,隨著計(jì)算量的增加以及模型大小的增長,我們的性能將會(huì)持續(xù)地進(jìn)行提升。這不是學(xué)術(shù)界的一個(gè)經(jīng)典論調(diào),而是更偏工業(yè)界和產(chǎn)業(yè)化的規(guī)律,就像摩爾定律一樣,我們相信只要計(jì)算量能增加五倍到十倍,AI性能就也能夠有相應(yīng)的有五倍到十倍的提升。
另一個(gè)對我影響很大的,我相信也是對很多學(xué) AI 的人影響很大的是一個(gè)essay——the Better Lesson,這是最近獲得圖靈獎(jiǎng)提名的Richard老師提出的,在對于 AI 過去發(fā)展 70 年的觀察中,他發(fā)現(xiàn)其實(shí)很多算法的改進(jìn)或者說方法的改進(jìn)其實(shí)并不能大幅提升模型的能力。
相反的,隨著計(jì)算的提升,我們的 AI 才實(shí)現(xiàn)了真正的進(jìn)展。當(dāng)然這個(gè)論調(diào)也并不是說我們只有發(fā)展算力才是正確的路線,我們?nèi)匀灰龇椒?,那有哪些方法呢?在Richard的觀點(diǎn)中我們要做元方法 Meta Methods,第一類元方法叫做學(xué)習(xí),第二類元方法叫做搜索。那么我們反觀現(xiàn)在具身智能的發(fā)展,什么是學(xué)習(xí)?什么是搜索?學(xué)習(xí),也就是說我們通過給機(jī)器人大量的釋義的數(shù)據(jù),讓機(jī)器人學(xué)會(huì)它應(yīng)該怎么做。搜索則是通過機(jī)器人自主地在環(huán)境里進(jìn)行探索和試錯(cuò)學(xué)會(huì)什么是正確的。
對應(yīng)到具身智能的發(fā)展里,正好對應(yīng)著兩個(gè)重要的技術(shù),第一個(gè)是模仿學(xué)習(xí),第二個(gè)是強(qiáng)化學(xué)習(xí)。模仿學(xué)習(xí)對于機(jī)器人操作這個(gè)領(lǐng)域來說,已經(jīng)成為了公認(rèn)的技術(shù)路線和方法。從機(jī)器人醫(yī)療手術(shù)實(shí)驗(yàn),到谷歌機(jī)器人的桌面操作和具身理解大模型,都使用了模仿學(xué)習(xí)這條技術(shù)路線。
當(dāng)然我們既然說到模仿學(xué)習(xí),就逃不開數(shù)據(jù)。我們模仿學(xué)習(xí)的算法可以通過聰明的工程師、聰明的科學(xué)家來獲得,但是數(shù)據(jù)我們要怎么獲得呢?
大家都知道我們具身智能的數(shù)據(jù)金字塔,在這個(gè)數(shù)據(jù)金字塔的底端是我們互聯(lián)網(wǎng)上的視頻數(shù)據(jù),互聯(lián)網(wǎng)上的視頻數(shù)據(jù)都是通過眾包采集而來的,優(yōu)點(diǎn)就是我們擁有海量的數(shù)據(jù)體量,但是這些數(shù)據(jù)中沒有動(dòng)作的信息,我們可能可以從里面提取出人手動(dòng)作的信息,但我們沒有辦法去想象在這樣的數(shù)據(jù)里,機(jī)器人的動(dòng)作該怎樣執(zhí)行。
在金字塔的中間是我們常提到的仿真數(shù)據(jù),仿真數(shù)據(jù)是一種非常有意思的切入方法,我們通過計(jì)算來換時(shí)間。因?yàn)槲覀兛梢詷?gòu)建仿真器,并且使用多臺(tái)計(jì)算機(jī)同時(shí)進(jìn)行仿真來獲取數(shù)據(jù),這樣數(shù)據(jù)獲取速度會(huì)比我們在真實(shí)世界進(jìn)行數(shù)據(jù)采集更快,但是它也遇到一個(gè)巨大的挑戰(zhàn),叫做 sim to real gap,也就是說我們在仿真里獲取的數(shù)據(jù)和真實(shí)世界中真實(shí)發(fā)生的事情相差特別大。
在金字塔的頂端,是大家更經(jīng)常討論的真機(jī)數(shù)據(jù),也就是說我們要帶著機(jī)器人去真實(shí)世界里采集數(shù)據(jù)。星海圖認(rèn)為真機(jī)數(shù)據(jù)是最重要的,是打破具身智能天花板能力的關(guān)鍵技術(shù)。但是不知道大家有沒有意識(shí)到,即便是真實(shí)數(shù)據(jù)也是有區(qū)別的,我們不僅存在 sim to real gap,我們甚至還存在 real to real gap。

什么是 real to real gap?我們會(huì)有很多團(tuán)隊(duì)和公司,大家會(huì)積極地去構(gòu)建機(jī)器人的數(shù)據(jù)采集場,在這些數(shù)據(jù)采集場里,我們非常希望去構(gòu)建一些復(fù)雜的環(huán)境,比如說我們?nèi)?gòu)建一個(gè)家庭環(huán)境,這個(gè)家庭環(huán)境窗明幾凈、一塵不染,然后就在里面采集了很多的數(shù)據(jù)。
但是當(dāng)我們把機(jī)器人部署到真實(shí)的環(huán)境里去以后,東西亂堆亂放,和我們的數(shù)據(jù)采集場完全不一樣,機(jī)器人瞬間就傻眼了,他不知道該如何去面對應(yīng)對這種更加真實(shí)和復(fù)雜場景。
當(dāng)意識(shí)到這個(gè)問題以后,我們在去年底決定開始做這個(gè)事情,也就是說我們要進(jìn)入真實(shí)的世界里去采集數(shù)據(jù),不希望我們的機(jī)器人像賽車場里的賽車一樣不停地繞圈,而希望我們的車走到真實(shí)的道路上、公開的道路上去面對、應(yīng)對真實(shí)的交通和駕駛場景,我們也希望機(jī)器人到真實(shí)的家庭里去看一看、走一走、做一做、干一干,最后把數(shù)據(jù)收集回來,訓(xùn)練我們的具身基礎(chǔ)模型。
接下來的內(nèi)容更多是我們在數(shù)據(jù)采集標(biāo)注和模型訓(xùn)練里的一些技術(shù)心得的分享。首先我們發(fā)現(xiàn)數(shù)據(jù)標(biāo)注特別重要,因?yàn)槲覀兊哪繕?biāo)是訓(xùn)練VLA模型(Vision Language Action),其中Language的存在非常的重要,因?yàn)長anguage定義了我們?nèi)祟惖暮蜋C(jī)器人的交互界面,同時(shí)也會(huì)把原本長程的任務(wù)切分成小的任務(wù),讓機(jī)器人能更好地進(jìn)行執(zhí)行。
在完成了數(shù)據(jù)標(biāo)注以后,我們的模型G0是一個(gè)雙系統(tǒng)大模型,它分為兩部分,系統(tǒng)1和系統(tǒng)2。系統(tǒng)1是我們說到的端到端的快執(zhí)行模型,系統(tǒng)2是一個(gè)慢思考,能和人類交互,把任務(wù)進(jìn)行拆解的慢模型。通過這兩個(gè)模型聯(lián)合在我們的開放世界數(shù)據(jù)集上進(jìn)行訓(xùn)練,并把他們聯(lián)合部署到我們的機(jī)器人上,能夠端到端的完成我們機(jī)器人要面對的任務(wù)和問題。
可能有人會(huì)說為什么我們要把這個(gè)機(jī)器人的模型分為兩層呢?我覺得這個(gè)在生物進(jìn)化上是有一定的道理的。首先我們觀察人類,我們?nèi)祟惖倪@個(gè)大腦皮層的視覺感知能力,語言中樞理解能力,以及我們小腦的控制能力,我們的四肢身體運(yùn)動(dòng)能力。其實(shí)他們并沒有運(yùn)行在同一個(gè)頻率上,這是為什么呢?這是進(jìn)化的結(jié)果,進(jìn)化告訴我們分工,合理的分工是必要的,它能夠大幅提高能量的利用率,這個(gè)對于機(jī)器人來說也是適用的,這樣我們就能夠把這個(gè)雙系統(tǒng)模型真正地落地部署到機(jī)器人上,機(jī)器人不再會(huì)因?yàn)樗伎嫉寐?,所以?dòng)作也變慢。
我們的系統(tǒng)1和系統(tǒng)2是并行推理的,是不同的速度的兩個(gè)模型。但是這兩個(gè)模型并不是孤立的,在進(jìn)化的過程中,因?yàn)閿?shù)據(jù)的原因,他們會(huì)自發(fā)地進(jìn)行合理的信息和特征的傳遞。往未來看,我甚至相信系統(tǒng)1和系統(tǒng)2之間會(huì)相互進(jìn)行轉(zhuǎn)化。例如,當(dāng)我第一次學(xué)一個(gè)任務(wù)的時(shí)候,我要很嚴(yán)密地進(jìn)行思考,但當(dāng)我第二次、第三次、第四次做同一個(gè)任務(wù)的時(shí)候,我不再需要我的大腦進(jìn)行嚴(yán)密地思考,我可以把它這個(gè)運(yùn)動(dòng)和動(dòng)作記下來,直接記在我的小腦模型里,自發(fā)地、下意識(shí)地去完成任務(wù)。
接下來再來講一講我們的算法設(shè)計(jì),我們要分清模型、算法、數(shù)據(jù),它是三個(gè)不同的概念。首先是算法,在這個(gè)大模型時(shí)代,有兩個(gè)最火熱的算法,第一個(gè)叫做自回歸模型Next Token Prediction。第二個(gè)算法叫做Diffusion Model 擴(kuò)散模型,我們發(fā)現(xiàn)合理地組合這兩種最當(dāng)下最有用、最有效的大模型訓(xùn)練方法,能夠大幅提升具身智能VLA模型的效果。具體來說,我們首先在第一階段使用跨本體的數(shù)據(jù),通過自回歸學(xué)習(xí)的Next Token Prediction的方法去進(jìn)行第一階段的模型預(yù)訓(xùn)練。
然后使用我們星海圖自己采集的單本體高質(zhì)量的數(shù)據(jù)去進(jìn)行第二階段的預(yù)訓(xùn)練,但不同的是第二階段的預(yù)訓(xùn)練我們會(huì)給機(jī)器人加上一個(gè)Action Expert或者是個(gè)Action Decoder,它也是一個(gè)Transformer模型。通過第二階段的預(yù)訓(xùn)練,機(jī)器人能夠真正學(xué)習(xí)在這個(gè)單本體上,控制自己身體的能力。
最后第三階段是一個(gè)后訓(xùn)練的階段,如果我們要面對的任務(wù)非常的復(fù)雜和長程,那么我們大概率需要采集幾條后訓(xùn)練的數(shù)據(jù),然后來微調(diào)我們的模型。那么這個(gè)第二階段預(yù)訓(xùn)練和我們的后訓(xùn)練階段都使用的是這種擴(kuò)散模型的學(xué)習(xí)方法。我們經(jīng)過了一系列的實(shí)驗(yàn)和分析,發(fā)現(xiàn)這樣的訓(xùn)練方式和組合是一個(gè)能讓我們得到最好結(jié)果的一個(gè)方案。
我們在一系列的任務(wù)上進(jìn)行了對我們VLA模型的評測。然后我們也和當(dāng)下全世界最火的開源模型π0進(jìn)行了對比,我們發(fā)現(xiàn)在許多任務(wù)上,我們的預(yù)訓(xùn)練模型會(huì)優(yōu)于π0,那么在多個(gè)模型平均下來以后的結(jié)果,發(fā)現(xiàn)我們的G0模型超越π0模型20個(gè)百分點(diǎn),再接下來我們還做了更極限的測試,我們讓后訓(xùn)練數(shù)據(jù)只有 20條,也就是說面對一個(gè)非常復(fù)雜的問題的時(shí)候,我們的預(yù)訓(xùn)練模型不再能夠進(jìn)行大規(guī)模的后訓(xùn)練,他只能看到少量的示范,我們發(fā)現(xiàn)即便在20條數(shù)據(jù)的情況下,我們的G0模型仍然能夠表現(xiàn)得非常出色。
在這些任務(wù)里,甚至有一些很有意思的觀察,我們發(fā)現(xiàn)跨本體預(yù)訓(xùn)練的效果遠(yuǎn)不如單本體預(yù)訓(xùn)練的效果。這個(gè)也就是告訴我們其實(shí)機(jī)器人模型的機(jī)器人具身智能模型的能力其實(shí)是和本體緊密相關(guān)的,那么就要去在針對性地對于我們想要使用的具身智能的本體以上去進(jìn)行數(shù)據(jù)的采集,這個(gè)也告訴我們,實(shí)際上具身智能它是一個(gè)從模型回到數(shù)據(jù),再回看機(jī)器人本體這個(gè)全鏈條的事情,我們要把它做好,光靠一家公司是不足夠的。
所以說接下來星海圖會(huì)重點(diǎn)去發(fā)展貢獻(xiàn)我們的開發(fā)者群體,希望為所有具身智能開發(fā)者群體提供好的硬件、好的數(shù)據(jù)、好的預(yù)訓(xùn)練模型的 checkpoint 以及后訓(xùn)練微調(diào)的工具,希望通過這樣的方式聚合更多的開發(fā)者,一起把具身智能做好,邁向具身智能和人形機(jī)器人的下一個(gè)臺(tái)階,我們的模型和數(shù)據(jù)集將在未來的幾周開源。歡迎感興趣的同學(xué)、老師、開發(fā)者們來關(guān)注我們的項(xiàng)目網(wǎng)站,謝謝大家。
我要收藏
點(diǎn)個(gè)贊吧
轉(zhuǎn)發(fā)分享
咨詢詳情:如需咨詢文中涉及的相關(guān)產(chǎn)品或解決方案詳情,請加微信:ZiDongHuaX 。
微信聯(lián)盟:機(jī)器人微信群、具身智能微信群,各細(xì)分行業(yè)微信群:點(diǎn)擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器 查看各品牌在細(xì)分領(lǐng)域的定位宣傳語
微信聯(lián)盟:機(jī)器人微信群、具身智能微信群,各細(xì)分行業(yè)微信群:點(diǎn)擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器 查看各品牌在細(xì)分領(lǐng)域的定位宣傳語


評論排行