極佳科技朱政博士解讀「世界模型」趨勢：從語言智能到空間智能｜智源2025十大趨勢

時間：2025-01-20 15:45:08 發(fā)布：tgy 來源：極佳科技 GigaAI 第一對焦：極佳科技

　　【ZiDongHua之“自動化學院派”收錄關鍵詞：】

　　極佳科技朱政博士解讀「世界模型」趨勢：從語言智能到空間智能｜智源2025十大趨勢

　　近日，北京智源人工智能研究院發(fā)布“2025十大AI技術趨勢”，根據(jù)行業(yè)技術及應用熱點，評選出AI4Science、具身智能、原生多模態(tài)大模型、Scaling Law擴展、世界模型、合成數(shù)據(jù)、推理優(yōu)化、Agentic AI、AI超級應用、AI安全十大AI趨勢。

　　在發(fā)布會上，極佳科技聯(lián)合創(chuàng)始人&首席科學家朱政博士發(fā)表題為《世界模型：從語言智能到空間智能》的演講，對世界模型的發(fā)展趨勢進行了進行了深入分析和點評，以下是分享全文，enjoy～

　　人工智能的發(fā)展歷程

　　朱政博士首先回顧了人工智能的發(fā)展歷史，是一個從解決封閉域問題走向解決開放域問題，從感知走向認知決策的過程，從數(shù)據(jù)維度上看，我們可以把語言智能的輸出結果看做是1維數(shù)據(jù)，把圖像和視頻看做2維和2.5維數(shù)據(jù)，那么3維空間+時間就是4維數(shù)據(jù)，這也是世界模型和空間智能探索的對象?？臻g智能是除了語言智能之外，通往通用智能的第二條技術路徑，兩者的目標是一致的，都是希望把AI從虛擬世界擴展到物理世界，做法有些不同，語言模型更多對內，從思考出發(fā)，到行動；世界模型更多對外，從交互出發(fā)，到行動。

　　以Sora視頻生成為例子，很多人在討論Sora是不是一個世界模擬器，朱政博士認為，目標是對的，但是技術路線可能不夠高效。為什么這么說，因為從文本或者圖像生成視頻其實是一件非常難的事情，但是如果顯式地利用4D世界模型進行建模的話，可以在很大程度上把問題變得簡單，更快在物理空間和虛擬空間中落地。

　　世界模型

　　朱政博士從世界模型的具體定義出發(fā)，談及到以人為啟發(fā)的智能學習方式，并指出構建世界模型的目的是從數(shù)據(jù)中學習到世界的運轉規(guī)律，掌握知識。目前對世界模型的研究集中在視頻生成、自動駕駛、智能體和通用機器人三個領域，分別有一些基礎任務和應用場景?，F(xiàn)在無論是數(shù)字世界的語言模型和視頻生成模型，還是物理世界的自動駕駛和機器人，所有通用智能問題都在走向端到端，核心均是世界模型，包括閉環(huán)模擬器和高質量4D閉環(huán)數(shù)據(jù)兩部分。過去的做法是依賴互聯(lián)網(wǎng)數(shù)據(jù)、仿真數(shù)據(jù)、實采數(shù)據(jù)和機器人遙操數(shù)據(jù)，缺點比較明顯，缺乏真實性、成本高、Corner case少、效率低；如果用世界模型這種全新的方式作為數(shù)據(jù)來源的話，可以總結為4個字：多快好省，多就是可以規(guī)模化生成，快就是不受限制，好指的是生成的數(shù)據(jù)價值密度高，省就是成本低。

　　極佳科技世界模型的研究和應用

　　朱政博士系統(tǒng)性地介紹了極佳科技DriveDreamer世界模型系列在自動駕駛數(shù)據(jù)生成和閉環(huán)仿真中的探索和應用。

　　DriveDreamer由極佳科技研究人員在2023年9月提出，是首個真實自動駕駛場景驅動的世界模型，相關的論文入選了PaperDigest最有影響力ECCV論文之一；DriveDreamer可以生成豐富多樣的駕駛場景視頻，包括不同的駕駛背景、天氣、時間等，也可以給定相同的初始幀，根據(jù)改變的輸入速度和角度，生成出不同的未來視頻，還可以根據(jù)歷史的駕駛動作以及初始的圖像觀測，預測合理的未來駕駛動作。

　　DriveDreamer-2進一步引入了大語言模型，可以根據(jù)用戶的自然語言輸入生成對應場景的自動駕駛視頻，并在下游感知任務上大幅度提升相關指標。

　　世界模型除了可以生成多樣化的視頻訓練數(shù)據(jù)之外，還可以應用到閉環(huán)仿真中。閉環(huán)仿真里面很重要的一件事情是對場景進行重建，重建一般需要多視角的數(shù)據(jù)，但是自動駕駛數(shù)據(jù)集都只有前進的單一視角數(shù)據(jù)，可以利用世界模型的能力，生成新視角的數(shù)據(jù)來輔助重建。具體來說，在DriveDreamer4D這項工作里，極佳科技的研究人員從原始軌跡出發(fā)，進行速度和車道的變化，再映射出來新的結構化信息，經由視頻生成世界模型可以得到新軌跡的數(shù)據(jù)，進而和原始數(shù)據(jù)一起優(yōu)化重建模型。

　　世界模型輔助場景重建的另外一條實現(xiàn)路徑是先進行重建再生成。極佳科技在另一篇工作ReconDreamer中，先利用重建模型對動態(tài)駕駛場景進行建模，然后在原軌跡的基礎上逐步采樣新軌跡渲染得到視頻，利用世界模型進行修復，修復后的數(shù)據(jù)以一定的比例加入重建的優(yōu)化過程中。實驗結果表明，DriveDreamer4D和ReconDreamer可以極大程度地提升變道、平移等新軌跡下的渲染質量。

　　未來展望

　　最后，朱政博士對世界模型和空間智能在2025年的發(fā)展趨勢進行了預測和展望。世界模型即將從自動駕駛擴展到更為寬廣的具身智能領域，并將擁有更高程度的邏輯推理與決策能力，非常有希望突破傳統(tǒng)的任務界限，接棒成為多模態(tài)大模型發(fā)展的下一站?？臻g智能將和語言模型一樣，重塑機器人、人機交互、影視游戲、元宇宙等行業(yè)。

　　嘉賓介紹：

　　朱政博士

　　極佳科技聯(lián)合創(chuàng)始人、首席科學家。2019年至2021年在清華大學自動化系從事博士后研究，2019年博士畢業(yè)于中國科學院自動化研究所。在TPAMI、CVPR、ICCV、ECCV、NeurIPS等頂級期刊和會議上發(fā)表論文50余篇，文章總引用13000余次(Google Citations)，2022、2023、2024連續(xù)三年入選斯坦福大學評選的全球前2%頂尖科學家榜單。

　　代表作SiamRPN和DaSiamRPN是深度學習時代最具影響力的目標跟蹤算法之一，開辟了孿生網(wǎng)絡目標跟蹤的研究方向，分別被引用3100余次和1600余次，并被集成進OpenCV；BEVDet是BEV感知領域的代表性算法，被多家車企和自動駕駛公司3D感知方案所采用，累計被引用600余次；WebFace260M是全球最大的人臉識別數(shù)據(jù)集，被400余家科研機構申請使用，DriveDreamer世界模型入選ECCV最具影響力論文榜單。獲得過COCO、VOT等頂級視覺競賽冠軍，并在KITTI、nuScenes、NIST-FRVT等榜單上排名第一，在ICCV 2021上組織戴口罩人臉識別比賽，將近500支隊伍參賽并完成超過10000次提交。擔任權威人臉識別國際會議IEEE FG 2023領域主席。

我要收藏

點個贊吧

自動對焦：人工智能具身智能機器人語言智能空間智能

咨詢詳情：如需咨詢文中涉及的相關產品或解決方案詳情，請加微信：ZiDongHuaX 。

微信聯(lián)盟：人工智能微信群、具身智能微信群、機器人微信群、語言智能微信群、空間智能微信群，各細分行業(yè)微信群：點擊這里進入。

鴻達安視：水文水利在線監(jiān)測儀器、智慧農業(yè)在線監(jiān)測儀器　　　　　　查看各品牌在細分領域的定位宣傳語