極佳科技朱政博士解讀「世界模型」趨勢:從語言智能到空間智能|智源2025十大趨勢
【ZiDongHua之“自動化學院派”收錄關鍵詞:】
極佳科技朱政博士解讀「世界模型」趨勢:從語言智能到空間智能|智源2025十大趨勢
近日,北京智源人工智能研究院發(fā)布“2025十大AI技術趨勢”,根據(jù)行業(yè)技術及應用熱點,評選出AI4Science、具身智能、原生多模態(tài)大模型、Scaling Law擴展、世界模型、合成數(shù)據(jù)、推理優(yōu)化、Agentic AI、AI超級應用、AI安全十大AI趨勢。

在發(fā)布會上,極佳科技聯(lián)合創(chuàng)始人&首席科學家朱政博士發(fā)表題為《世界模型:從語言智能到空間智能》的演講,對世界模型的發(fā)展趨勢進行了進行了深入分析和點評,以下是分享全文,enjoy~

人工智能的發(fā)展歷程
朱政博士首先回顧了人工智能的發(fā)展歷史,是一個從解決封閉域問題走向解決開放域問題,從感知走向認知決策的過程,從數(shù)據(jù)維度上看,我們可以把語言智能的輸出結果看做是1維數(shù)據(jù),把圖像和視頻看做2維和2.5維數(shù)據(jù),那么3維空間+時間就是4維數(shù)據(jù),這也是世界模型和空間智能探索的對象??臻g智能是除了語言智能之外,通往通用智能的第二條技術路徑,兩者的目標是一致的,都是希望把AI從虛擬世界擴展到物理世界,做法有些不同,語言模型更多對內,從思考出發(fā),到行動;世界模型更多對外,從交互出發(fā),到行動。
以Sora視頻生成為例子,很多人在討論Sora是不是一個世界模擬器,朱政博士認為,目標是對的,但是技術路線可能不夠高效。為什么這么說,因為從文本或者圖像生成視頻其實是一件非常難的事情,但是如果顯式地利用4D世界模型進行建模的話,可以在很大程度上把問題變得簡單,更快在物理空間和虛擬空間中落地。
世界模型
朱政博士從世界模型的具體定義出發(fā),談及到以人為啟發(fā)的智能學習方式,并指出構建世界模型的目的是從數(shù)據(jù)中學習到世界的運轉規(guī)律,掌握知識。目前對世界模型的研究集中在視頻生成、自動駕駛、智能體和通用機器人三個領域,分別有一些基礎任務和應用場景?,F(xiàn)在無論是數(shù)字世界的語言模型和視頻生成模型,還是物理世界的自動駕駛和機器人,所有通用智能問題都在走向端到端,核心均是世界模型,包括閉環(huán)模擬器和高質量4D閉環(huán)數(shù)據(jù)兩部分。過去的做法是依賴互聯(lián)網(wǎng)數(shù)據(jù)、仿真數(shù)據(jù)、實采數(shù)據(jù)和機器人遙操數(shù)據(jù),缺點比較明顯,缺乏真實性、成本高、Corner case少、效率低;如果用世界模型這種全新的方式作為數(shù)據(jù)來源的話,可以總結為4個字:多快好省,多就是可以規(guī)模化生成,快就是不受限制,好指的是生成的數(shù)據(jù)價值密度高,省就是成本低。
極佳科技世界模型的研究和應用
朱政博士系統(tǒng)性地介紹了極佳科技DriveDreamer世界模型系列在自動駕駛數(shù)據(jù)生成和閉環(huán)仿真中的探索和應用。
DriveDreamer由極佳科技研究人員在2023年9月提出,是首個真實自動駕駛場景驅動的世界模型,相關的論文入選了PaperDigest最有影響力ECCV論文之一;DriveDreamer可以生成豐富多樣的駕駛場景視頻,包括不同的駕駛背景、天氣、時間等,也可以給定相同的初始幀,根據(jù)改變的輸入速度和角度,生成出不同的未來視頻,還可以根據(jù)歷史的駕駛動作以及初始的圖像觀測,預測合理的未來駕駛動作。
DriveDreamer-2進一步引入了大語言模型,可以根據(jù)用戶的自然語言輸入生成對應場景的自動駕駛視頻,并在下游感知任務上大幅度提升相關指標。
世界模型除了可以生成多樣化的視頻訓練數(shù)據(jù)之外,還可以應用到閉環(huán)仿真中。閉環(huán)仿真里面很重要的一件事情是對場景進行重建,重建一般需要多視角的數(shù)據(jù),但是自動駕駛數(shù)據(jù)集都只有前進的單一視角數(shù)據(jù),可以利用世界模型的能力,生成新視角的數(shù)據(jù)來輔助重建。具體來說,在DriveDreamer4D這項工作里,極佳科技的研究人員從原始軌跡出發(fā),進行速度和車道的變化,再映射出來新的結構化信息,經由視頻生成世界模型可以得到新軌跡的數(shù)據(jù),進而和原始數(shù)據(jù)一起優(yōu)化重建模型。
世界模型輔助場景重建的另外一條實現(xiàn)路徑是先進行重建再生成。極佳科技在另一篇工作ReconDreamer中,先利用重建模型對動態(tài)駕駛場景進行建模,然后在原軌跡的基礎上逐步采樣新軌跡渲染得到視頻,利用世界模型進行修復,修復后的數(shù)據(jù)以一定的比例加入重建的優(yōu)化過程中。實驗結果表明,DriveDreamer4D和ReconDreamer可以極大程度地提升變道、平移等新軌跡下的渲染質量。
未來展望
最后,朱政博士對世界模型和空間智能在2025年的發(fā)展趨勢進行了預測和展望。世界模型即將從自動駕駛擴展到更為寬廣的具身智能領域,并將擁有更高程度的邏輯推理與決策能力,非常有希望突破傳統(tǒng)的任務界限,接棒成為多模態(tài)大模型發(fā)展的下一站??臻g智能將和語言模型一樣,重塑機器人、人機交互、影視游戲、元宇宙等行業(yè)。
嘉賓介紹:
朱政博士
極佳科技聯(lián)合創(chuàng)始人、首席科學家。2019年至2021年在清華大學自動化系從事博士后研究,2019年博士畢業(yè)于中國科學院自動化研究所。在TPAMI、CVPR、ICCV、ECCV、NeurIPS等頂級期刊和會議上發(fā)表論文50余篇,文章總引用13000余次(Google Citations),2022、2023、2024連續(xù)三年入選斯坦福大學評選的全球前2%頂尖科學家榜單。
代表作SiamRPN和DaSiamRPN是深度學習時代最具影響力的目標跟蹤算法之一,開辟了孿生網(wǎng)絡目標跟蹤的研究方向,分別被引用3100余次和1600余次,并被集成進OpenCV;BEVDet是BEV感知領域的代表性算法,被多家車企和自動駕駛公司3D感知方案所采用,累計被引用600余次;WebFace260M是全球最大的人臉識別數(shù)據(jù)集,被400余家科研機構申請使用,DriveDreamer世界模型入選ECCV最具影響力論文榜單。獲得過COCO、VOT等頂級視覺競賽冠軍,并在KITTI、nuScenes、NIST-FRVT等榜單上排名第一,在ICCV 2021上組織戴口罩人臉識別比賽,將近500支隊伍參賽并完成超過10000次提交。擔任權威人臉識別國際會議IEEE FG 2023領域主席。

我要收藏
點個贊吧
轉發(fā)分享
咨詢詳情:如需咨詢文中涉及的相關產品或解決方案詳情,請加微信:ZiDongHuaX 。
微信聯(lián)盟:人工智能微信群、具身智能微信群、機器人微信群、語言智能微信群、空間智能微信群,各細分行業(yè)微信群:點擊這里進入。
鴻達安視:水文水利在線監(jiān)測儀器、智慧農業(yè)在線監(jiān)測儀器 查看各品牌在細分領域的定位宣傳語
微信聯(lián)盟:人工智能微信群、具身智能微信群、機器人微信群、語言智能微信群、空間智能微信群,各細分行業(yè)微信群:點擊這里進入。
鴻達安視:水文水利在線監(jiān)測儀器、智慧農業(yè)在線監(jiān)測儀器 查看各品牌在細分領域的定位宣傳語


評論排行