極佳科技朱政博士解讀「世界模型」趨勢(shì):從語言智能到空間智能|智源2025十大趨勢(shì)
【ZiDongHua之“自動(dòng)化學(xué)院派”收錄關(guān)鍵詞:】
極佳科技朱政博士解讀「世界模型」趨勢(shì):從語言智能到空間智能|智源2025十大趨勢(shì)
近日,北京智源人工智能研究院發(fā)布“2025十大AI技術(shù)趨勢(shì)”,根據(jù)行業(yè)技術(shù)及應(yīng)用熱點(diǎn),評(píng)選出AI4Science、具身智能、原生多模態(tài)大模型、Scaling Law擴(kuò)展、世界模型、合成數(shù)據(jù)、推理優(yōu)化、Agentic AI、AI超級(jí)應(yīng)用、AI安全十大AI趨勢(shì)。

在發(fā)布會(huì)上,極佳科技聯(lián)合創(chuàng)始人&首席科學(xué)家朱政博士發(fā)表題為《世界模型:從語言智能到空間智能》的演講,對(duì)世界模型的發(fā)展趨勢(shì)進(jìn)行了進(jìn)行了深入分析和點(diǎn)評(píng),以下是分享全文,enjoy~

人工智能的發(fā)展歷程
朱政博士首先回顧了人工智能的發(fā)展歷史,是一個(gè)從解決封閉域問題走向解決開放域問題,從感知走向認(rèn)知決策的過程,從數(shù)據(jù)維度上看,我們可以把語言智能的輸出結(jié)果看做是1維數(shù)據(jù),把圖像和視頻看做2維和2.5維數(shù)據(jù),那么3維空間+時(shí)間就是4維數(shù)據(jù),這也是世界模型和空間智能探索的對(duì)象??臻g智能是除了語言智能之外,通往通用智能的第二條技術(shù)路徑,兩者的目標(biāo)是一致的,都是希望把AI從虛擬世界擴(kuò)展到物理世界,做法有些不同,語言模型更多對(duì)內(nèi),從思考出發(fā),到行動(dòng);世界模型更多對(duì)外,從交互出發(fā),到行動(dòng)。
以Sora視頻生成為例子,很多人在討論Sora是不是一個(gè)世界模擬器,朱政博士認(rèn)為,目標(biāo)是對(duì)的,但是技術(shù)路線可能不夠高效。為什么這么說,因?yàn)閺奈谋净蛘邎D像生成視頻其實(shí)是一件非常難的事情,但是如果顯式地利用4D世界模型進(jìn)行建模的話,可以在很大程度上把問題變得簡(jiǎn)單,更快在物理空間和虛擬空間中落地。
世界模型
朱政博士從世界模型的具體定義出發(fā),談及到以人為啟發(fā)的智能學(xué)習(xí)方式,并指出構(gòu)建世界模型的目的是從數(shù)據(jù)中學(xué)習(xí)到世界的運(yùn)轉(zhuǎn)規(guī)律,掌握知識(shí)。目前對(duì)世界模型的研究集中在視頻生成、自動(dòng)駕駛、智能體和通用機(jī)器人三個(gè)領(lǐng)域,分別有一些基礎(chǔ)任務(wù)和應(yīng)用場(chǎng)景?,F(xiàn)在無論是數(shù)字世界的語言模型和視頻生成模型,還是物理世界的自動(dòng)駕駛和機(jī)器人,所有通用智能問題都在走向端到端,核心均是世界模型,包括閉環(huán)模擬器和高質(zhì)量4D閉環(huán)數(shù)據(jù)兩部分。過去的做法是依賴互聯(lián)網(wǎng)數(shù)據(jù)、仿真數(shù)據(jù)、實(shí)采數(shù)據(jù)和機(jī)器人遙操數(shù)據(jù),缺點(diǎn)比較明顯,缺乏真實(shí)性、成本高、Corner case少、效率低;如果用世界模型這種全新的方式作為數(shù)據(jù)來源的話,可以總結(jié)為4個(gè)字:多快好省,多就是可以規(guī)?;?,快就是不受限制,好指的是生成的數(shù)據(jù)價(jià)值密度高,省就是成本低。
極佳科技世界模型的研究和應(yīng)用
朱政博士系統(tǒng)性地介紹了極佳科技DriveDreamer世界模型系列在自動(dòng)駕駛數(shù)據(jù)生成和閉環(huán)仿真中的探索和應(yīng)用。
DriveDreamer由極佳科技研究人員在2023年9月提出,是首個(gè)真實(shí)自動(dòng)駕駛場(chǎng)景驅(qū)動(dòng)的世界模型,相關(guān)的論文入選了PaperDigest最有影響力ECCV論文之一;DriveDreamer可以生成豐富多樣的駕駛場(chǎng)景視頻,包括不同的駕駛背景、天氣、時(shí)間等,也可以給定相同的初始幀,根據(jù)改變的輸入速度和角度,生成出不同的未來視頻,還可以根據(jù)歷史的駕駛動(dòng)作以及初始的圖像觀測(cè),預(yù)測(cè)合理的未來駕駛動(dòng)作。
DriveDreamer-2進(jìn)一步引入了大語言模型,可以根據(jù)用戶的自然語言輸入生成對(duì)應(yīng)場(chǎng)景的自動(dòng)駕駛視頻,并在下游感知任務(wù)上大幅度提升相關(guān)指標(biāo)。
世界模型除了可以生成多樣化的視頻訓(xùn)練數(shù)據(jù)之外,還可以應(yīng)用到閉環(huán)仿真中。閉環(huán)仿真里面很重要的一件事情是對(duì)場(chǎng)景進(jìn)行重建,重建一般需要多視角的數(shù)據(jù),但是自動(dòng)駕駛數(shù)據(jù)集都只有前進(jìn)的單一視角數(shù)據(jù),可以利用世界模型的能力,生成新視角的數(shù)據(jù)來輔助重建。具體來說,在DriveDreamer4D這項(xiàng)工作里,極佳科技的研究人員從原始軌跡出發(fā),進(jìn)行速度和車道的變化,再映射出來新的結(jié)構(gòu)化信息,經(jīng)由視頻生成世界模型可以得到新軌跡的數(shù)據(jù),進(jìn)而和原始數(shù)據(jù)一起優(yōu)化重建模型。
世界模型輔助場(chǎng)景重建的另外一條實(shí)現(xiàn)路徑是先進(jìn)行重建再生成。極佳科技在另一篇工作ReconDreamer中,先利用重建模型對(duì)動(dòng)態(tài)駕駛場(chǎng)景進(jìn)行建模,然后在原軌跡的基礎(chǔ)上逐步采樣新軌跡渲染得到視頻,利用世界模型進(jìn)行修復(fù),修復(fù)后的數(shù)據(jù)以一定的比例加入重建的優(yōu)化過程中。實(shí)驗(yàn)結(jié)果表明,DriveDreamer4D和ReconDreamer可以極大程度地提升變道、平移等新軌跡下的渲染質(zhì)量。
未來展望
最后,朱政博士對(duì)世界模型和空間智能在2025年的發(fā)展趨勢(shì)進(jìn)行了預(yù)測(cè)和展望。世界模型即將從自動(dòng)駕駛擴(kuò)展到更為寬廣的具身智能領(lǐng)域,并將擁有更高程度的邏輯推理與決策能力,非常有希望突破傳統(tǒng)的任務(wù)界限,接棒成為多模態(tài)大模型發(fā)展的下一站??臻g智能將和語言模型一樣,重塑機(jī)器人、人機(jī)交互、影視游戲、元宇宙等行業(yè)。
嘉賓介紹:
朱政博士
極佳科技聯(lián)合創(chuàng)始人、首席科學(xué)家。2019年至2021年在清華大學(xué)自動(dòng)化系從事博士后研究,2019年博士畢業(yè)于中國(guó)科學(xué)院自動(dòng)化研究所。在TPAMI、CVPR、ICCV、ECCV、NeurIPS等頂級(jí)期刊和會(huì)議上發(fā)表論文50余篇,文章總引用13000余次(Google Citations),2022、2023、2024連續(xù)三年入選斯坦福大學(xué)評(píng)選的全球前2%頂尖科學(xué)家榜單。
代表作SiamRPN和DaSiamRPN是深度學(xué)習(xí)時(shí)代最具影響力的目標(biāo)跟蹤算法之一,開辟了孿生網(wǎng)絡(luò)目標(biāo)跟蹤的研究方向,分別被引用3100余次和1600余次,并被集成進(jìn)OpenCV;BEVDet是BEV感知領(lǐng)域的代表性算法,被多家車企和自動(dòng)駕駛公司3D感知方案所采用,累計(jì)被引用600余次;WebFace260M是全球最大的人臉識(shí)別數(shù)據(jù)集,被400余家科研機(jī)構(gòu)申請(qǐng)使用,DriveDreamer世界模型入選ECCV最具影響力論文榜單。獲得過COCO、VOT等頂級(jí)視覺競(jìng)賽冠軍,并在KITTI、nuScenes、NIST-FRVT等榜單上排名第一,在ICCV 2021上組織戴口罩人臉識(shí)別比賽,將近500支隊(duì)伍參賽并完成超過10000次提交。擔(dān)任權(quán)威人臉識(shí)別國(guó)際會(huì)議IEEE FG 2023領(lǐng)域主席。

我要收藏
點(diǎn)個(gè)贊吧
轉(zhuǎn)發(fā)分享
咨詢?cè)斍椋?/strong>如需咨詢文中涉及的相關(guān)產(chǎn)品或解決方案詳情,請(qǐng)加微信:ZiDongHuaX 。
微信聯(lián)盟:人工智能微信群、具身智能微信群、機(jī)器人微信群、語言智能微信群、空間智能微信群,各細(xì)分行業(yè)微信群:點(diǎn)擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線監(jiān)測(cè)儀器、智慧農(nóng)業(yè)在線監(jiān)測(cè)儀器 查看各品牌在細(xì)分領(lǐng)域的定位宣傳語
微信聯(lián)盟:人工智能微信群、具身智能微信群、機(jī)器人微信群、語言智能微信群、空間智能微信群,各細(xì)分行業(yè)微信群:點(diǎn)擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線監(jiān)測(cè)儀器、智慧農(nóng)業(yè)在線監(jiān)測(cè)儀器 查看各品牌在細(xì)分領(lǐng)域的定位宣傳語


評(píng)論排行