【ZiDongHua 之駕駛自動(dòng)化收錄關(guān)鍵詞:毫末智行 北京智源大會(huì) 自動(dòng)駕駛 人工智能 機(jī)器人 低速無(wú)人車 自動(dòng)駕駛大模型 DriveGPT 傳感器 智能駕駛 輔助駕駛 行泊一體 ChatGPT 】
 
 
  自動(dòng)駕駛大模型亮相2023北京智源大會(huì)!顧維灝:DriveGPT將重塑汽車智能化技術(shù)路線
 
 
  在“最強(qiáng) AI 思想盛宴”2023北京智源大會(huì)上
 
  毫末自動(dòng)駕駛大模型 DriveGPT
 
  又雙叒叕吸引目光!
 
  毫末 CEO 顧維灝現(xiàn)場(chǎng)詳解
 
  硬核實(shí)力一覽無(wú)余……
 
  好奇 DriveGPT 有哪些“獨(dú)門絕技”?
 
  快快下劃,和小編一起一探究竟!
 
  6月9日-10日,被譽(yù)為“AI 春晚”的2023北京智源大會(huì)在北京舉行。在為期兩天的 AI 技術(shù)盛宴上,“大模型”毫無(wú)疑問(wèn)成為了最火的概念。
 
   
 
  作為已經(jīng)舉辦了四屆的人工智能學(xué)術(shù)盛會(huì),今年第五屆智源大會(huì)可以用盛況空前來(lái)形容。不僅有 Hinton、LeCun 等四位圖靈獎(jiǎng)得主同臺(tái),還有 OpenAI 創(chuàng)始人 Sam Altman、PaLM-E 和 RoBERTa 等大模型重要工作參與者,以及張鈸、張宏江等國(guó)內(nèi)外 AI 最前沿領(lǐng)軍人物齊聚一堂,圍繞大模型發(fā)展現(xiàn)狀與趨勢(shì),針對(duì) AI 安全問(wèn)題和風(fēng)險(xiǎn)防范進(jìn)行數(shù)場(chǎng)激烈討論。
 
  隨著以 ChatGPT 為代表的大模型應(yīng)用的火爆,這一次面向 AI 行業(yè)的技術(shù)大會(huì)更是破圈進(jìn)入大眾視野。AI 大模型正在與各行各業(yè)及人們的日常生活發(fā)生著千絲萬(wàn)縷的聯(lián)系。對(duì)于同樣是人工智能前沿探索領(lǐng)域的自動(dòng)駕駛,也在本屆智源大會(huì)上設(shè)置了專門的分論壇。AI 大模型與自動(dòng)駕駛能夠產(chǎn)生怎樣的“化學(xué)反應(yīng)”,成為與會(huì)嘉賓高頻討論的問(wèn)題。
 
  作為國(guó)內(nèi)自動(dòng)駕駛 AI 技術(shù)公司的領(lǐng)先代表,毫末智行受邀出席了本屆智源大會(huì),毫末 CEO 顧維灝在現(xiàn)場(chǎng)分享了題為《DriveGPT 雪湖·海若驅(qū)動(dòng)自動(dòng)駕駛3.0時(shí)代加速到來(lái)》的主題演講,詳細(xì)闡釋了基于 AI 大模型所實(shí)現(xiàn)的端到端自動(dòng)駕駛方案的最新成果。
 
  演講之前,主持人特意提到,實(shí)現(xiàn)端到端自動(dòng)駕駛正在成為國(guó)內(nèi)外自動(dòng)駕駛 AI 公司探索的最前沿課題,而毫末正是國(guó)內(nèi)做自動(dòng)駕駛的代表。顧維灝指出,自動(dòng)駕駛在過(guò)去二十年的時(shí)間沒(méi)有完全達(dá)成目標(biāo),除了傳感器硬件、算力跟不上之外,還有一個(gè)原因有可能是方法跟不上。自動(dòng)駕駛最有可能的實(shí)現(xiàn)方法就是以數(shù)據(jù)驅(qū)動(dòng),進(jìn)行 AI 大模型的訓(xùn)練和部署。顧維灝表示,世界正在朝著大模型的方向發(fā)展,自動(dòng)駕駛大模型是必然趨勢(shì)。
 
  顧維灝認(rèn)為,ChatGPT 的成功,帶給自動(dòng)駕駛技術(shù)很大的啟發(fā)。大模型的本質(zhì)就是將知識(shí)壓縮到模型當(dāng)中,然后再延伸出來(lái)去解決很多問(wèn)題。GPT(生成式預(yù)訓(xùn)練大模型)作為 AI 大模型中的重要方法,可以引入到自動(dòng)駕駛領(lǐng)域。基于這些思考,毫末率先在行業(yè)推出了自動(dòng)駕駛生成式大模型 DriveGPT 雪湖·海若。
 
  演講開(kāi)始,顧維灝首先分享了毫末對(duì)于當(dāng)前自動(dòng)駕駛發(fā)展趨勢(shì)的判斷:2023年智能駕駛產(chǎn)品進(jìn)入了一個(gè)全線增長(zhǎng)的爆發(fā)期,目前正出現(xiàn)三個(gè)重要趨勢(shì),即城市導(dǎo)航輔助駕駛產(chǎn)品將圍繞量產(chǎn)交付發(fā)力、行泊一體將成為自動(dòng)駕駛公司深耕的重點(diǎn)以及低速無(wú)人車市場(chǎng)走向商業(yè)化落地、末端配送在商超快遞等場(chǎng)景迎來(lái)全面爆發(fā)。以上趨勢(shì)的背后是 AI 技術(shù)生態(tài)、AI 數(shù)據(jù)生態(tài)、AI 算力生態(tài)的加速升級(jí),推動(dòng)自動(dòng)駕駛技術(shù)與商業(yè)發(fā)展走向成熟。
 
 
 
  顧維灝認(rèn)為,經(jīng)過(guò)近二十年的發(fā)展,自動(dòng)駕駛技術(shù)先后經(jīng)歷了以硬件驅(qū)動(dòng)為主的1.0時(shí)代、以軟件驅(qū)動(dòng)為主的2.0時(shí)代,目前正在進(jìn)入由數(shù)據(jù)驅(qū)動(dòng)的自動(dòng)駕駛3.0時(shí)代。進(jìn)入自動(dòng)駕駛3.0時(shí)代,至少需要一億公里以上的數(shù)據(jù)規(guī)模,感知模型進(jìn)入到多模態(tài)傳感器聯(lián)合輸出的模式,認(rèn)知模式也從人工規(guī)則方式發(fā)展到可解釋、場(chǎng)景化、具有駕駛常識(shí)的模型中。因此自動(dòng)駕駛3.0的發(fā)展模式一定是以“大數(shù)據(jù)、大算力、大模型”為核心的。而毫末正在以數(shù)據(jù)驅(qū)動(dòng)的方式,實(shí)現(xiàn)從自動(dòng)駕駛2.0向3.0時(shí)代的加速?zèng)_刺。
 
  
 
  顧維灝表示,毫末從2019年底創(chuàng)立之初,就定下以數(shù)據(jù)驅(qū)動(dòng)自動(dòng)駕駛技術(shù)升級(jí)的公司技術(shù)戰(zhàn)略,提出了“自動(dòng)駕駛發(fā)展三定律”,并確立了以“數(shù)據(jù)智能”為核心,以乘用車輔助駕駛、末端物流自動(dòng)配送車、智能硬件三大業(yè)務(wù)作為葉片的風(fēng)車戰(zhàn)略,形成產(chǎn)品、數(shù)據(jù)、技術(shù)閉環(huán)的良性循環(huán)。
 
  毫末以領(lǐng)先的 AI 技術(shù)和量產(chǎn)智能駕駛作為核心優(yōu)勢(shì),在2021年底,率先發(fā)布國(guó)內(nèi)首個(gè)全棧自研的自動(dòng)駕駛數(shù)據(jù)智能體系 MANA(雪湖),開(kāi)始建立數(shù)據(jù)驅(qū)動(dòng)的閉環(huán)體系。截至目前,毫末用戶輔助駕駛行駛里程超過(guò)5000萬(wàn)公里,MANA 學(xué)習(xí)時(shí)長(zhǎng)達(dá)到67萬(wàn)小時(shí)。在2022年底,毫末又建成國(guó)內(nèi)自動(dòng)駕駛行業(yè)最大智算中心 MANA OASIS(雪湖·綠洲),每秒浮點(diǎn)運(yùn)算達(dá)到67億億次,為 AI 大模型訓(xùn)練建立起算力基礎(chǔ)設(shè)施。
 
  基于數(shù)據(jù)智能體系和智算基礎(chǔ)設(shè)施,以及早在2021年就對(duì) Transformer 大模型前沿探索的基礎(chǔ)上,毫末在2023年1月,在行業(yè)內(nèi)率先推出了視覺(jué)自監(jiān)督大模型、3D 重建大模型、多模態(tài)互監(jiān)督大模型、動(dòng)態(tài)環(huán)境大模型、人駕無(wú)監(jiān)督認(rèn)知大模型等五大大模型,成為行業(yè)首個(gè)將 GPT 大模型技術(shù)引用到自動(dòng)駕駛認(rèn)知決策當(dāng)中的自動(dòng)駕駛公司。
 
  2023年4月的第八屆 HAOMO AI DAY 上,基于 GPT 大模型所具有的生成式預(yù)訓(xùn)練、人類反饋強(qiáng)化學(xué)習(xí)(RLHF)等技術(shù)優(yōu)勢(shì),毫末發(fā)布了行業(yè)首個(gè)自動(dòng)駕駛生成式大模型 DriveGPT 雪湖·海若。
 
  顧維灝認(rèn)為,AI 大模型成為這場(chǎng)自動(dòng)駕駛技術(shù)升級(jí)背后的關(guān)鍵因素。隨著 ChatGPT 火爆全球,使得 AI 大模型技術(shù)價(jià)值被全行業(yè)看到。ChatGPT 作為生成式語(yǔ)言大模型的代表,帶給 AI 科技行業(yè)很大的啟示——通過(guò)對(duì)海量多模態(tài)數(shù)據(jù)的大規(guī)模自監(jiān)督學(xué)習(xí),借助“預(yù)訓(xùn)練+微調(diào)”的方式,就可以完成各種復(fù)雜的自然語(yǔ)言任務(wù)?,F(xiàn)在大模型正在從文本、語(yǔ)音、視覺(jué)等單一模態(tài)智能向跨場(chǎng)景、多任務(wù)的多模態(tài)方向演進(jìn),AI 大模型在跨領(lǐng)域內(nèi)容學(xué)習(xí)和能力獲取方面實(shí)現(xiàn)了質(zhì)的飛躍。
 
  顧維灝指出,以傳統(tǒng)深度學(xué)習(xí)的小模型以及人工規(guī)則的方式難以突破完全自動(dòng)駕駛所要求的能力瓶頸,而基于大模型的方式對(duì)自動(dòng)駕駛感知、認(rèn)知算法進(jìn)行訓(xùn)練和部署,將使得端到端自動(dòng)駕駛的實(shí)現(xiàn)成為可能,并且會(huì)逐步達(dá)到超過(guò)人類老司機(jī)水平的駕駛能力,最終成為自動(dòng)駕駛機(jī)器人,實(shí)現(xiàn)無(wú)處不在的機(jī)器智能移動(dòng)。
 
 
  據(jù)顧維灝介紹,DriveGPT 的底層模型與 ChatGPT 一樣,都采用了生成式預(yù)訓(xùn)練模型架構(gòu),使用了大規(guī)模無(wú)監(jiān)督的數(shù)據(jù)進(jìn)行初始模型的生成,也都采用了 Prompt 微調(diào)方式和 RLHF 方式進(jìn)行模型效果的優(yōu)化;二者的不同之處在于,ChatGPT 輸入輸出的是自然語(yǔ)言文本,而 DriveGPT 輸入輸出的分別是融合感知場(chǎng)景序列和生成的預(yù)測(cè)場(chǎng)景序列,雙方應(yīng)用場(chǎng)景不同,ChatGPT 主要用于自然語(yǔ)言處理領(lǐng)域,而 DriveGPT 主要用于自動(dòng)駕駛領(lǐng)域。
 
  具體來(lái)講, GPT 的本質(zhì)是不斷求解下一個(gè)詞(Token)出現(xiàn)的概率,DriveGPT 就是求解駕駛場(chǎng)景 Token 出現(xiàn)的概率,不斷循環(huán)來(lái)生成自動(dòng)駕駛場(chǎng)景未來(lái) Token 序列。DriveGPT 的輸入是感知融合后的 Token 序列,輸出是自動(dòng)駕駛場(chǎng)景 Token 序列,即將自動(dòng)駕駛場(chǎng)景 Token 化,形成“Drive Language”,用于描述包括障礙物的狀態(tài)、自車狀態(tài)、車道線情況等某時(shí)刻的場(chǎng)景狀態(tài),最終完成自車的障礙物預(yù)測(cè)、決策規(guī)控以及決策邏輯鏈的輸出等任務(wù)。
 
  毫末 DriveGPT 底層模型同樣是采用 GPT 這種生成式預(yù)訓(xùn)練大模型技術(shù),首先會(huì)通過(guò)引入大規(guī)模駕駛數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,再通過(guò)使用獎(jiǎng)勵(lì)模型(Reward Model)與RLHF(人類反饋強(qiáng)化學(xué)習(xí))技術(shù)對(duì)人駕數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí),對(duì)自動(dòng)駕駛認(rèn)知決策模型進(jìn)行持續(xù)優(yōu)化。
 
  其中,顧維灝對(duì)于大模型的可解釋性難題做了專門解釋,DriveGPT 在接受人類反饋的強(qiáng)化學(xué)習(xí)之后,還可以輸出決策邏輯鏈(Chain of Thought,簡(jiǎn)稱CoT),即在輸入端提供提示語(yǔ)(Prompt),根據(jù)提示輸出含有決策邏輯鏈的未來(lái)序列。毫末 CSS 自動(dòng)駕駛場(chǎng)景庫(kù)擁有超過(guò)幾十萬(wàn)個(gè)細(xì)顆粒度場(chǎng)景,可以作為 CoT 的重要輸入,將 Prompt 和完整決策過(guò)程的樣本交給模型去學(xué)習(xí),學(xué)到推理關(guān)系,從而將完整駕駛策略拆分為自動(dòng)駕駛場(chǎng)景的動(dòng)態(tài)識(shí)別過(guò)程,完成可理解、可解釋的推理邏輯鏈生成。
 
  目前,毫末 DriveGPT 采用了 Decoder-only 模型架構(gòu),參數(shù)規(guī)模達(dá)到1200億,預(yù)訓(xùn)練階段引入4700多萬(wàn)公里量產(chǎn)車駕駛數(shù)據(jù),RLHF 階段引入5萬(wàn)段人工精選的困難場(chǎng)景接管 Clips。同時(shí),毫末正在將感知能力融入到 DriveGPT 大模型訓(xùn)練當(dāng)中,形成一整套的端到端自動(dòng)駕駛能力模型。DriveGPT 也將具備道路駕駛場(chǎng)景的理解和識(shí)別、道路駕駛場(chǎng)景的重建與生成,以及智能駕駛輔助、駕駛能力測(cè)評(píng)等能力。
 
  在場(chǎng)景理解能力上, DriveGPT 可基于多模態(tài)理解能力,具備對(duì)話式文搜圖能力。在場(chǎng)景識(shí)別能力上,可實(shí)現(xiàn)對(duì)單幀圖片、環(huán)視 Bundle、4D Clips 自動(dòng)化標(biāo)注?;诤聊?DriveGPT 所建立的 4D Clips 駕駛場(chǎng)景識(shí)別方案,可以使得單張圖片的標(biāo)注成本降到0.5元,是目前行業(yè)平均成本的1/10。在場(chǎng)景重建能力上,可實(shí)現(xiàn)對(duì)單趟或多趟視頻的純視覺(jué) NeRF 三維重建。DriveGPT 在感知數(shù)據(jù)生成方面,可實(shí)現(xiàn)不同場(chǎng)景的感知數(shù)據(jù)生成和障礙物、交通元素編輯,同時(shí)在認(rèn)知數(shù)據(jù)生成上,可以生成各類接管場(chǎng)景的駕駛決策真值。
 
  基于 DriveGPT 實(shí)現(xiàn)的駕駛輔助能力,可包含通用感知能力和駕駛決策能力,以提升駕駛效果。DriveGPT 顛覆傳統(tǒng)的感知邏輯,通過(guò)構(gòu)建統(tǒng)一的空間計(jì)算 Backbone 實(shí)現(xiàn)通用視覺(jué)感知能力,在一個(gè)大模型中同時(shí)完成圖片紋理、三維結(jié)構(gòu)深度信息、實(shí)體語(yǔ)義信息、實(shí)體跟蹤的學(xué)習(xí),試圖與人腦對(duì)物理世界的感知一樣,實(shí)現(xiàn)通用的視覺(jué)感知能力。在認(rèn)知階段,將空間計(jì)算 Backbone 對(duì)接駕駛決策,采用更豐富、更全面的感知信息來(lái)訓(xùn)練駕駛決策模型,結(jié)合海量的真實(shí)駕駛數(shù)據(jù)訓(xùn)練,最終實(shí)現(xiàn)端到端自動(dòng)駕駛甚至達(dá)到無(wú)人駕駛。
 
  在云端駕駛決策測(cè)評(píng)上,DriveGPT 本身的駕駛水平非常高,可以在云端通過(guò)大模型輸出駕駛決策真值,來(lái)對(duì)比車端小模型的駕駛效果,實(shí)現(xiàn)大規(guī)模云端自動(dòng)化測(cè)評(píng),形成一種“Teacher-Student”模式。在多智能體仿真能力上,由于 DriveGPT 具備很強(qiáng)的自主化能力,相當(dāng)于一個(gè)獨(dú)立智能體,通過(guò)在駕駛仿真場(chǎng)景中布置多個(gè)智能體,可以模擬非常復(fù)雜的真實(shí)交通場(chǎng)景,針對(duì)復(fù)雜場(chǎng)景的多車交互與博弈,能給出更真實(shí)、更有效的測(cè)評(píng)結(jié)論。
 
  在毫末看來(lái),毫末 DriveGPT 大模型技術(shù)將使得自動(dòng)駕駛技術(shù)產(chǎn)生質(zhì)的飛躍,成為實(shí)現(xiàn)真正無(wú)人駕駛的全新技術(shù)路線。顧維灝表示,DriveGPT 的訓(xùn)練成果距離最終的產(chǎn)品體驗(yàn)還有差距,但是進(jìn)步飛快,自動(dòng)駕駛大模型最終在終端的落地也會(huì)加速到來(lái)。
 
  毫末 DriveGPT 雪湖·海若大模型的相關(guān)技術(shù)成果將逐步落地在搭載毫末 HPilot3.0 的新摩卡 DHT-PHEV、魏牌藍(lán)山 DHT-PHEV 以及末端物流自動(dòng)配送車小魔駝3.0上。同時(shí),毫末也正在與多個(gè)行業(yè)生態(tài)伙伴共同探索 DriveGPT 的四大應(yīng)用能力,包括智能駕駛、駕駛場(chǎng)景識(shí)別、駕駛行為驗(yàn)證和困難場(chǎng)景脫困。DriveGPT 大模型也正在將云端的能力對(duì)外開(kāi)放,包括大規(guī)模數(shù)據(jù)的自動(dòng)化標(biāo)注,自動(dòng)駕駛場(chǎng)景仿真測(cè)試等能力。
 
  最后,顧維灝希望毫末在自動(dòng)駕駛大模型的實(shí)踐能夠促進(jìn)中國(guó)自動(dòng)駕駛更快地發(fā)展。毫末 DriveGPT 大模型必將重塑汽車智能化技術(shù)路線,驅(qū)動(dòng)自動(dòng)駕駛3.0時(shí)代加速到來(lái)。
 
  用 AI 照亮未來(lái)
 
  以科技指引前路
 
  毫末始終與時(shí)代共振
 
  以技術(shù)信仰,構(gòu)筑美好生活