【ZiDongHua 之駕駛自動化收錄關(guān)鍵詞: 智能汽車 人工智能 自動駕駛 機器人 傳感器】
  
  騰訊劉澍泉對話元戎啟行周光:智能汽車是打開物理世界通用人工智能的鑰匙
  
  隨著人工智能浪潮的發(fā)展,端到端模型在自動駕駛領(lǐng)域嶄露頭角,通過將感知、規(guī)劃、決策等關(guān)鍵模塊整合到統(tǒng)一的神經(jīng)網(wǎng)絡(luò)之中,讓自動駕駛更像人類司機一樣駕駛,進一步推動了高階智駕的量產(chǎn)進程。同時,也隨之催生了對數(shù)據(jù)、算力等底層基礎(chǔ)設(shè)施的新需求。
  
  近期,元戎啟行CEO周光邀請騰訊智慧出行副總裁劉澍泉,在北京市區(qū)道路上體驗了雙方合作打造的業(yè)內(nèi)首個僅使用導(dǎo)航地圖的高階智能駕駛量產(chǎn)方案,并圍繞自動駕駛量產(chǎn)、人工智能2.0時代等話題展開了一場精彩對話。
 
  
  周光認為,智能汽車是打開物理世界通用人工智能的鑰匙。智能汽車是人類首個達到千萬級數(shù)據(jù)體量的機器人,對物理世界形成了海量共識的理解,將沉淀形成一個物理世界的基礎(chǔ)模型,未來也會更容易遷移到其他機器人場景。
  
  周光表示,元戎啟行一直順應(yīng)人工智能的發(fā)展,在端到端、大語言模型、生成式AI為核心的人工智能2.0時代,元戎啟行能夠早于行業(yè)多數(shù)人意識到并發(fā)掘這個事情,是一種來自于技術(shù)上的直覺。
  
  面向自動駕駛領(lǐng)域,騰訊扮演的是一個比較純粹的數(shù)字助手角色。劉澍泉表示,騰訊面向行業(yè)提供自動駕駛云、合規(guī)云以及地圖相關(guān)的服務(wù)。騰訊希望和眾多的合作伙伴,把整套的云加端的架構(gòu)打通,從而通過高速的迭代、數(shù)據(jù)訓(xùn)練不斷優(yōu)化算法。
  
  在今年1月份的CES期間,元戎啟行與騰訊宣布在地圖領(lǐng)域達成合作,推出了行業(yè)首個僅使用導(dǎo)航地圖數(shù)據(jù)的高階智駕量產(chǎn)方案,預(yù)計將于今年投入消費者市場。
  
  以下是雙方對話節(jié)選:
  
  智能汽車是
  
  打開物理世界通用人工智能的鑰匙
  
  劉澍泉:
  
  今年越來越多有智能駕駛功能的車上市,而且價格在不斷的下探,迭代在加快,整體的這個技術(shù)路線、方案路線慢慢開始趨同了,我想聽聽你的看法。
  
  周光:
  
  經(jīng)歷了一年“無圖”的方案,我覺得已經(jīng)形成了行業(yè)的共識了,我們的這個方案是業(yè)內(nèi)首個僅使用導(dǎo)航地圖的自動駕駛方案,能夠提供非常優(yōu)質(zhì)的城市NOA自動駕駛體驗。
  
  我們做了泛化測試,涉及了大概數(shù)十個城市,整體來說,我覺得騰訊地圖的數(shù)據(jù)的質(zhì)量還是挺高的。但可能在一些個別的城市,我們還是會有一些更新的問題,一些像二線、三線城市,它們修路的速度比較快,它的道路拓撲結(jié)構(gòu)改變了,這種可能還需要做一些更新。但我相信隨著高階自動駕駛量產(chǎn),有了實時的反饋,地圖的更新也會更快。
  
  劉澍泉:
  
  其實這就是騰訊所謂的云圖一體嘛。通過這種云加端的架構(gòu),當(dāng)車輛發(fā)現(xiàn)物理世界的差異,實時地把這種差異傳回到云端,我們再做更新地圖下發(fā)下來。
  
  要怎么理解,智能汽車是打開物理世界通用人工智能的鑰匙呢?
  
  周光:
  
  其實更早一點的自動駕駛系統(tǒng),是經(jīng)典機器人,都有感知決策定位模塊。這些模塊都是特殊針對這個場景所設(shè)計的,缺乏了實際上的通用性。而端到端的智能駕駛系統(tǒng)是由神經(jīng)網(wǎng)絡(luò)驅(qū)動的,包含感知模塊、決策模塊,通過神經(jīng)網(wǎng)絡(luò)、向量矩陣直聯(lián),并沒有預(yù)先定義好的接口,所以它也是適用于機器人的。
  
  我認為人類首個能達到千萬級數(shù)據(jù)積累的機器人就是智能車,其他的機器人是不可能有這么多海量數(shù)據(jù)的。當(dāng)你有了千萬級的海量數(shù)據(jù)之后,慢慢地你會對物理世界形成一些共識的理解,你會對這個物理世界有一個基礎(chǔ)模型,以后把這個模型遷移到其他機器人場景是更加容易的。
  
  劉澍泉:
  
  元戎啟行是準(zhǔn)備怎么達成這樣的目標(biāo)呢?
  
  周光:
  
  這不是一步就能達到,其實我們也前前后后經(jīng)歷了非常多的階段,第一個階段就是多傳感器前融合,而且做了點云渲染。
  
  但是在那個時間點上,其實還沒有想到居然會成為端到端的一個環(huán)節(jié)。比如說今天我們這個車有七個攝像頭,一個激光雷達。在前融合階段之前,它需要有不同的七個算法,都去負責(zé)感知,然后做后端的融合,再去開這個車。做前融合實際上是把所有的東西放在一個坐標(biāo)系里面,用統(tǒng)一的算法來做感知識別。
  
  前融合是第一步,第二步是去高精地圖。高精地圖其實是能幫助我們做高級的語義判斷,比如說像今天我們開車,不僅僅只是要看周圍的100米,可能你需要知道這個路的曲率等比較難的任務(wù),都是交給這個地圖了。
  
  隨著人工智能的發(fā)展,我們意識到,下一步其實我們是可以通過神經(jīng)網(wǎng)絡(luò)把靜態(tài)元素、道路拓撲全部都復(fù)現(xiàn),就有了這個“無圖”的方案。
  
  元戎啟行從2020年初期開始的,前前后后經(jīng)歷過兩年的時間,在2022年首次達到了一個相對還可以的效果,在2023年我們就把所有的動靜態(tài)的感知放在同一個神經(jīng)網(wǎng)絡(luò)里面做。但是在那個點上我們就意識到了我們一直都要做減法。于是我們又做了下一件事:用數(shù)據(jù)驅(qū)動的預(yù)測決策系統(tǒng)。整個系統(tǒng)形成了兩個模塊,感知大模型以及規(guī)劃決策大模型。
  
  在去年年初的時候我們意識到,這兩個模型其實通過這個神經(jīng)網(wǎng)絡(luò)直聯(lián),就是一個信息無減損的端到端結(jié)構(gòu)。因此去年8月份就跑通了端到端,到今年3月份的時候,在NVIDIA的GTC大會上,我們對外官宣。
  
  為智能駕駛量產(chǎn)提供底層“加速器”
  
  周光:
  
  剛才聊了很多關(guān)于元戎的端到端的技術(shù),我現(xiàn)在也想問一下騰訊作為一個云商也是一個圖商,怎么去面對這個賽道?騰訊的優(yōu)勢在于哪里?
  
  劉澍泉:
  
  首先我們的戰(zhàn)略定位是非常清晰的。騰訊做的是一個比較純粹的數(shù)字助手角色,面向行業(yè)去提供自動駕駛云、合規(guī)云以及導(dǎo)航、地圖相關(guān)的一些服務(wù)。
  
  我覺得有幾個比較有特色的服務(wù):首先,剛才提到,我要有一個端到端的網(wǎng)絡(luò),但是在這個過程中你必須要有一個更精準(zhǔn)的導(dǎo)航服務(wù),它需要更精準(zhǔn)的車道級的連接性,像騰訊從去年開始做的,也是雙方把導(dǎo)航的能力和元戎端到端的大模型算法結(jié)合起來,去達到最好的調(diào)優(yōu)狀態(tài)。
  
  第二點,自動駕駛相關(guān)的業(yè)務(wù)它是一個強數(shù)據(jù)驅(qū)動類的業(yè)務(wù),所以它一定會需要更高的算力,更高的存儲以及更廣泛的網(wǎng)絡(luò)覆蓋,這一塊是騰訊云的強項。我們把網(wǎng)絡(luò)、存儲、計算統(tǒng)一,能夠做到更高的性價比,在這個方面也有一些優(yōu)秀案例:例如和NVIDIA的合作、和博世的合作,當(dāng)然也包括和元戎的合作,形成整體的一個數(shù)據(jù)閉環(huán)。
  
  我們特別希望和眾多的合作伙伴,把整套的云加端的一個架構(gòu)打通,從而通過高速的迭代、數(shù)據(jù)的訓(xùn)練再去finetune我們的算法。
  
  順應(yīng)人工智能2.0時代
  
  端到端讓自動駕駛更“有人味”
  
  劉澍泉:
  
  實際上自動駕駛端到端的模型,它是把感知規(guī)控一體化的輸入進來,最后得到一個更像人的一個決策結(jié)果,所以這個過程是一個偶然嗎?還是說從一個學(xué)術(shù)發(fā)展也好,或者說技術(shù)演進里面有這樣一個預(yù)判?有這樣一個推導(dǎo)嗎?
  
  周光:
  
  我覺得是有這種感覺:就是說從一開始做融合、做BEV,都是你感覺這樣是對的,但是你其實不知道終局的。因為當(dāng)時那個點上還有這個高精度地圖之爭、后融合前融合之爭,但是直到你看懂了端到端的時候你會發(fā)現(xiàn),其實你所有的鋪墊都是為了最后這一步——做一套端到端系統(tǒng)DeepRoute IO。
  
  我們最大的優(yōu)勢就是我們一直順應(yīng)了人工智能的發(fā)展,尤其是人工智能2.0時代,2.0時代就是端到端、大語言模型、生成式,分別針對了語言的、數(shù)字生成式的以及這個機器人物理實踐,我們能夠早于行業(yè)多數(shù)人去意識到、去發(fā)掘到這個事情,然后去開始去投入布局??梢哉f這是一種來自于技術(shù)上的直覺。
  
  劉澍泉:
  
  你提到了一個很重要的點,就是今天感知的模型規(guī)控模型之間的這個直通,在這一塊的話你有什么可分享的技巧嗎?
  
  周光:
  
  我們做一個生物學(xué)的解剖:我們?nèi)四X肯定是一個神經(jīng)網(wǎng)絡(luò),但是它也會分為感知、視覺和語言中樞各種模塊。今天的端到端它也是由不同功能的模塊構(gòu)成的,只不過都是通過直聯(lián),這個直聯(lián)其實牽涉到你的訓(xùn)練方法、你的訓(xùn)練步驟、你的數(shù)據(jù),這個其實是今天的核心競爭力,真的不是那些網(wǎng)絡(luò)。
  
  劉澍泉:
  
  今天我們有了一個端到端的大模型,但是模型參數(shù)太多了,模型太大了,我們今天算力是受限的。怎么能夠把它去合理的“減脂”,把它部署到車上呢?
  
  周光:
  
  今天的端到端大模型它也并不是一個完全Transformer-based,所以說它對算力的需求相對來說沒有那么大,另外來講,一個端到端系統(tǒng)它并不意味著它一定就是大,像我們這次的產(chǎn)品叫DeepRoute IO,IO就是input、output(輸入、輸出),它只是講你是input,然后我有output,中間沒有人類編程而已。
  
  端到端跟大模型是兩碼事,會根據(jù)你數(shù)據(jù)的情況、你的網(wǎng)絡(luò)的容量情況以及你要達到的場景情況,去選合理選擇你的模型大小。當(dāng)然你基本的這些模型優(yōu)化裁剪,這就是一些基本功了。
  
  劉澍泉:
  
  自動駕駛過程中經(jīng)常遇到一些特殊場景,要面對車流、行人、自行車等等大量不確定的因素,像這種情況元戎有什么自己的獨門絕技嗎?
  
  周光:
  
  之前的這種預(yù)測都是基于速度推斷的,就是做一個勻速的假設(shè)或者做一些速度的二階導(dǎo),這是比較初級的做法,基于數(shù)據(jù)驅(qū)動的、基于端到端的這個預(yù)測,會是更加豐富的一個預(yù)測場景。比如說在一個安全島上的一個人,可能你的預(yù)測是他不太會亂跳下來,但是在路口的一個人他可能就竄出來概率比較高,它會考慮整個場景的前后表現(xiàn),這樣車子開起來就很“有人味”。
  
  劉澍泉:
  
  剛才,周光博士提到了打造物理世界通用人工智能大門這樣的一個愿景,騰訊也有一個愿景:做好數(shù)字化助手、做好底層的云服務(wù)、做好底層的地圖服務(wù)、做好大模型的基礎(chǔ)設(shè)施,我們共同打造整體的一個合作伙伴體系,共同去打開物理世界的大門,我認為是我們的共同的一個偉大的目標(biāo)。
  
  周光:
  
  我覺得我們在整個的這個產(chǎn)業(yè)鏈、生態(tài)鏈、還要繼續(xù)攜手,然后一起共贏,向著目標(biāo)前進。
  
  作為國際領(lǐng)先的人工智能企業(yè),深圳元戎啟行科技有限公司致力于研發(fā)和應(yīng)用高階智能駕駛技術(shù)。隨著數(shù)據(jù)的積累及技術(shù)的迭代,元戎啟行將打造物理世界的通用人工智能,為人類帶來全新生產(chǎn)力。
  
  元戎啟行擁有深厚的技術(shù)儲備及豐富的行業(yè)經(jīng)驗,長期投入前沿技術(shù)研發(fā)。2024年4月,元戎啟行率先推出基于端到端模型的新一代智駕平臺DeepRoute IO;2023年3月,元戎啟行推出國內(nèi)首款基于導(dǎo)航地圖、可實現(xiàn)全域點到點功能的高階智能駕駛解決方案DeepRoute-Driver 3.0;2021年12月,元戎啟行推出國內(nèi)首個可量產(chǎn)的智能駕駛前裝解決方案DeepRoute-Driver 2.0 ,打破自動駕駛量產(chǎn)壁壘。
  
  元戎啟行已與多家車企達成智能駕駛汽車量產(chǎn)合作,搭載端到端模型的多款量產(chǎn)車型將于2024年陸續(xù)推向消費者市場。