李想是真懂自動駕駛細(xì)節(jié)
李想是真懂自動駕駛細(xì)節(jié)
2024年6月8日,李想在重慶作了關(guān)于理想汽車自動駕駛技術(shù)突破的脫稿演講,李想專門強調(diào)了是自動駕駛,不是智能駕駛,不是輔助駕駛。
李想講的內(nèi)容核心框架實際上和理想汽車智能駕駛技術(shù)研發(fā)負(fù)責(zé)人賈鵬2024年3月底在英偉達(dá)GTC 2024上講的內(nèi)容是完全一致的。

脫稿+舉的例子不一樣表明了李想是完全搞懂了自動駕駛技術(shù)路線核心框架的。
李想提到基于現(xiàn)有的計算平臺,有監(jiān)督的L3級別自動駕駛100%可實現(xiàn),最早今年年底,最晚明天年初就會全量推送,無監(jiān)督的L4自動駕駛?cè)陜?nèi)一定可以實現(xiàn)。
理想汽車的自動駕駛路線核心思路是用一顆Orin X芯片用于端到端,一顆Orin X用于VLM,端到端為系統(tǒng)一,處理所有的正常的自動駕駛,VLM為系統(tǒng)二,來解決兜底和泛化的能力。
軟件2.0與1.0最大的區(qū)別是1.0本質(zhì)是具備功能,2.0是具備能力。功能是通過測試和實驗來驗證,而理想汽車通過生成式的世界模型來對自動駕駛能力進(jìn)行考試。
李想脫稿演講原視頻:
李想脫稿演講全文:
今天跟大家分享做的一個重要的技術(shù)的一個突破,是關(guān)于自動駕駛的技術(shù)的突破。我這里強調(diào)一下,我講的是四個字是自動駕駛。對,然后不是智能駕駛,也不是輔助駕駛,我覺得這是最關(guān)鍵的。那我們自己我們自己內(nèi)部是從去年的九月份開始,來思考一個問題,并專門建立了一個用于自動駕駛研究的一個團(tuán)隊。就是一個最簡單的一個問題,人類開車為什么不涉及學(xué)習(xí)corner case?如果我們不能解決這個問題,所有的自動駕駛團(tuán)隊每天干的活都是靠人工去調(diào)試各種各樣的corner case。而且放的人越多,corner case越多,然后合作真正的自動駕駛就越遙遠(yuǎn)。
這里邊最核心的一個原因是,當(dāng)人工智能技術(shù)在不斷的發(fā)展的時候,我們會發(fā)現(xiàn)其實人類開車的方式不是我們過去的這么多年里,用了自動駕駛的研發(fā)的一個方式,這是一個根本的一個不同。因為人開車沒那么辛苦,沒那么累。不需要養(yǎng)幾千人的團(tuán)隊去搞corner case,而且團(tuán)隊越多corner case又越多。所以這時候我們就從理論和技術(shù)的兩個角度去研究。人類到底怎么開車的。新的技術(shù)如何解決人類開車的解決自動駕駛自動駕駛開車的問題。
首先其實從理論的角度,我們先是從一本書里得到了一個啟示,這本書叫《思考快與慢》。思考快一慢來講述了其實我們?nèi)粘5臅r候,大腦在工作的時候是分為系統(tǒng)一和系統(tǒng)二。然后系統(tǒng)一來處理一些直覺,快速響應(yīng)的事情。事情其實就像我們在開車,很多時候我們在開車開了10分鐘、20分鐘、30分鐘,其實腦子里在想別的事情。但是我們?nèi)匀荒軌蛟谔幚砺飞系母鞣N的路況,甚至開到家的時候忘記了,過去這半個小時我們是怎么去工作的。其實這時候就意味著我們在用系統(tǒng)一在工作。
其實并不是我們的大腦并沒有不在工作,是我們大腦以一種它獨有的方式,低能耗的方式在工作。當(dāng)當(dāng)我們?nèi)サ揭粋€復(fù)雜的,比如一個十字路口卡死了,或者我開到一個地方遇到一個水坑,那這時候我就會調(diào)用自己的大腦系統(tǒng)二來工作,他來處理這種要復(fù)雜的邏輯的推演的這樣的一個能力。但是他對大腦的消耗是比較大的,所以大家不會一直用系統(tǒng)二的方式來進(jìn)行開車。但是解決各種復(fù)雜路況,解決泛化的問題,解決未知的問題,然后大腦會啟用系統(tǒng)二來工作。所以正常的話,如果我們看我們開車的話,基本上90%時間在使用系統(tǒng)一,5%的時間在使用系統(tǒng)二。
所以這么的話,人腦每天并不需要很多的工號,然后人也不需要學(xué)習(xí)corner case,就能學(xué)會開車。那這時候我們在想,如果是這樣的人類的一個工作方式,那自動駕駛應(yīng)該怎么工作呢?什么是自動駕駛的系統(tǒng)一,什么是自動駕駛的系統(tǒng)二?那我們自己隨著對各種技術(shù)的研究,自動駕駛的系統(tǒng)一其實就是今天很多的自動駕駛團(tuán)隊都在做的端到端的這樣的一個技術(shù)。端到端就意味著其實我們把完整的訓(xùn)練片段放進(jìn)來,最后產(chǎn)生的結(jié)果是輸入直接產(chǎn)生輸出。而不是像過往的一個感知的模塊,一個規(guī)劃的模塊,一個決策的模塊,一個執(zhí)行的模塊,那這樣的效率更高。但是他的挑戰(zhàn)也來了,也不需要各類各種人類的規(guī)則在里邊,也不會發(fā)揮作用了。
它的挑戰(zhàn)主要來自于三個方面。第一個你要有真正會做端到端,也包含這方面的數(shù)據(jù)訓(xùn)練的人才。第二個需要真正高質(zhì)量的數(shù)據(jù)。我覺得第三個是需要足夠多的算力。因為端到端對于算力的需求和以往是變得完全不一樣了。
我們在端到端方面的做的過去在做的整個研究的測試,是我們大概放入了100萬的clips,用于端到端的訓(xùn)練,大概只需要做大概十輪左右的,就一個月10輪左右的訓(xùn)練,卡要足夠多,基本上就可以完成一個無圖Noa相同的一個上限的水平。所以我覺得這是第一點。但是面對中國的復(fù)雜路況,其實只有端到端是不夠的。我們要去思考什么是系統(tǒng)二。系統(tǒng)二的啟發(fā)在于什么呢?系統(tǒng)二的啟發(fā)在于其實解決各種各樣的corner case和各種的泛化的這樣的一個問題。然后人類并不是通過學(xué)習(xí)corner case的。
這里邊最明顯的一個案例,一個啟發(fā)什么呢?是我的愛人,我愛人剛學(xué)會開車很長的一段時間,連續(xù)好多年。其實她不停的剮蹭,你跟她分析下一次怎么不再剮蹭,其實沒有用。但下一次還是是剮蹭,我們就在想是不是因為我買的車,這個車的個頭太大了,一輛寶馬X6,所以我換一輛小的車,換一輛高爾夫GTI仍然去剮蹭。那怎么說其實都會剮蹭。這時候我們會發(fā)現(xiàn),其實學(xué)習(xí)corner case沒有用。我們能不能通過提升能力的方式?
所以當(dāng)時我做了一個挺重要的一個判斷是給我愛人,然后報什么呢?報寶馬駕駛培訓(xùn)的初級班。對,然后寶馬駕駛培訓(xùn)初級班一整天其實通過各種各樣的方式只教了兩個。第一個是無論是你在賽道上過彎,還是你在繞樁,還是在處理環(huán)形的這個路面的時候,你在打轉(zhuǎn)向之前,你的眼睛看往哪里,不是看你要通過的路口,而是看對你接下來要去的地方。這是用各種各樣的方式來教我們在開車的時候如何去看路。
另外一方面,寶馬的駕駛培訓(xùn)班還交了另外一個能力,就是在各種復(fù)雜的場景里如何把剎車踩到底。包含在濕滑的路面,在轉(zhuǎn)彎的路面,在一半鋼板一半道路的路面,如何能夠把剎車踩到底,從而提升一個人對于整個剎車能力的認(rèn)知。所以整個的寶馬駕駛培訓(xùn)的初級班,一整天的時間只教了兩個事情。第一個是教你看路的能力,第二個是教你剎車的能力。對他沒有教任何的corner。
只經(jīng)過這么一天的訓(xùn)練,然后我愛人就徹底和剮蹭告別了。在接下來的十幾年里邊,沒有出現(xiàn)過任何的剮蹭。所以我說這是人類其實學(xué)習(xí)的一個方式。
我們再考慮說如何把這樣的能力給到車上。然后我們看到一個很重要的一個技術(shù)是VLM,就是視覺語言模型。為什么不是視覺大語言模型?是視覺語言模型是因為我們沒有辦法把一個大模型在云端讓車來使用。因為這個響應(yīng)速度就會車毀人亡了。所以我們還是其實如何把一個世界大語言模型進(jìn)行足夠的壓縮,然后最后能夠放到車上去。它能夠再面對一個沒有紅綠燈的左轉(zhuǎn)路口,提前做出預(yù)判。然后來知道我這個路口如何進(jìn)行特殊的處理,進(jìn)行復(fù)雜的處理。
它還有另外一個重要的功能,就是告別高精地圖,也告別所有的輕圖在內(nèi)的方式。為什么呢?因為視覺的語言模型還有一個最重要的功能,是能夠像人類一樣去讀懂導(dǎo)航地圖。包含導(dǎo)航地圖的橫向縱向速度,然后時間還要包含紅綠燈的,哪怕有車輛的遮擋,其實紅綠燈也不會再成為問題。所以我們會發(fā)現(xiàn)其實可以有效的通過世界語言模型,來解決系統(tǒng)二的問題。一方面為端到端進(jìn)行一個兜底,另外一方面能解決各種各樣的泛化的問題。所以我們就發(fā)現(xiàn)非常有意思。我們的車的AD max有兩個芯片,有兩顆Orin X的芯片,正好一顆Orin X芯片可以跑端到端,另外一顆Orin X芯片可以跑可以來運行。一個壓縮到大概20億規(guī)模的一個VLM的模型。
那整個的結(jié)果,我們的驗證的一個結(jié)果其實是非常興奮的。我們認(rèn)為最早在今年年底,最晚在明年的上半年,真正的這種L3,我對L3的定義是有監(jiān)督的自動駕駛,就可以批量向用戶交付了,而不是只是用于在做實驗。
解決這兩個問題以后,其實還有第三個問題。對,因為端到端是個黑盒子,然后VLM其實也是黑盒子。它跟過去的時候我們在做智能駕駛,做輔助駕駛一個很大的不同是它不再是功能,它是能力。我覺得AI最大的差別是能力。而過去的編程體系最重要的是功能,功能是要通過測試和實驗來驗證的。但是能力一個黑盒子怎么拿測試和實驗來驗證是不可能的。所以這時候的一個新的挑戰(zhàn)就是我們用什么樣的技術(shù)方式來驗證能力。
這時候我們又找到了一個新的一個方式,其實主要的這個原理是來自于Sora,就是我們用Diffusion Transform的方式來構(gòu)建一個重要的一個小型的世界模型,會拿這個世界模型,然后讓我們的車在里邊進(jìn)行考試。所以這么著其實我們模擬人的一套真正的工作原理就開始呈現(xiàn)了。然后端到端來承載人的系統(tǒng)一,然后VLM來承載人的系統(tǒng)二,系統(tǒng)一來解決所有的正常的自動駕駛。這些反應(yīng),這些駕駛的能力,然后系統(tǒng)二來解決兜底和泛化的這種能力,并應(yīng)用生成式的這種小的世界模型來進(jìn)行考試。這是我們在過去的一段時間里,做的最重要的一個技術(shù)性的一個突破。而且我們的研究團(tuán)隊已經(jīng)完全通過了正常的研究的驗證。那接下來的我們會怎么樣呢?
我們會在三季度正式推我們的全國的無圖Noa的時候,也會向我們的測試用戶來推。我們大概通過300萬的clips來訓(xùn)練出來的。剛才的然后端到端加VLM,然后這樣他一套的我認(rèn)為是監(jiān)督型的自動駕駛的體系。我們認(rèn)為其實最早的話會在今年的年底,最晚明年年初,我們會大概推出通過超過1000萬的clips的訓(xùn)練,端到端加VLM的整個的帶有監(jiān)督的自動駕駛的體系。我們認(rèn)為這套VLM加有端到端加VLM,再加這種生成式的驗證系統(tǒng),也會是未來的整個物理世界機(jī)器人最重要的技術(shù)架構(gòu)和技術(shù)體系。在接下來的一段時間里,包含最近本月還有下月的幾個關(guān)鍵的AI方面的技術(shù)論壇里。我們的這個技術(shù)研究的同事也會向整個的行業(yè)來分享我們對這方面的所有的研究。這里邊的原理和實際的結(jié)果,能夠把我們進(jìn)行的一些探索,能夠與同行們進(jìn)行有效的一個分享。
另外一方面就是說我剛才講的,我們會在七月份到最早年底,最晚明年年初,把這樣的技術(shù)帶給真正的用戶。通過這樣的技術(shù),我們可以確定的堅信一件事情,就在現(xiàn)有的計算平臺上,帶有監(jiān)督的L3級別的輔助駕駛,L3級別的自動駕駛是百分之百可以實現(xiàn)的。而且隨著這套技術(shù)的演進(jìn),算力的增強,模型的加大,對我認(rèn)為無監(jiān)督的L4自動駕駛也會在至少三年內(nèi)一定可以實現(xiàn)。
好,謝謝大家。
如果你希望深度交流理想長期基本面,加微信,進(jìn)理想群。不是車友群。
我要收藏
點個贊吧
轉(zhuǎn)發(fā)分享
咨詢詳情:如需咨詢文中涉及的相關(guān)產(chǎn)品或解決方案詳情,請加微信:ZiDongHuaX 。
微信聯(lián)盟:理想汽車微信群、人工智能微信群、機(jī)器人微信群,各細(xì)分行業(yè)微信群:點擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器 查看各品牌在細(xì)分領(lǐng)域的定位宣傳語
微信聯(lián)盟:理想汽車微信群、人工智能微信群、機(jī)器人微信群,各細(xì)分行業(yè)微信群:點擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器 查看各品牌在細(xì)分領(lǐng)域的定位宣傳語


評論排行