當(dāng) ChatGPT 在 2022 年橫空出世,大模型技術(shù)掀起全球科技浪潮時,它開始改變了人工智能,慢慢又改變了語音對話,它進一步地試探進入到了交互領(lǐng)域,但很少有人能預(yù)見到,僅僅三年后,這股 AI 革命浪潮會深刻地改變汽車行業(yè)。
這場關(guān)乎智能汽車的革命浪潮以一種名為 VLA 的技術(shù)展開,也是以一種 "Agent" 的方式。
如果你關(guān)注智能輔助駕駛行業(yè),應(yīng)該了解這兩年的熱詞 " 端到端 "。
關(guān)于 VLA,全名則為 Vision-Language-Action,作為視覺 - 語言 - 行為三位一體的大模型架構(gòu),不少業(yè)內(nèi)人士將 VLA 技術(shù)視為當(dāng)下 " 端到端 " 方案的進階版本——它將空間智能、語言智能和行為智能統(tǒng)一在一個模型里,由此它也擁有更高的場景推理能力與泛化能力。
簡而言之,有 VLA 賦能的車不再只是一個駕駛工具,而是一個能與用戶溝通、理解用戶意圖的智能體,通過語言模型和邏輯推理結(jié)合在一起之后,它能夠成為一個聽得懂、看得見、找得到,真正意義上的 " 司機 Agent"。
自動駕駛技術(shù)正在經(jīng)歷的一場靜悄悄但深刻的范式轉(zhuǎn)移:從規(guī)則驅(qū)動向?qū)W習(xí)驅(qū)動,從分布式感知 - 決策 - 控制向端到端一體化架構(gòu),再到今天 VLA 的多模態(tài)融合統(tǒng)一建模。技術(shù)不再只是模塊疊加的堆棧,也不再滿足于 " 看得見 " 和 " 聽得懂 ",而是要求 AI 真正 " 行動起來 "。" 司機 Agent" 也擁有像人類司機一樣理解環(huán)境、做出判斷并立即執(zhí)行的能力——成為像人一樣在復(fù)雜世界中感知、理解、推理和行動的整體智能體。
放眼硅谷到北京,大洋彼岸的 Waymo 到理想,在這種多模態(tài)模型與機器人框架的技術(shù)趨勢中,理想汽車成為了中國車企中走在最前面的一位踐行者。
在 2025 理想 AI Talk 第二季活動上,理想汽車董事長兼 CEO 李想聚焦理想汽車最新推出的 VLA 司機大模型,不僅展示了 " 司機 Agent",更通過他本人對 AI 與人性的深度思考,勾勒出了智能汽車發(fā)展的新范式——
AI 不應(yīng)該是簡單地將 " 汽車智能化 ",而是真正實現(xiàn) " 人工智能的汽車化 "。
從 NOA 到 VLA,理想為何要實現(xiàn) AI 三段跳?
理想并非是突然轉(zhuǎn)向 VLA 的。在此之前,也經(jīng)歷了充足的技術(shù)積累。
實話說,李想此前在第一季 AI Talk 上首次提出公司未來是一家領(lǐng)先的人工智能企業(yè)的時候,很多人可能并沒有 get 到他在表達什么。
但如果你觀摩了理想這連續(xù)的兩季 AI Talk 活動,大概能看出這家公司是如何奔向 " 連接物理世界和數(shù)字世界,成為全球領(lǐng)先的人工智能企業(yè) " 企業(yè)愿景的。
在第一季 AI Talk 活動中,理想展示出了技術(shù)路徑其一:將公司汽車的銷量擠到中國市場的領(lǐng)先地位,賣出年銷量 50 萬輛的汽車,在車上全部部署上端到端技術(shù)、Mind GPT,隨后 Mind GPT 經(jīng)過 1.0/2.0,然后到 3o 多模態(tài)智能體的迭代后,理想決定推出理想同學(xué) App,讓這個語音助手觸及到更多的人。
第二季 AI Talk 活動中,理想回顧了在輔助駕駛領(lǐng)域的發(fā)展歷程,我們也可以清晰地看到一條從量變到質(zhì)變的技術(shù)演進路線:2023 年年底,全場景 NOA 的推送標志著理想輔助駕駛從高速向城市場景的延展,為用戶帶來了更全面的智能輔助駕駛體驗。而 2024 年 7 月 15 日推送的無圖 NOA 功能,則首次實現(xiàn)了對先驗信息依賴的突破,讓車輛能夠在沒有高精度地圖的情況下依然保持良好的駕駛表現(xiàn)。
2025 年 3 月 18 日,理想汽車正式發(fā)布下一代自動駕駛架構(gòu) VLA。這在業(yè)內(nèi)算是一次質(zhì)的飛躍——當(dāng)眾多汽車品牌仍在為 L2 級輔助駕駛技術(shù)優(yōu)化細節(jié)時,理想汽車卻完成了一場田徑運動中的 " 三級跳 ",通過層層遞進取得成績,理想汽車的智能駕駛技術(shù)經(jīng)歷了從規(guī)則算法、到無圖 NOA、再到端到端 +VLM,最終邁向 VLA 司機大模型的 " 三段 " 進化。
如果從結(jié)果來驗證這其中的規(guī)律:從無圖 NOA 到端到端 +VLM,再到 VLA 司機大模型,每一步都至關(guān)重要,且每一階段都是不可跨越。
比如 NOA 這一階段的核心在于感知能力和環(huán)境適應(yīng)性的提升,是連接規(guī)則算法和端到端模型的關(guān)鍵橋梁。
第二階段端到端 +VLM 功能,標志著從規(guī)則驅(qū)動向數(shù)據(jù)驅(qū)動的根本轉(zhuǎn)變。
前兩個階段的技術(shù)沉淀,解決了兩個問題:一是前期沒有足夠的數(shù)據(jù)支撐模型訓(xùn)練;二是缺乏規(guī)則約束導(dǎo)致的安全風(fēng)險。
汽車駕駛不同于簡單的互聯(lián)網(wǎng)應(yīng)用,它直接關(guān)系到用戶的生命安全,需要在實際道路環(huán)境中反復(fù)驗證和迭代。
如果沒有通過前期收集的大量實際道路數(shù)據(jù)和規(guī)則算法的約束,成功訓(xùn)練出了穩(wěn)定可靠的端到端模型,并將其與 VLM 視覺語言模型結(jié)合,就無法初步實現(xiàn)了系統(tǒng)對環(huán)境的 " 理解 ",只是簡單的 " 識別 "。
從一定程度上來說,VLA 技術(shù)的成功離不開中國本土 AI 市場的崛起。
另外,也正如 DeepSeek 在大模型領(lǐng)域的發(fā)展路徑所示,從構(gòu)建集群能力到基建、鏈路的優(yōu)化,通過這些前期的積累,才能實現(xiàn)低成本和高效率的 AI 應(yīng)用。DeepSeek 不可能一步到位構(gòu)建出強大的大語言模型,而是經(jīng)歷了從基礎(chǔ)算法研究、數(shù)據(jù)收集清洗、模型架構(gòu)優(yōu)化到最終產(chǎn)品落地的完整過程。
李想也在活動上強調(diào):" 如果規(guī)則算法都做不好,根本不知道怎么去做端到端;如果端到端沒有做到一個極致的水平,那連 VLA 怎么訓(xùn)練都無從談起。" 這也再次證明,這個過程中沒有捷徑可走,每一步都是通往下一步的必要鋪墊。
司機 Agent,VLA 的實力
說了這么多,VLA 到底可以實現(xiàn)什么樣的功能?
前面提到,VLA(Vision-Language-Action)是視覺 - 語言 - 行為大模型,代表著機器人大模型的新范式。它將空間智能、語言智能和行為智能統(tǒng)一在一個模型中,賦予了系統(tǒng)強大的 3D 空間理解能力、邏輯推理能力和行為生成能力,讓自動駕駛系統(tǒng)真正具備感知、思考和適應(yīng)環(huán)境的能力。
在理想最新公布的 demo 視頻里,理想的這個 " 司機 Agent" 展示了其 " 能聽懂人話 " 且 " 直接執(zhí)行 " 的智能輔助駕駛能力:
從技術(shù)原理上看,前文提到的端到端 +VLM 的階段,VLA 并非簡單地將端到端模型和 VLM 模型結(jié)合在一起,而是所有模塊的全新設(shè)計與整合。
我們嘗試簡單類比解讀一下:
視覺智能(Vision):就像人類駕駛員通過眼睛觀察道路情況,VLA 通過車載攝像頭和傳感器 " 看見 " 周圍環(huán)境。但不同于傳統(tǒng)系統(tǒng)只是識別物體,VLA 能夠理解場景的語義和空間關(guān)系。這就像是從 " 我看到一個紅色物體 " 升級到 " 我明白這是一個紅燈,需要停車,而且它位于前方十米處的十字路口 "。
語言智能(Language):如果說視覺智能是 VLA 的 " 眼睛 ",那么語言智能就是它的 " 大腦 "。通過強大的語言理解和推理能力,VLA 可以處理復(fù)雜的人類指令,理解上下文,并將視覺信息與語言知識融合。比如當(dāng)你說 " 在前面路口掉頭 " 時,VLA 不僅能識別出 " 路口 " 這個概念,還能將它與視覺中看到的道路匹配,理解 " 前面 " 這個相對位置,并執(zhí)行適當(dāng)?shù)耐\嚥僮鳌?/p>
行為智能(Action):這是 VLA 最與眾不同的部分,它不只是理解,還能采取行動。VLA 將對環(huán)境的理解轉(zhuǎn)化為精確的駕駛決策,生成平滑、自然的駕駛軌跡。這就像一個經(jīng)驗豐富的司機,不僅知道何時轉(zhuǎn)彎,還知道如何以合適的速度和角度完成轉(zhuǎn)彎,使乘客感到舒適。
相對直觀地理解 VLA 的工作原理,可以盡可能地將其想象成一個高效的駕駛決策鏈條。
多模態(tài)協(xié)同效率問題可以理解為:之前的雙模型架構(gòu)就像兩個專家各自獨立工作——一個負責(zé)開車,一個負責(zé)理解指令,溝通效率低下。兩個模型工作頻率不同,聯(lián)合訓(xùn)練和優(yōu)化困難。想象一下兩個人合開一輛車,一個人負責(zé)方向盤,一個人負責(zé)油門和剎車,卻無法流暢溝通,這顯然會導(dǎo)致駕駛不協(xié)調(diào)。VLA 則將這兩位專家的能力整合在一個大腦中,實現(xiàn)了無縫協(xié)作。
物理世界建模能力不足則更像是:基于千問等大模型的 VLM 雖然在互聯(lián)網(wǎng) 2D 圖文數(shù)據(jù)上訓(xùn)練充分,但對于 3D 世界的理解和專業(yè)駕駛知識存在短板。就像一個在模擬器上學(xué)習(xí)駕駛的人,缺乏真實道路的立體感和空間認知。VLA 通過專門的 3D 空間編碼技術(shù)和大量真實駕駛數(shù)據(jù)訓(xùn)練,彌補了這一不足。
從視頻上的效果來看,VLA 能夠更好的處理人類駕駛行為的多模態(tài)性,可以適應(yīng)更多駕駛風(fēng)格。
這也是前文所提到的,語言模型和邏輯推理結(jié)合在一起之后,它能夠成為一個聽得懂、看得見、找得到,真正意義上的 " 司機 Agent"。
" 類似人和代駕的關(guān)系,人們怎么和代駕說,就怎么和司機 Agent 說。"
理想率先駛?cè)霟o人區(qū)
很明顯,VLA 技術(shù)的突破,在汽車座艙和車輛駕駛層面進行了結(jié)合,也拉高了智能輔助駕駛系統(tǒng)的上限。
李想將智能輔助駕駛拆解成了三個發(fā)展階段,用自然界中不同的物種進行了形象的比喻:
第一階段,昆蟲動物智能。通過機器學(xué)習(xí)感知配合規(guī)則算法的分段式輔助駕駛解決方案,需要有既定的規(guī)則,同時依賴高精地圖,類似螞蟻的行動和完成任務(wù)的方式。
第二階段,哺乳動物智能。端到端階段通過大模型學(xué)習(xí)人類駕駛行為(類似馬戲團的動物),但其對物理世界的理解并不充分,此階段通過三維圖像判斷自身速度和軌跡以及在空間中所處的位置,足以應(yīng)對大部分泛化場景,但很難解決從未遇到過或特別復(fù)雜的問題,此時需要配合視覺語言 VLM 模型,但現(xiàn)有視覺語言模型在應(yīng)對復(fù)雜交通環(huán)境時只能起到輔助作用。
第三階段,人類智能。VLA 階段可以實現(xiàn)類似人類觀察世界的方式,利用 3D 視覺和 2D 的組合構(gòu)建更真實的物理世界,VLA 擁有自己的腦系統(tǒng),進一步理解物理世界,還具備語言和思維鏈系統(tǒng),也就是 VLA 的司機大模型。
這同時也對應(yīng)著李想本人對于 AI 工具的分級制度——信息工具、輔助工具和生產(chǎn)工具," 我覺得人工智能變成生產(chǎn)工具,然后才是真正人工智能爆發(fā)的時刻。"
從人工智能行業(yè)來看,VLA 是 " 機器人模型 " 的一種,是 Physical AI 的原型。在 ChatGPT、Gemini 等數(shù)字智能代表主導(dǎo)的軟件智能浪潮之后,AI 的下一個風(fēng)口毫無疑問將是物理智能。汽車,作為最復(fù)雜的物理空間智能終端,是理想選擇的主要切入口。一旦 VLA 模式在車上跑通,空間智能 + 語言智能 + 行為智能三者的融合,一定程度也將為其他領(lǐng)域的機器人模型打下范式基礎(chǔ)。
OpenAI、DeepSeek 等大模型公司雖強,但他們并未真正涉足汽車領(lǐng)域的空間智能與行為建模,更沒有語料、數(shù)據(jù)和場景去覆蓋家庭用戶與真實路況的多樣性。正因如此,理想選擇了自己下場,打造自己的基座模型。實打?qū)嵉刂v,Language 層上借助 DeepSeek,但空間智能和行為智能部分也得靠自己一步步打磨,嘗試建立閉環(huán)能力的雛形。
" 交通工具 " 能否能成 " 空間機器人 " 尚未可知,但司機智能體確實是人工智能汽車化的無人區(qū)。
這場變革,不只是理想的突破,更是 AI 進化的必然。
正如手機并非因通話而被重新定義,而是因其成為 " 數(shù)字生活中樞 " 才改變了世界——今天的汽車,也將在 VLA 的驅(qū)動下,從 " 移動交通工具 " 進化為 " 移動智能空間 ",成為 AI 與人的共生載體。
而這條從端到端走向 VLA 的進化之路,或許才剛剛開始。