關(guān)于ZAKER 合作
      硅星人 昨天

      英偉達(dá) Jim Fan 最新分享:機(jī)器人能通過物理世界的圖靈測試么

      在近日紅杉資本舉辦的 AI Ascent 2025 演講中,NVIDIA 人工智能總監(jiān) Jim Fan 介紹了 " 物理圖靈測試 " 的概念,并解釋了大規(guī)模仿真將如何解鎖機(jī)器人技術(shù)的未來。我們針對其演講內(nèi)容進(jìn)行了梳理,并進(jìn)行了編譯:

      Jim Fan:

      幾天前,我看到一篇博客文章,它引起了我的注意。文章說大模型已經(jīng)通過了圖靈測試,但卻沒人注意到。圖靈測試曾經(jīng)是神圣不可侵犯的,對吧?它是計算機(jī)科學(xué)的圣杯,其理念是,你無法區(qū)分與你對話的是人類還是機(jī)器。

      然后,我們就這么悄無聲息地通過了圖靈測試。但當(dāng)機(jī)器思考的時間多了幾秒鐘,或者云端無法調(diào)試你糟糕的代碼時,人們就會感到不滿。每一次突破都在平淡無奇中度過,就像又一個普通的周二。

      我想提出一個非常簡單的概念,叫做 " 物理圖靈測試 "。設(shè)想一下,周日晚上你舉辦了一場黑客馬拉松派對,周一早上,你想找人收拾這一片狼藉,并且在晚餐時為你點上一支精美的蠟燭讓你的伴侶開心起來。而當(dāng)你回到家時,卻無法分辨這一切是人類還是機(jī)器的杰作。

      這就是簡單的物理圖靈測試。但我們現(xiàn)在進(jìn)展到什么程度了呢?快實現(xiàn)了嗎?看看這個類似的機(jī)器人,準(zhǔn)備去工作,結(jié)果卻沒能做好。再看看機(jī)器狗面對香蕉皮的場景,還有被指令為你制作早餐麥片的機(jī)器人呢?

      它能正確識別牛奶,這一點我給它勉強(qiáng)及格。它的意圖是好的,或者說用勺子的體驗就像是貴賓級的。看看,我都有點嫉妒了,都沒人能給我這樣的體驗。這就是我們目前的現(xiàn)狀。那么,為什么解決物理圖靈測試這么困難呢?

      大家都知道,研究人員經(jīng)常抱怨。最近,有個叫 ilia 的人抱怨說,預(yù)訓(xùn)練的數(shù)據(jù)快用完了。他甚至把互聯(lián)網(wǎng)比作人工智能的 " 化石燃料 ",還說我們用于訓(xùn)練網(wǎng)絡(luò)的數(shù)據(jù)即將耗盡。只要和機(jī)器人專家相處一天,就知道那些深度學(xué)習(xí)研究人員有多 " 嬌慣 " 了。

      我們連 " 化石燃料 " 都沒有。這是在英偉達(dá)總部的咖啡館進(jìn)行的數(shù)據(jù)收集場景。設(shè)置了人形機(jī)器人,通過操作它們來收集數(shù)據(jù)。

      這就是收集到的數(shù)據(jù),機(jī)器人的關(guān)節(jié)控制信號,這些是隨時間變化的連續(xù)值,無法從互聯(lián)網(wǎng)上獲取,在維基百科、YouTube 或其他任何地方都找不到。人們必須自己收集。那要怎么收集的呢?有一種非常復(fù)雜但也很昂貴的方法,叫做 " 遠(yuǎn)程操作 "。讓人戴上虛 VR 頭盔,頭盔能識別手部動作,并將動作信號傳輸給機(jī)器人。

      通過這種方式,人類可以教機(jī)器人做事,比如從烤面包機(jī)里拿出面包,然后在上面淋上蜂蜜。但可以想象,這是一個非常緩慢且痛苦的過程。

      真正的機(jī)器人數(shù)據(jù)是 " 人力燃料 ",而這比化石燃料還糟糕,因為這是在消耗人力。更糟糕的是,每個機(jī)器人每天最多只能運行 24 小時,甚至實際過程中遠(yuǎn)遠(yuǎn)達(dá)不到這個時長,因為人會累,機(jī)器人比人更容易累。

      這就是現(xiàn)狀,那該怎么辦呢?如何突破這個障礙?機(jī)器人領(lǐng)域的 " 核能 " 在哪里?我們需要清潔能源,不能永遠(yuǎn)依賴 " 化石燃料 "。于是,模擬技術(shù)登場了。

      必須離開現(xiàn)實世界,在模擬環(huán)境中做點什么。所以嘗試讓機(jī)器人的手在模擬環(huán)境中完成超越人類靈巧度的任務(wù),比如轉(zhuǎn)筆。對我來說這是超人類的技能,因為我小時候就放棄嘗試轉(zhuǎn)筆了。

      我很高興機(jī)器人至少在模擬環(huán)境中比我做得好。那么如何訓(xùn)練機(jī)器人的手完成這樣復(fù)雜的任務(wù)呢?有兩個思路。第一,模擬速度要比實時快 10000 倍,這意味著在單個 GPU 上并行運行 10000 個物理模擬環(huán)境。這是第一點。第二點是,這 10000 個模擬環(huán)境不能完全相同,必須改變一些參數(shù),比如重力、摩擦力和重量,我們稱之為 " 域隨機(jī)化 "。這就是模擬的原理。

      為什么這樣做有效呢?想象一下,如果一個神經(jīng)網(wǎng)絡(luò)能夠控制機(jī)器人在 100 萬個不同的世界中完成任務(wù),那么它很有可能也能應(yīng)對第 100 萬零一個世界,也就是現(xiàn)實世界。

      換句話說,現(xiàn)實世界是這些訓(xùn)練場景的一部分。那么如何應(yīng)用呢?可以創(chuàng)建一個數(shù)字孿生體,也就是機(jī)器人和現(xiàn)實世界 1:1 的復(fù)制體。然后在訓(xùn)練模擬中進(jìn)行測試,再直接應(yīng)用到現(xiàn)實世界,實現(xiàn)零樣本學(xué)習(xí)。

      可以用手來舉例。這是能完成的最令人印象深刻的任務(wù)之一。比如讓機(jī)器狗站在球上,然后將訓(xùn)練成果應(yīng)用到現(xiàn)實世界。這是在加州大學(xué)伯克利分校(UCB),有人在操控機(jī)器狗行走。研究人員想法很奇特,這場景看起來就像《黑鏡》里的情節(jié)。

      實際上,這被稱為 " 尤里卡博士 " 項目。有個研究人員讓他的機(jī)器狗站在瑜伽球上,至少現(xiàn)在在機(jī)器狗的靈活性方面取得了很大進(jìn)展,不過真正的狗可做不到。接下來,還可以將這種方法應(yīng)用到更復(fù)雜的機(jī)器人上,比如人形機(jī)器人。

      這些人形機(jī)器人通過 2 小時的模擬訓(xùn)練,就掌握了相當(dāng)于現(xiàn)實中 10 年才能學(xué)會的行走技能,并可以將訓(xùn)練成果應(yīng)用到現(xiàn)實中。無論機(jī)器人的形態(tài)如何,只要有機(jī)器人模型,進(jìn)行模擬訓(xùn)練,就可以讓它學(xué)會行走。

      能做的不止是行走,對吧?當(dāng)控制身體時,可以追蹤任何想要追蹤的點、任何關(guān)鍵部位,跟隨任何想要的速度向量。這就是人形機(jī)器人的全身控制問題。

      這非常困難,但可以通過并行運行 10000 個模擬環(huán)境來進(jìn)行訓(xùn)練。將訓(xùn)練成果零樣本、無需微調(diào)地應(yīng)用到現(xiàn)實機(jī)器人上,這是在英偉達(dá)實驗室。實際上,需要放慢視頻播放速度。

      第一個視頻是實時播放的,下一個視頻是放慢后的。可以看到機(jī)器人動作的復(fù)雜性,它在保持平衡的同時做出類似人類的敏捷動作。猜猜完成這些動作需要多大規(guī)模的神經(jīng)網(wǎng)絡(luò)?

      只需要 150 萬個參數(shù),不是幾十億,150 萬個參數(shù)就足以捕捉人體的潛意識處理過程。這個系統(tǒng)的推理過程,150 萬個參數(shù)就夠了。如果將其放在速度與模擬多樣性的圖表中,我認(rèn)為這可以稱為 " 模擬 1.0",也就是數(shù)字孿生范式,它使用經(jīng)典的矢量化物理引擎。

      然后可以將模擬速度提升到每秒 1 萬到 100 萬幀。但問題是,必須創(chuàng)建數(shù)字孿生體,需要有人構(gòu)建機(jī)器人、搭建環(huán)境等等。這非常繁瑣,而且需要大量手工操作。

      能不能開始生成模擬的部分內(nèi)容呢?所有這些 3D 資源都是由 3D 生成模型生成的,所有的紋理來自 Stable Diffusion 或其他擴(kuò)散模型,所有的場景布局由提示詞和語言模型生成,再編寫 XML 將它們整合在一起,構(gòu)建了一個名為 "Robot-CASa" 的框架,這是一個大規(guī)模的合成模擬框架。

      它用于模擬日常任務(wù),除了機(jī)器人,其他內(nèi)容都是生成的。可以組合不同的場景,它仍然依賴經(jīng)典引擎運行,但已經(jīng)可以完成很多任務(wù)。

      現(xiàn)在,可以再次讓人進(jìn)行遠(yuǎn)程操作,但這次是在模擬環(huán)境中,而不是在現(xiàn)實機(jī)器人上。在模擬環(huán)境中重現(xiàn)操作軌跡,并且加入強(qiáng)大的硬件加速光線追蹤技術(shù),讓模擬場景更加逼真。

      甚至可以改變動作。比如在遠(yuǎn)程操作時將杯子從這里移動到那里,不需要反復(fù)演示同樣的動作。綜合這些,在模擬環(huán)境中進(jìn)行一次人類演示,通過環(huán)境生成和動作生成,將數(shù)據(jù)量擴(kuò)展 n 倍,再乘以 n 倍。我保證這是今天需要接觸的唯一數(shù)學(xué)計算。這就是擴(kuò)充數(shù)據(jù)的方法。第一列和第三列是現(xiàn)實機(jī)器人的真實視頻,第二列到第四列是 Robot-CASa 模擬生成的視頻。

      仍然可以看出這些紋理不是真實的,但已經(jīng)足夠接近了。把這種足夠接近的情況稱為什么呢?稱之為 " 數(shù)字表親 " 范式。它不是數(shù)字孿生體,但在一定程度上捕捉到了相似性。這種數(shù)字表親模擬運行速度較慢,但它是一種混合生成物理引擎,生成部分內(nèi)容,然后將其余部分交給經(jīng)典圖形管道處理。

      現(xiàn)在,模擬包含軟體、流體等各種元素的場景,對于藝術(shù)家或圖形工程師來說,要正確模擬這樣的場景需要很長時間。看看圖形技術(shù)的發(fā)展歷程,從早期到現(xiàn)在花了 30 年時間。

      而視頻聯(lián)合模型只用了 1 年時間,就實現(xiàn)了從模擬簡單物體到模擬可變形物體(比如面條)的跨越。這里可能少了點趣味性,但這是我愿意付出的代價。對于最新的 Sora 等策略模型,也只用了 1 年時間,這就是規(guī)模擴(kuò)展和數(shù)據(jù)驅(qū)動過程的力量。

      還記得一開始給你們看的視頻嗎?這個視頻里沒有一個真實像素,它完全是由定制模型生成的。使用一個通用的開源 VR 視頻生成模型,在現(xiàn)實機(jī)器人實驗室收集的領(lǐng)域數(shù)據(jù)上進(jìn)行微調(diào),然后生成了這些內(nèi)容。現(xiàn)在,可以通過提示詞讓模型想象不同的未來場景,模擬反事實情況。看,這兩幀畫面原本完全相同,但根據(jù)不同的語言提示,生成的視頻會做出正確的反應(yīng)。

      即使這些動作在現(xiàn)實世界中從未發(fā)生過,也能實現(xiàn)。視頻擴(kuò)散模型并不在乎場景有多復(fù)雜,也不在乎是否有流體或軟體。

      同樣地,可以讓它拿起不同的東西,它會用正確的手抓取物體并放入籃子里。這些都是生成的,沒有一個像素是真實的。它還能正確模擬出各種反射效果,對吧?

      所有這些交互效果都能正確模擬。我最喜歡的一個場景是機(jī)器人在那邊彈尤克里里。基本上,視頻模型可能看過數(shù)百萬人類彈尤克里里的畫面,然后它就能模擬機(jī)器人的手指做出相應(yīng)動作,即使硬件實際上并不支持。視頻生成模型就能做到這一點。從這個角度來看,這就是 " 模擬 2.0"。

      它具有很高的多樣性,但目前運行速度可能較慢。沒人給它起名字,但我叫它 " 數(shù)字游牧民 ",它就像是在視頻擴(kuò)散模型的夢幻空間里漫游。

      什么是視頻擴(kuò)散模型呢?它就像是將數(shù)億個互聯(lián)網(wǎng)視頻壓縮成一個多元宇宙的模擬場景。很神奇,對吧?在這個夢幻空間里創(chuàng)建機(jī)器人,機(jī)器人現(xiàn)在可以與任何地方的物體進(jìn)行交互,無處不在,無所不能。

      詹森之前離開了,但我覺得他會很喜歡這個。要擴(kuò)展經(jīng)典模擬,需要大量的計算資源,這也是 1.x 系列的情況。問題是,隨著規(guī)模的擴(kuò)大,它會遇到瓶頸,因為手工制作的系統(tǒng)在多樣性方面存在限制。

      而神經(jīng)世界模型,也就是模擬 2.0,將隨著計算資源呈指數(shù)級擴(kuò)展。這就是神經(jīng)網(wǎng)絡(luò)超越經(jīng)典圖形工程師的地方。兩者相加,將成為擴(kuò)展下一代機(jī)器人系統(tǒng)的 " 核能 "。

      那些一開始就說計算機(jī)狀況會改善而不是惡化的人,把這句話刻在視網(wǎng)膜上,再好好想想吧。把所有這些數(shù)據(jù)輸入到所說的視覺語言動作模型中,這個模型輸入像素和指令,輸出電機(jī)控制信號。

      在 3 月英偉達(dá) GTC 大會約翰遜(Johnson)的主題演講中開源了一個名為 Groot 的模型。在機(jī)器人上運行這個模型,有時候會有很神奇的效果。無法想象在訓(xùn)練過程中清理了多少數(shù)據(jù)。它能夠完美地拿起香檳,做得非常好。

      它還能完成一些工業(yè)任務(wù),比如拿起工廠里的物品,也能實現(xiàn)多機(jī)器人協(xié)作。Groot 模型是完全開源的,實際上,未來的一系列模型也將開源,因為遵循約翰遜的開源理念,致力于讓物理人工智能更加普及。

      那么接下來呢?在看到物理人工智能的發(fā)展后,下一步是什么?我認(rèn)為是物理 API。縱觀人類歷史,5000 年來,我們擁有了更好的工具,社會也在整體上有了很大進(jìn)步。但做晚餐以及進(jìn)行很多手工勞動的方式,從埃及時代到現(xiàn)在,或多或少都沒有太大變化。

      在人類歷史的 99% 時間里,一直遵循這樣的模式:從原材料出發(fā),通過人類勞動構(gòu)建文明。而在過去的 1%,也就是大約 50 年里,人類勞動占比逐漸減少,出現(xiàn)了高度專業(yè)化、高度復(fù)雜的機(jī)器人系統(tǒng),它們一次只能完成一項任務(wù)。

      編程成本非常高,但它們?nèi)匀辉谏鐣邪l(fā)揮著作用。這就是現(xiàn)狀。未來是要把代表機(jī)器人勞動占比的區(qū)域擴(kuò)展到各個領(lǐng)域,就像語言模型 API(LLM API)處理數(shù)字和比特一樣,物理 API 將處理原子。

      基本上可以給軟件配備物理執(zhí)行器,讓它改變物理世界。在物理 API 之上,將會出現(xiàn)新的經(jīng)濟(jì)模式和新的范式,比如物理提示。如何指令這些機(jī)器人?如何訓(xùn)練它們?

      有時候語言是不夠的。還會有物理應(yīng)用商店和技能經(jīng)濟(jì)。比如說,米其林星級廚師不必每天都去廚房,他可以訓(xùn)練機(jī)器人,然后將提供米其林星級晚餐作為一種服務(wù)。再引用一次約翰遜的話:未來,一切可移動的物體都將實現(xiàn)自動化。

      有一天,回到家,會看到干凈的沙發(fā)和點著蠟燭的晚餐,伴侶會微笑著迎接,而不是因為沒洗衣服而大喊大叫,這一點每天都激勵著我。上個月買了兩個人形機(jī)器人,它們運行良好。

      這些機(jī)器人就像環(huán)境智能一樣融入背景,甚至不會注意到通過物理圖靈測試的那一刻。而那一天,也只會被當(dāng)作又一個普通的周二被人們記住。謝謝大家。

      相關(guān)標(biāo)簽

      相關(guān)閱讀

      最新評論

      沒有更多評論了
      硅星人

      硅星人

      硅是創(chuàng)造未來的基礎(chǔ),歡迎登陸硅星球。

      訂閱

      覺得文章不錯,微信掃描分享好友

      掃碼分享
      主站蜘蛛池模板: 国产午夜福利精品一区二区三区 | 视频一区二区三区免费观看 | 精品永久久福利一区二区| 国精无码欧精品亚洲一区| 日韩高清一区二区三区不卡| 久久一区不卡中文字幕| 国产成人无码aa精品一区| 亚洲AV成人精品一区二区三区| 国产亚洲一区二区三区在线不卡| 国产乱子伦一区二区三区| 日韩三级一区二区| 麻豆果冻传媒2021精品传媒一区下载 | 免费播放一区二区三区| 精品免费久久久久国产一区 | 精品无码一区二区三区在线| 日本一区二区不卡视频| 国产精品一区二区av不卡| 日本一区二区三区在线网| 国产精品资源一区二区| 久久一区二区三区精华液使用方法| 国产亚洲自拍一区| 丰满爆乳一区二区三区| 国产品无码一区二区三区在线蜜桃 | 亚洲国产av一区二区三区丶| 国产自产V一区二区三区C| 亚洲综合无码AV一区二区| 国产一在线精品一区在线观看| 日韩AV在线不卡一区二区三区| 一区二区视频在线免费观看| 三级韩国一区久久二区综合| 亚洲国产激情一区二区三区| 亚洲第一区在线观看| 国产在线精品一区二区夜色| 国产一区二区内射最近更新| 亚洲AV无码第一区二区三区| 精品国产一区二区三区久久久狼| 精品一区高潮喷吹在线播放| 无码人妻aⅴ一区二区三区| 精品女同一区二区三区在线| 亚洲视频一区二区| 文中字幕一区二区三区视频播放|