姜大昕和階躍星辰也是有野心的。
只不過這些野望藏在姜大昕習慣性追求 " 邏輯嚴謹 " 的表述里,不易察覺。而階躍星辰追求各個模態各種模型都不能錯過的技術布局,更讓這家公司此前在外界看來有點若隱若現。
事實上這家剛剛成立兩年的大模型公司,已發布了 22 款自研基座模型,從文字、圖像、到視頻、語音,以及音樂和推理等,且大多數為多模態模型。
5 月 8 日,階躍星辰創始人和 CEO 姜大昕在階躍星辰北京辦公室分享了他最近的思考和階躍的研發更新。在他的 PPT 里,他把階躍的模型分成兩類,語言 & 推理,以及多模態。他稱其為階躍的 Step 系列模型矩陣。
但這樣的全面有時候對圍觀者來說意味著重點模糊。在一個所有人為 AI 焦慮的時期,缺少某一個 " 爆款 " 的模型,會讓圍觀的人們無法集中注意力。在姜大昕和階躍內部的判斷,這是他們從技術路線發展和行業現狀出發從第一天主動選擇的路線。在 DeepSeek 前后,許多 AI 公司大幅度掉頭,有的從應用轉回預訓練,然后在 " 預訓練撞墻 " 論流行后,許多公司又紛紛放棄預訓練,而階躍則基本上一直在把重心放在基礎模型側。
" 追求智能的上限,我們認為這仍然是當下最重要的一件事。我們還是堅持基礎大模型的研發。" 他說。階躍在最近還調整了此前推出的類 ChatGPT 的產品,姜大昕認為,這些是過渡期的一些嘗試,而 "DeepSeek 給我們的經驗就是,投流的邏輯實際上(對 AI 的 c 端產品來說)是不成立的 "。
聽姜大昕分享,你會感覺即便是今天教授創業成風的 AI 領域,他也比其他人更像一個教授,追求一環又一環的邏輯推演。這種思考方式的一個典型表現是,他習慣于向 AI 的歷史演變里找答案,非常在意做一件事背后路線的判斷,會花很多時間尋找 " 主流的技術脈絡和共性的規律 "。
在他看來," 模型的發展是沿著這樣一條智能演進的路線往前進化的:模擬世界、探索世界、歸納世界。"
他認為今天正在發生的 " 大勢 " 有兩個,一個已經完成,就是 " 推理模型從一個趨勢變成了一個范式,現在語言模型基本上是推理模型一統天下。"
而另一個還沒有統一答案的重要課題,則是多模態理解生成的一體化。其實更具體來說,在這個階段就是視覺領域的理解生成一體化。
" 什么叫做理解生成一體化,它的定義是理解和生成是用一個模型來完成。" 他說。文本模型諸如 ChatGPT 已經完成理解生成一體化,但視覺領域沒有。
" 即使是對圖片,我們理解的時候用的是 GPT-4o 這樣的模型,或者是在階躍是用的 Step-1o。那么生成又換了其他的模型,比如說用 Flux、用 Stable Diffusion,階躍是用 Step image 這樣的模型。它是分開的。"
為什么一定要做理解生成一體化?姜大昕認為,簡單說就是 " 生成需要理解來控制,理解需要生成來監督 "。
但與語言模型不同,多模態的復雜度要高出很多。
" 所以在視覺領域我們還沒有一個很好的、很高效地表達這么一個連續的高維的連續空間的生成問題,所以我們只好理解的時候用了一個 auto-regression Model 是自回歸模型,生成的時候還得依賴 diffusion Model。"
為了解決這個視覺領域的 " 靈魂拷問 ",目前有兩種主要方法,一是嘗試把這些高維的連續分布變成一個離散的像語言 token 的東西,但這個過程信息就丟失了," 從來沒有成功過 "。第二種就是把 auto-regression 的架構和 diffusion 的架構合在一起,但 " 也沒有做得很成功 "。姜大昕認為這個問題目前還在探索的階段。
" 你們的路線是什么?" 我在交流現場問姜大昕。
" 我可以說內部有多條技術路線,因為確實是不知道(哪個是最終的)。不謙虛地說,我們的技術人才儲備是很雄厚的,可以說大家是各執己見,我的意思就是你做出來才算,誰都可以做,所以是有多條路線在并發。"
這很容易讓人想到互聯網公司常用的賽馬機制,而這種機制背后某種程度往往也是人才的積累之爭。
這名前微軟全球副總裁創業后,ResNet 作者之一的張祥雨、AI Infra 專家朱亦博也先后加入階躍。去年 12 月,階躍星辰再次完成 B 輪數億美元融資。多個開源模型在開源社區獲得了不錯的反響。
這些是姜大昕的底氣。
而在他看來,視覺模型的一體化目前甚至還沒有到 "Transformer 時刻 ",今天依然沒有這個最合適的能規模化的架構,他形容目前很多方案是 " 膠水模型 ",把多個模型拼湊起來的思路不會是最終的形態。而階躍希望自己能成為創造出視頻的 Transformer 的那一個,要做到這一點,他給階躍設計的路線,就是成為多模態的卷王。
而在和大家聊了兩個小時后,姜大昕終于難得地透露出了野心。
" 我們強調技術領先性,探索的是下一代領先的一體化模型,我們試圖在基礎模型上有代際的(領先),是代際的往前走。"
以下為姜大昕對話實錄,經簡單編輯。
硅星人:你剛才提到了視覺的理解生成一體化的兩種路線,而且效果似乎都不太好,階躍的路線是什么?
姜大昕:我可以說內部有多條技術路線,因為確實是不知道(哪個是最終的)。不謙虛地說,我們的技術人才儲備是很雄厚的,可以說大家是各執己見,我的意思就是你做出來才算,誰都可以做,所以是有多條路線在并發。
硅星人:你提到現在還沒到 GPT-4 的時刻,還是等待 Transformer 的階段,那么你們是要做發明 Transformer 的,還是等其他人發明后,你是做那個 GPT4 和 ChatGPT 的。
姜大昕:那肯定是做出 Transformer 。
硅星人:那今天回頭看 OpenAI,大家會感嘆 Ilya 像天才一樣早早認定了一個路線,但聽你的分享,目前視覺還不是這樣,還是多條路線。
姜大昕:我覺得 OpenAI 當時在 Transformer 出來之前肯定是有多條路線的。核心就是怎么把 language model 做成 scalable 的架構。當時包括 LSTM,GRU,各種各樣的架構,直到最后 Transformer 出來是大家認了,現在就相當于有人在探索 LSTM,有人探索 GRU,最后要出來一個大家都認的路線。
硅星人:繼續問的話,當初 Transformer 出來后," 認 " 它就是最終路線的人,決策的快慢也是不同的,最后也影響今天的格局,這還會再來一次么?
姜大昕:非常有意思,就是 17 年出來之后 ,Transformer 一統天下的不是 GPT,是 Bert。如果大家都在關注也知道,那時候的標題都是什么霸榜橫掃,當時做自然語言處理的話,就是 Bert 是吊打 GPT 的,而且 GPT 比 Bert 早出來幾個月。但 Ilya 有執念,他堅決認為沒有生成談不上理解,理解能力都是 fake 的,只是一種模式的 translation。但是從實際效果來說,我當時在做搜索,Bert 確實好很多,甚至 GPT3 出來我們很佩服,但效果還是不好。直到 ChatGPT 出來,大家知道原來可以這樣做。
但這些語言模型發生過一遍的事情,整個邏輯的推進不用在視覺再來一遍。大家輕車熟路,就等著那個 Transformer 什么時候出來,只要這一關突破了,后面就順利很多,不需要像語言模型那樣再從 Bert 到 GPT 到 ChatGPT 探索一次。
提問:人們此前在視覺領域最關注 Sora,現在看起來它不是 Transformer 級別的,那我們要怎么判斷 OpenAI 或者誰做到了。
姜大昕:有一天我看到它能 predict the next frame,如果哪天 OpenAI 說推出了不叫 Sora 的一個視頻生成模型(就有希望)。
其實去年大家對 Sora 感到興奮的時候,我們非常失望。我們認為主線是理解生成一體化,但 Sora 沒有在這個路線走,走彎了。不過后來我們去想也有道理,一步走到太難了,所以要兩個獨立往前走,互相鋪墊,左腳踩右腳,比如 Sora 提到用 GPT4o 給數據打標,可能迭代幾輪會有不同。但總的路線是一體化,這個不解決,后面都不行。
姜大昕:我覺得首先就是它能夠無限地去生成,比如給它一個電影的開頭,它能夠一直往下編編編編編,而且大家覺得還挺有道理的。如果他能一直這樣做下去,而且 consistent,要符合邏輯,符合物理規律。比如 10 分鐘的影片,它能一直往下走,而且合情合理,那我覺得就做到了。
問:階躍被稱為多模態卷王,不停發布模型,這背后是因為到了能發布的階段,還是因為有 KPI?
姜大昕:首先我認同多模態卷王這個名字。
那么為什么在外界看來我們是一個月就會發布一個模型?其實你如果仔細看那些模型,它是在不同線上,因為我們的布局特別完整,有聲音、有圖像,音樂模型,還包括語言,推理。其實每條戰線都是經過了幾個月甚至半年這樣一個積累,但如果你同時看眾多戰線的話,你就覺得一兩個月就有一個。
問:那如果說我們希望最終做出理解生成一體化的話,為什么我們不把所有的力量都集中去做它?
姜大昕:非常好的問題。我們也想這樣做,但是不行。它是一個非常綜合素質的一個考驗。首先你要有一個非常 Solid 的語言模型,它現在已經進化到推理模型。然后要有視覺推理,是視覺理解的升級。然后還有生成端。
所以不是我們不夠 focus,而是要做這件事就是需要非常綜合的才能做的出來。所以這也是我們的一個長項,因為我們所有的線能力都非常強,可以組合起來去探索。
提問:行業各種轉變,你們為什么一直堅持預訓練自研模型?
姜大昕:我覺得現在行業趨勢還是一個技術路線非常陡峭的趨勢。曾經震撼大家的 GPT4,已經要下架了,Sora 大家今天覺得有什么神奇,o3 現在做的事情,可能明年又覺得沒什么。技術發展還是非常非常快,我們不愿意在這個過程缺席,放棄這個技術增長的機會。我們會堅持基礎模型的研發。
今天的格局里,我們是綜合型的,不是專注在 AIGC 這種的,我們不太一樣,不是專門做一個模態或者生成。我們強調技術領先性,探索的是下一代領先的一體化模型,我們試圖在基礎模型上有代際的(領先),是代際的往前走。