AI 是否進(jìn)入下半場或許還有爭議,但大模型進(jìn)入淘汰賽已經(jīng)板上釘釘。
在 DeepSeek R1 橫空出世后更是愈演愈烈,今年光是 OpenAI、Anthropic、Google、Meta、Grok 目前已經(jīng)合計(jì)發(fā)了至少 8 款新模型,而國內(nèi)的 AI 六小龍們也有的開始放棄預(yù)訓(xùn)練,將 AGI 的理想主義束之高閣。
在這當(dāng)中,階躍星辰是一家有點(diǎn)特殊的公司。在去年年底之前都鮮有融資消息,但卻在多模態(tài)模型上成為「卷王」,成 2 年已經(jīng)發(fā)布了 22 款研基座模型,成為最低調(diào)神秘的 AI 獨(dú)角獸。
階躍星辰創(chuàng)始人兼 CEO 的姜大昕,和這家公司一樣低調(diào),很少出現(xiàn)在 AI 行業(yè)熱鬧的輿論場中。
而昨天,姜大昕與 APPSO 等媒體進(jìn)行一場深度的溝通會,他向我們分享對于 AGI 路徑,多模態(tài)模型等技術(shù)的看法,以及階躍星辰未來的計(jì)劃。
當(dāng)下 AI 大模型領(lǐng)域的內(nèi)卷沒有盡頭,頭部公司之間不斷上演著「貼臉發(fā)布」的激烈戲碼。
不過姜大昕依然認(rèn)為,「追求智能的上限依舊是現(xiàn)階段 AI 業(yè)內(nèi)的重點(diǎn)。」也就是說,雖然現(xiàn)在市面上模型一大堆,看起來都挺能打,但離真正的「聰明」還差得遠(yuǎn)。
大家都在搶發(fā)新模型,看著熱鬧,但如果只是在現(xiàn)有水平上修修補(bǔ)補(bǔ),那也只是原地踏步的「內(nèi)卷」。
姜大昕覺得,現(xiàn)在最要緊的還是得想辦法把 AI 的「智商」往上再拔一拔,不然離大家心心念念的 AGI(通用人工智能)還遠(yuǎn)著呢。
AI 行業(yè)的技術(shù)發(fā)展非常快,依然處于非常陡峭的區(qū)間。階躍不想在這個過程中放棄主流增長或前進(jìn)的趨勢,所以我們還是會堅(jiān)持做基礎(chǔ)模型的研發(fā)。
同時姜大昕表示,應(yīng)用和模型是相輔相成的,模型可以決定應(yīng)用的上限,應(yīng)用給模型提供具體的應(yīng)用場景和數(shù)據(jù)。
那怎么才能讓 AI 更聰明?姜大昕給出的一個關(guān)鍵路徑是:「多模態(tài)正是實(shí)現(xiàn) AGI 的必經(jīng)之路。」
很多人說今年的 Agent 元年,姜大昕認(rèn)為 Agent 爆發(fā)需要兩個必要的條件,一個是多模態(tài)的能力,另外一個是慢思考的能力。
多模態(tài),說白了就是讓 AI 不光能看懂文字,還得能看圖、聽聲、理解視頻。
你想想人不就是眼耳口鼻一塊兒上,才能全面理解這個世界嘛。AI 也得這樣,變成一個能聽、能看、能說的「多面手」。
不過,姜大昕也挺實(shí)在,他坦陳「多模態(tài)模型領(lǐng)域目前還沒有出現(xiàn) GPT-4 時刻。」
雖然多模態(tài)現(xiàn)在挺火,各家都在推,但還沒出那種像 GPT-4 在文字領(lǐng)域那樣,一出來就「哇哦」一下,讓所有人都覺得「就是它了」的標(biāo)桿性產(chǎn)品,技術(shù)上還有不少硬骨頭要啃。
AI 升級打怪三部曲
對于模型如何一步步逼近智能的上限,姜大昕描繪了一幅清晰的「三部曲」演進(jìn)路線圖,也可以說,這是階躍星辰理解的 AGI 演進(jìn)方向。
探索世界(強(qiáng)化學(xué)習(xí)階段): 光會模仿還不行,還得培養(yǎng)解決復(fù)雜問題的能力。比如解個奧數(shù)題、寫段復(fù)雜的代碼,這需要「慢思考」。這時候就得上強(qiáng)化學(xué)習(xí)了,讓 AI 在不斷試錯中學(xué)會怎么一步步把難題給解開。
歸納世界(機(jī)器自主學(xué)習(xí)階段): 這是最高境界了,AI 不光能解決已知問題,還能自己去發(fā)現(xiàn)新規(guī)律,搞點(diǎn)人類沒想到的創(chuàng)新。比如在科研領(lǐng)域幫科學(xué)家發(fā)現(xiàn)新材料、新藥物啥的。
這三個階段,與 OpenAI 提出的 AGI 五個 Level 在核心理念上不謀而合,現(xiàn)在整個 AI 行業(yè)的發(fā)展,基本就是照著這個劇本在推進(jìn)。
為什么「理解生成一體化」這么重要?
在多模態(tài),尤其是圖像視頻這塊,姜大昕在溝通會中多次強(qiáng)調(diào)一個詞:理解生成一體化。
理解生成一體化是計(jì)算機(jī)視覺領(lǐng)域的核心問題,對于實(shí)現(xiàn) AGI 至關(guān)重要。
說白了,就是讓模型既能看懂一幅圖、一段視頻是啥意思,又能根據(jù)這個理解自己創(chuàng)作出新的、相關(guān)的圖像視頻。現(xiàn)在很多時候是「看圖用 A 模型,畫圖用 B 模型」,跟倆部門似的,配合不起來。
他舉了個例子,比如老師在黑板上寫字,現(xiàn)在的 Sora 能模仿老師寫字的動作,但老師腦子里想的是啥、接下來要寫什么內(nèi)容,這得靠「理解」。如果理解和生成是兩套系統(tǒng),那模型就很難真正「懂」你,生成的玩意兒也可能不著邊際。
語言模型像 ChatGPT 在這方面已經(jīng)做得不錯了,但視覺領(lǐng)域因?yàn)閿?shù)據(jù)太復(fù)雜,這事兒還沒完全搞定。階躍星辰在這上面是持續(xù)投入,想把這個技術(shù)瓶頸給突破了。
強(qiáng)大的模型能力最終需要通過應(yīng)用來體現(xiàn)價值。階躍星辰采取的是「超級模型與超級應(yīng)用雙輪驅(qū)動」的策略。
這意味著,AI 如果能與這些終端深度融合,就能更好地「理解用戶需求和任務(wù)上下文」。
比如, OPPO 旗艦 Find X8 Ultra 正式開售首發(fā)的「一鍵閃記」的功能,AI 可以智能識別手機(jī)屏幕上的內(nèi)容,為用戶生成摘要,并將碎片化的信息歸類到不同的記憶合集。
這種合作,將大模型的能力和系統(tǒng)更深度融合,嵌入到用戶最高頻的手機(jī)使用場景中,選擇手機(jī)作為切入點(diǎn),其價值在于手機(jī)天然的多模態(tài)交互屬性和龐大的用戶基數(shù),為模型迭代提供了豐富的真實(shí)數(shù)據(jù)和即時反饋。
總的來說,階躍星辰的思路挺清晰:技術(shù)上瞄準(zhǔn) AGI,死磕多模態(tài)和理解生成一體化這些硬核問題。應(yīng)用上呢,就找準(zhǔn)智能終端這個突破口,跟硬件廠商把場景做深做透。
這條路不好走,但姜大昕和他的團(tuán)隊(duì)看起來挺有決心。畢竟,用 AI 解決真實(shí)世界的問題,先在市場獲得用戶認(rèn)可,才有機(jī)會探索 AGI 的天花板,讓我們看看階躍星辰這個多模態(tài)卷王后面還能拿出什么新東西來。