剛剛,鵝廠開源 " 自定義 " 視頻生成模型 HunyuanCustom。
" 自定義 " 主打的就是主體一致性,用一張圖片就可以確定視頻主角,其一致性評分達到了開源模型 SOTA,且可和閉源媲美。
這樣在構思提示詞時,就可以不必糾結主體特征描述了。
其中單主體參考已上線并開源,其余也將在本月內開源。
此外混元的技術人員還在直播中透露,團隊正在和開源社區(qū)合作,將適配 AI 創(chuàng)作者常用的 ComfyUI。
期待所有功能完整上線的同時,不妨先來看看 demo 效果!
主體一致性達到 SOTA
先看已經(jīng)上線的單主體參考,我們可以分成人類和非人類兩個部分來看。
人物部分,提示詞如下:
A woman takes a selfie in a busy city. A woman holds a smartphone in one hand and makes a peace sign with the other. The background is a bustling street scene with various signs and pedestrians.
參考譯文:一位女士在繁忙的城市中自拍。她一手拿著智能手機,一手比耶。背景是熙熙攘攘的街景,各種招牌和行人熙熙攘攘。
可以看到,參考圖中人物的五官、發(fā)色、服飾等特征,包括項鏈這樣的細節(jié),都得到了很好的保留。
參考譯文:在現(xiàn)代城市的街道上,一個男人向一個女人問路,但她聽不懂他在說什么。
畫面當中,男性角色是以側臉方式呈現(xiàn)的,與照片中的角度明顯不同,但看上去很像同一個人。
參考譯文:寬敞明亮的客廳里,一位男士正微笑著與一只可愛的企鵝打招呼。企鵝也友好地點頭示意,仿佛在回應他的問候。
具體的表現(xiàn),直接看結果:
參考譯文:一名身著漢服的男子撐著傘走過一座古老的石橋,雨滴輕敲著橋面。
例如在這個海底場景當中,Hunyuan 對其中的一條魚進行了成功替換。
另外,如果沒有具體的朗讀文本,也可以讓模型來合成,不過目前語音合成的聲音還是有一點機械感。
混元團隊介紹,這一問題仍在完善過程當中。
A single person, in the dressing room. A woman is holding a lipstick, trying it on, and introducing it.
參考譯文:試衣間里,一個人。一位女士正拿著一支口紅,正在邊試用邊介紹。
測評數(shù)據(jù)方面,在單主體視頻定制任務中,作者將 HunyuanCustom 與現(xiàn)有的視頻定制方法進行了比較,包括開源模型開源模型如 Skyreels-A2 和 VACE,也包括一些知名的商業(yè)模型。
結果,HunyuanCustom 在身份一致性(Face-Sim)和主體相似性(DINO-Sim)兩個指標上達到了最佳表現(xiàn),分別為 0.627 和 0.593,超過了所有 baseline 方法。
GitHub 項目頁中介紹,用 HunyuanCustom 生成 720P 視頻,最少需要 24GB 顯存,但速度會很慢,因此推薦配置仍為 80GB。
一個結構實現(xiàn)多種能力
HunyuanCustom 以文生視頻模型 HunyuanVideo 為基礎,并分別針對不同的任務類型配備了相應的模塊。
先看圖像驅動的生成任務(單 / 多主體參考),這一部分的兩個核心,分別是 LLaVA 文本 - 圖像交互模塊和身份增強模塊。
LLaVA 文本 - 圖像交互模塊的目的是增強模型對輸入圖像所表示身份信息的理解,并將其與文本描述進行有效融合。
具體而言,給定文本輸入、圖像輸入以及圖像在文本中對應的描述詞,該模塊設計了兩種融合模板:
圖像嵌入模板:將文本描述中的圖像描述詞替換為特殊的圖像 token。例如,對于文本提示 "A man is playing guitar",如果輸入的是 "man" 的身份圖像,則處理后的模板為 "A is playing guitar";
圖像附加模板:在文本描述之后添加一個身份提示,例如 "A man is playing guitar. The man looks like "。
處理后,會被替換為 LLaVA 提取的 24 × 24 的圖像隱藏特征。
為了進一步增強生成視頻的身份一致性,HunyuanCustom 設計了身份增強模塊。
其核心是將表示身份的圖像特征連接到視頻的每一幀上,利用視頻生成模型在時間維度上的建模能力,使身份信息在生成視頻的各個幀之間得到有效傳播和增強。
具體來說,HunyuanCustom 先將輸入圖像通過預訓練的 3D-VAE 編碼器映射到潛空間,得到圖像潛碼,然后將其與視頻潛碼在序列維度上進行連接,形成新的潛碼表示。
特別地,在多身份視頻定制任務中,HunyuanCustom 將單身份定制模型作為基礎,并進行了相應的擴展——
給定多個身份圖像和對應的文本描述,HunyuanCustom 首先對每個圖像 - 文本對進行 LLaVA 交互建模,然后將所有圖像編碼為潛空間表示,并與視頻潛碼進行連接。
具體而言,給定一個長度音頻 - 視頻序列,AudioNet 首先對每一幀音頻進行特征提取,得到一個特征張量。
由于視頻潛碼在時間維度上經(jīng)過了壓縮,因此還需要對音頻特征進行相應的時間對齊,最終得到一個與視頻潛碼在時間維度上完全對齊的音頻特征張量。
之后,AudioNet 通過一個交叉注意力模塊將音頻信息注入到視頻潛碼中。為避免不同幀之間音頻和視頻信息的相互干擾,AudioNet 采用了逐幀的空間交叉注意力機制。
HunyuanCustom 首先使用預訓練的 3D-VAE 將輸入的源視頻編碼到潛空間,得到壓縮后的視頻特征表示。
接下來,HunyuanCustom 通過一個特征對齊網(wǎng)絡將壓縮后的視頻特征映射到與視頻潛碼相同的特征空間中,使其與視頻潛碼在時空維度上完全對齊。
在對齊視頻條件特征和視頻潛碼后,HunyuanCustom 探索了兩種不同的條件注入方式 :
特征拼接:將對齊后的視頻條件特征與視頻潛碼在特征維度上進行拼接,然后通過一個線性變換層將拼接后的特征重新投影回原始的潛碼空間;
特征疊加:直接將對齊后的視頻條件特征逐幀疊加到視頻潛碼上,保持特征的維度不變。
實驗結果表明,特征拼接的方式容易導致視頻內容信息的丟失和壓縮,生成的視頻質量和連貫性較差。
相比之下,特征疊加的方式能夠更好地保留視頻條件中的時空信息,并與視頻潛碼進行無縫融合。
例如,通過隨機擾動掩碼邊界、將掩碼轉化為邊界框等方式,增加了掩碼的多樣性和不確定性,使得模型能夠更好地適應不同形狀和大小的編輯對象。
此外,HunyuanCustom 還通過數(shù)據(jù)收集篩選和一系列質量算子,獲得了高質量的訓練樣本。
該框架通過最小化模型預測的視頻潛碼演化速度與真實速度之間的均方誤差,來學習視頻的時間動態(tài)。
具體而言,給定一個視頻片段的起始潛碼和結束潛碼,以及表示身份的參考圖像,模型學習預測視頻潛碼在不同時間步上的演化方向和速度,并以最小化速度重建誤差為目標進行優(yōu)化。
除了 Flow Matching 損失外,HunyuanCustom 還引入了輔助損失函數(shù),以實現(xiàn)多任務學習和模塊間的協(xié)同優(yōu)化。
通過聯(lián)合優(yōu)化損失函數(shù),不同模塊間建立起了有效的約束和協(xié)同,最終使生成視頻在多個方面達到更好的平衡和表現(xiàn)。
在推理階段,HunyuanCustom 首先通過對應的特征提取器,將這些多模態(tài)輸入轉化為適合跨模態(tài)交互的特征表示。
然后,這些特征表示按照預定的流程,根據(jù)實際任務情況匹配對應的模塊,與生成視頻的中間特征進行逐步融合。
那么,你認為混元的視頻生成,還有這次新增的 " 自定義 " 功能符合你的期待嗎?歡迎評論區(qū)交流。
項目主頁:
https://hunyuancustom.github.io/
GitHub:
https://github.com/Tencent/HunyuanCustom
Hugging Face:
https://huggingface.co/tencent/HunyuanCustom
論文地址:
https://arxiv.org/abs/2505.04512
— 完 —
量子位 AI 主題策劃正在征集中!歡迎參與專題365 行 AI 落地方案,一千零一個 AI 應用,或與我們分享你在尋找的 AI 產品,或發(fā)現(xiàn)的AI 新動向。
也歡迎你加入量子位每日 AI 交流群,一起來暢聊 AI 吧~
一鍵關注 點亮星標
科技前沿進展每日見
一鍵三連「點贊」「轉發(fā)」「小心心」
歡迎在評論區(qū)留下你的想法!