關于ZAKER 合作
      量子位 14小時前

      鵝廠開源視頻生成大殺器!參考圖主體精準復刻,還能編輯現(xiàn)有視頻

      剛剛,鵝廠開源 " 自定義 " 視頻生成模型 HunyuanCustom。

      " 自定義 " 主打的就是主體一致性,用一張圖片就可以確定視頻主角,其一致性評分達到了開源模型 SOTA,且可和閉源媲美。

      這樣在構思提示詞時,就可以不必糾結主體特征描述了。

      HunyuanCustom 一共支持單主體參考、多主體參考、局部編輯、角色配音四大功能。

      其中單主體參考已上線并開源,其余也將在本月內開源。

      此外混元的技術人員還在直播中透露,團隊正在和開源社區(qū)合作,將適配 AI 創(chuàng)作者常用的 ComfyUI。

      期待所有功能完整上線的同時,不妨先來看看 demo 效果!

      主體一致性達到 SOTA

      先看已經(jīng)上線的單主體參考,我們可以分成人類和非人類兩個部分來看。

      人物部分,提示詞如下:

      A woman takes a selfie in a busy city. A woman holds a smartphone in one hand and makes a peace sign with the other. The background is a bustling street scene with various signs and pedestrians.

      參考譯文:一位女士在繁忙的城市中自拍。她一手拿著智能手機,一手比耶。背景是熙熙攘攘的街景,各種招牌和行人熙熙攘攘。

      可以看到,參考圖中人物的五官、發(fā)色、服飾等特征,包括項鏈這樣的細節(jié),都得到了很好的保留。

      還有這位男士,即使跨越吃早餐、搭乘地鐵、工作、陪小狗散步等不同場景,人物特征也能保持不變。

      除了人,小動物的特征也可以保持一致,比如下面這段視頻當中,參考主體是小狗,正在公園當中追逐一只小貓(貓由模型自由生成)。

      在后續(xù),多主體參考功能也將上線并開源,先來看下兩個主體都是人的情況。

      On the modern city streets, a man asks a woman for directions, but she doesn ’ t understand what he ’ s saying.

      參考譯文:在現(xiàn)代城市的街道上,一個男人向一個女人問路,但她聽不懂他在說什么。

      畫面當中,男性角色是以側臉方式呈現(xiàn)的,與照片中的角度明顯不同,但看上去很像同一個人。

      再看人和非人物體,這里有一只小企鵝。

      A man is sitting in a spacious and bright living room, smiling and greeting a cute penguin. The penguin nods back at him in a friendly manner, as if responding to his greeting.

      參考譯文:寬敞明亮的客廳里,一位男士正微笑著與一只可愛的企鵝打招呼。企鵝也友好地點頭示意,仿佛在回應他的問候。

      具體的表現(xiàn),直接看結果:

      在人與非人的多參考主體組合中,還有一種比較特殊的類型就是服裝,特殊性主要體現(xiàn)在其融合程度相對其他物體更深。

      A man wearing Hanfu walks across an ancient stone bridge holding an umbrella, raindrops tapping against it.

      參考譯文:一名身著漢服的男子撐著傘走過一座古老的石橋,雨滴輕敲著橋面。

      實際場景當中,多主體參考功能在制作廣告的任務當中尤其好用,混元團隊還在論文當中專門展示了幾組廣告制作場景。

      除了根據(jù)現(xiàn)有主體生成全新的視頻之外,HunyuanCustom 也可以對已有的視頻進行局部編輯。

      例如在這個海底場景當中,Hunyuan 對其中的一條魚進行了成功替換。

      在遮罩、原視頻和目標對象被輸入 HunyuanCustom 后,原來位置的小丑魚變成了一只金魚。

      此外 HunyuanCustom 還支持音頻驅動,只需要上線一段音頻和參考圖,即可生成口型匹配的視頻。

      另外,如果沒有具體的朗讀文本,也可以讓模型來合成,不過目前語音合成的聲音還是有一點機械感。

      混元團隊介紹,這一問題仍在完善過程當中。

      A single person, in the dressing room. A woman is holding a lipstick, trying it on, and introducing it.

      參考譯文:試衣間里,一個人。一位女士正拿著一支口紅,正在邊試用邊介紹。

      測評數(shù)據(jù)方面,在單主體視頻定制任務中,作者將 HunyuanCustom 與現(xiàn)有的視頻定制方法進行了比較,包括開源模型開源模型如 Skyreels-A2 和 VACE,也包括一些知名的商業(yè)模型。

      結果,HunyuanCustom 在身份一致性(Face-Sim)和主體相似性(DINO-Sim)兩個指標上達到了最佳表現(xiàn),分別為 0.627 和 0.593,超過了所有 baseline 方法。

      對于其他功能,技術報告中也展示了一些定性比較:

      配置方面,目前 HunyuanCustom 支持 720P 畫質,如果自行部署,需要支持 CUDA 的英偉達 GPU。

      GitHub 項目頁中介紹,用 HunyuanCustom 生成 720P 視頻,最少需要 24GB 顯存,但速度會很慢,因此推薦配置仍為 80GB。

      那么,HunyuanCustom 究竟是如何實現(xiàn)的呢?

      一個結構實現(xiàn)多種能力

      HunyuanCustom 以文生視頻模型 HunyuanVideo 為基礎,并分別針對不同的任務類型配備了相應的模塊。

      先看圖像驅動的生成任務(單 / 多主體參考),這一部分的兩個核心,分別是 LLaVA 文本 - 圖像交互模塊和身份增強模塊。

      LLaVA 文本 - 圖像交互模塊的目的是增強模型對輸入圖像所表示身份信息的理解,并將其與文本描述進行有效融合。

      具體而言,給定文本輸入、圖像輸入以及圖像在文本中對應的描述詞,該模塊設計了兩種融合模板:

      圖像嵌入模板:將文本描述中的圖像描述詞替換為特殊的圖像 token。例如,對于文本提示 "A man is playing guitar",如果輸入的是 "man" 的身份圖像,則處理后的模板為 "A is playing guitar";

      圖像附加模板:在文本描述之后添加一個身份提示,例如 "A man is playing guitar. The man looks like "。

      處理后,會被替換為 LLaVA 提取的 24 × 24 的圖像隱藏特征。

      盡管 LLaVA 模塊能夠捕捉文本和圖像之間的高層語義關聯(lián),但它主要關注類別、顏色和形狀等高級特征,卻沒有關注到文本、紋理等精細的圖像細節(jié),而這些細節(jié)對于保持身份一致性至關重要。

      為了進一步增強生成視頻的身份一致性,HunyuanCustom 設計了身份增強模塊。

      其核心是將表示身份的圖像特征連接到視頻的每一幀上,利用視頻生成模型在時間維度上的建模能力,使身份信息在生成視頻的各個幀之間得到有效傳播和增強。

      具體來說,HunyuanCustom 先將輸入圖像通過預訓練的 3D-VAE 編碼器映射到潛空間,得到圖像潛碼,然后將其與視頻潛碼在序列維度上進行連接,形成新的潛碼表示。

      特別地,在多身份視頻定制任務中,HunyuanCustom 將單身份定制模型作為基礎,并進行了相應的擴展——

      給定多個身份圖像和對應的文本描述,HunyuanCustom 首先對每個圖像 - 文本對進行 LLaVA 交互建模,然后將所有圖像編碼為潛空間表示,并與視頻潛碼進行連接。

      再看音頻驅動(角色配音)部分,HunyuanCustom 在這一模塊中使用的是身份解耦的 AudioNet 模塊,目的是確保音頻條件的引入不會干擾到人物身份的一致性。

      具體而言,給定一個長度音頻 - 視頻序列,AudioNet 首先對每一幀音頻進行特征提取,得到一個特征張量。

      由于視頻潛碼在時間維度上經(jīng)過了壓縮,因此還需要對音頻特征進行相應的時間對齊,最終得到一個與視頻潛碼在時間維度上完全對齊的音頻特征張量。

      之后,AudioNet 通過一個交叉注意力模塊將音頻信息注入到視頻潛碼中。為避免不同幀之間音頻和視頻信息的相互干擾,AudioNet 采用了逐幀的空間交叉注意力機制。

      最后是視頻驅動(局部編輯),這部分采用了視頻條件注入策略。

      HunyuanCustom 首先使用預訓練的 3D-VAE 將輸入的源視頻編碼到潛空間,得到壓縮后的視頻特征表示。

      接下來,HunyuanCustom 通過一個特征對齊網(wǎng)絡將壓縮后的視頻特征映射到與視頻潛碼相同的特征空間中,使其與視頻潛碼在時空維度上完全對齊。

      在對齊視頻條件特征和視頻潛碼后,HunyuanCustom 探索了兩種不同的條件注入方式 :

      特征拼接:將對齊后的視頻條件特征與視頻潛碼在特征維度上進行拼接,然后通過一個線性變換層將拼接后的特征重新投影回原始的潛碼空間;

      特征疊加:直接將對齊后的視頻條件特征逐幀疊加到視頻潛碼上,保持特征的維度不變。

      實驗結果表明,特征拼接的方式容易導致視頻內容信息的丟失和壓縮,生成的視頻質量和連貫性較差。

      相比之下,特征疊加的方式能夠更好地保留視頻條件中的時空信息,并與視頻潛碼進行無縫融合。

      為了進一步提高模型的泛化能力和魯棒性,HunyuanCustom 在訓練時采用了一系列數(shù)據(jù)增強策略。

      例如,通過隨機擾動掩碼邊界、將掩碼轉化為邊界框等方式,增加了掩碼的多樣性和不確定性,使得模型能夠更好地適應不同形狀和大小的編輯對象。

      此外,HunyuanCustom 還通過數(shù)據(jù)收集篩選和一系列質量算子,獲得了高質量的訓練樣本。

      另外在訓練過程中,混元團隊還采取了 Flow Matching 框架來優(yōu)化視頻生成模型。

      該框架通過最小化模型預測的視頻潛碼演化速度與真實速度之間的均方誤差,來學習視頻的時間動態(tài)。

      具體而言,給定一個視頻片段的起始潛碼和結束潛碼,以及表示身份的參考圖像,模型學習預測視頻潛碼在不同時間步上的演化方向和速度,并以最小化速度重建誤差為目標進行優(yōu)化。

      除了 Flow Matching 損失外,HunyuanCustom 還引入了輔助損失函數(shù),以實現(xiàn)多任務學習和模塊間的協(xié)同優(yōu)化。

      通過聯(lián)合優(yōu)化損失函數(shù),不同模塊間建立起了有效的約束和協(xié)同,最終使生成視頻在多個方面達到更好的平衡和表現(xiàn)。

      在推理階段,HunyuanCustom 首先通過對應的特征提取器,將這些多模態(tài)輸入轉化為適合跨模態(tài)交互的特征表示。

      然后,這些特征表示按照預定的流程,根據(jù)實際任務情況匹配對應的模塊,與生成視頻的中間特征進行逐步融合。

      去年 12 月,混元文生視頻功能正式上線;今年 3 月,混元團隊又推出了圖生視頻,兩項功能都是發(fā)布即開源。

      那么,你認為混元的視頻生成,還有這次新增的 " 自定義 " 功能符合你的期待嗎?歡迎評論區(qū)交流。

      項目主頁:

      https://hunyuancustom.github.io/

      GitHub:

      https://github.com/Tencent/HunyuanCustom

      Hugging Face:

      https://huggingface.co/tencent/HunyuanCustom

      論文地址:

      https://arxiv.org/abs/2505.04512

      量子位 AI 主題策劃正在征集中!歡迎參與專題365 行 AI 落地方案,一千零一個 AI 應,或與我們分享你在尋找的 AI 產品,或發(fā)現(xiàn)的AI 新動向

      也歡迎你加入量子位每日 AI 交流群,一起來暢聊 AI 吧~

      一鍵關注 點亮星標

      科技前沿進展每日見

      一鍵三連「點贊」「轉發(fā)」「小心心」

      歡迎在評論區(qū)留下你的想法!

      相關標簽
      ai

      最新評論

      沒有更多評論了
      主站蜘蛛池模板: 亚洲一区中文字幕在线观看| 国产在线不卡一区二区三区 | 国产99精品一区二区三区免费| 无码国产伦一区二区三区视频 | 搡老熟女老女人一区二区| 日本美女一区二区三区 | 日韩精品一区二区三区中文3d| 精品一区二区三区在线视频| 国产精品成人一区二区| 日本高清成本人视频一区| 中文字幕一区二区三区永久 | 久久久国产一区二区三区 | 久久久综合亚洲色一区二区三区| 无码国产伦一区二区三区视频| 精品无码一区二区三区爱欲| 国产在线一区二区三区av| 波多野结衣中文一区| 国精产品一区二区三区糖心| 国产精品香蕉一区二区三区| 国产在线一区二区三区av| 久久精品国产一区| 日韩精品一区二区三区国语自制 | 美女啪啪一区二区三区| 久久精品一区二区影院| 好看的电影网站亚洲一区| 国产成人一区二区三区在线观看| 国产精品丝袜一区二区三区| 色噜噜AV亚洲色一区二区| 少妇激情av一区二区| 中文字幕日韩精品一区二区三区 | 亚洲AV无码一区二区三区在线观看 | 91精品一区二区三区在线观看| 久久亚洲国产精品一区二区| 人妻无码一区二区三区免费| 中文字幕精品一区影音先锋 | 久久人做人爽一区二区三区| 美女视频一区二区| 亚洲av区一区二区三| 美女视频黄a视频全免费网站一区| 亚洲综合无码一区二区痴汉| 国产丝袜无码一区二区三区视频 |