關于ZAKER 合作
      量子位 昨天

      AI 視頻的 DeepSeek 時刻!開源 13B 模型生成提速 30 倍,5090 跑出好萊塢特效

      AI 視頻的 DeepSeek 時刻什么時候來?沒想到吧,這就來了。

      最新開源模型 LTXV-13B,免費可商用、推理速度快、游戲顯卡就能跑,視覺效果也不錯。要素都齊了,想不火都難。

      從官方透露的信息看,新模型在速度質量控制三個方面有所提升。

      生成速度——同類產品的 30 倍,提出想法可以獲得接近實時的反饋。

      視頻質量——眼見為實,請看 VCR。

      可控制性——支持逐幀控制,能讓你按照自己想法來打造視頻,創作自由度直接拉滿。

      這個 13B 參數的模型,官方證實在 24G 顯存的 4090/5090 上就能跑,也難怪網友紛紛為之瘋狂。

      大家曬出的 " 買家秀 ",效果比官方賣家秀看起來也毫不縮水:

      開源視頻生成新標桿

      LTX-Video 支持文本轉圖像、圖像轉視頻、基于關鍵幀的動畫、視頻擴展(正向和反向)、視頻轉視頻,以及上述所有這些功能的任意排列組合。

      視覺效果爆炸

      LTXV-13B 擁有超 130 億個參數,即使在快速復雜的場景,也能提供更流暢的運動、更少的偽影和更清晰的視覺效果。

      那么下面再直觀感受一下效果。

      Prompt:一位有著棕色長發和白皙皮膚的女人對著另一位女人微笑……一位有著棕色長發、膚色白皙的女子正對著另一位有著金色長發的女子微笑。這位棕色頭發的女子身穿黑色夾克,右臉頰上長著一顆幾乎難以察覺的小痣。鏡頭角度為特寫鏡頭,聚焦于這位棕色頭發女子的臉部。光線溫暖自然,似乎是落日的余暉,在場景中投射出柔和的光芒。這幅場景似乎是真實拍攝的。

      還可以不斷地調整拍攝角度,營造出非常自然的航拍效果。

      Prompt:海浪沖擊著海岸線上嶙峋的巖石……海浪拍打著海岸線上嶙峋的巖石,濺起陣陣浪花。巖石呈深灰色,邊緣鋒利,裂縫深邃。海水清澈碧綠,浪花拍打巖石的地方泛起白色的泡沫。天空呈淺灰色,幾朵白云點綴在地平線上。

      這下誰還能分清什么是現實什么又是 AI 生成的呢?

      但記得要在生成之前放大圖片,不要像下面這位網友一樣:

      生成速度提升

      相較于同類產品,LTXV-13B 生成速度領先近30 倍,但質量可是一點都沒打折扣,相當適合快速迭代、實時反饋和大規模生產場景。

      不僅效率大幅度提升,成本也跟著降低,用消費級 GPU 就能搞定,也可以選擇官方平臺 LTX Studio 云體驗。

      精細創意控制

      此外,LTXV 還有強大的創意控制功能,提供多關鍵幀調節(起始幀和結束幀)、攝像機控制(推拉、變焦、搖臂、軌道等)、面部表情控制等。

      LTXV-Video:實時視頻潛空間擴散模型

      官方透露,LTX Video 做到更流暢的運動和更一致的幀間連貫性,關鍵在于多尺度渲染技術,即同時以多種空間分辨率分析場景,保留精細細節的同時理解大規模結構。

      如下面的例子,可以看到從左到右人物臉上的細節越來越豐富。

      從團隊幾個月前發布的 2B 參數模型論文也可以看出,訓練階段就同時使用了多種分辨率和時長組合的數據。

      訓練時通過調整原始視頻大小,使輸入樣本包含大致相同數量的 token,并采用隨機丟棄 token 的策略,避免復雜的 token 填充或打包操作,保持數據多樣性。

      上一代 2B 參數的模型就以速度和效率見長,能夠以超過實時的速度生成高質量視頻,在 H100 GPU 上僅需2 秒就能生成 5 秒、24 幀每秒、768 × 512 分辨率的視頻。

      優化生成速度的秘訣在于一種整體式 Latent Diffusion 方法,將 Video-VAE 和去噪 Transformer 的任務無縫融合,在它們之間共享去噪目標。

      另外 Video VAE 部分對時空維度進行 32 × 32 × 8 的下采樣壓縮,將高分辨率的視頻數據轉換到低分辨率的潛在空間進行處理,通過空間和時間壓縮來降低冗余。

      它實現了1:192的壓縮比,超過當時的主流開源模型如 MovieGen、CogVideoX 等的 1:48 或 1:96 的壓縮比。

      為實現這種高壓縮率,團隊將圖像塊化操作(patchify)從 Transformer 的輸入移到了 VAE 的輸入,使每個 token 能夠表示更多的像素信息,幫助 Transformer 計算全時空自注意力(full spatiotemporal self-attention)。

      高壓縮率雖好,但會限制對細節的表示能力。為了解決這個問題,LTX-Video 還采取了多種新策略。

      在訓練 Video VAE 時引入 GAN,減少高壓縮率下 L2 loss 產生的模糊問題。

      為此提出改進的 Reconstruction GAN,判別器同時接收原始樣本和重建樣本,通過判斷哪個是原始的、哪個是重建的,簡化了判別器的任務,提高了其引導生成器的能力,使生成的視頻在保持與原始樣本相似性的同時,能更有效地平衡保真度和感知質量。

      此外還有一些小的改動如下:

      多層噪聲注入:受 StyleGAN 啟發,在 VAE 解碼器的多個層注入噪聲,允許生成更多樣化的高頻細節。

      統一對數方差:使用寬潛空間(大量 channels)時,標準 KL 損失會導致不均勻的利用。團隊使用了所有潛通道共享的單一預測對數方差,均勻分配 KL 損失的影響。

      視頻 DWT 損失:引入了 spatio-temporal Discrete Wavelet Transform ( DWT ) loss,確保高頻細節的重建。

      LTX-Video 同時支持文本生成視頻和圖像生成視頻兩種能力。

      對于文本條件生成,團隊使用了預訓練的 T5-XXL 文本編碼器生成初始文本嵌入,并采用了交叉注意力機制,而非 MM-DiT 方法。

      而對于圖像條件生成,他們擴展了 Open-Sora 的方法,利用擴散時間步作為條件指示器,允許無縫條件化視頻的任何部分。

      這種方法不需要特殊的 tokens 或專門為圖像到視頻任務訓練的模型,大大簡化了流程。

      2013 年成立的老牌團隊

      LTX-Video 開發團隊 Lightricks 成立于 2013 年,前大模型時代有兩個招牌產品,為美顏相機應用 Facetune 和視頻剪輯應用 Videoleap,在蘋果商店至今仍排得上號。

      2023 轉型 AI 后,推出 LTX Studio 視頻生成平臺,支持逐鏡頭地構建視頻和時間線編輯,可以精細控制每個場景,并保持角色一致性,主要面向影視、廣告和個人視頻創作者。

      除開源模型外,Lightricks 還提供配套的訓練工具,支持微調、預處理數據集、為視頻添加字幕、分割場景等使用功能。

      LTX Video 13B 模型推出后開源社區也非常感興趣,已經有人在一天之內就為其訓練好了 LoRA,讓不同類型角色的眼睛都能冒電光特效,引起網友圍觀。

      Github:

      https://github.com/Lightricks/LTX-Video

      論文:

      https://arxiv.org/pdf/2501.00103

      參考鏈接:

      [ 1 ] https://x.com/maxescu/status/1919801813987164527

      [ 2 ] https://www.lightricks.com/ltxv-documentation

      [ 3 ] https://www.reddit.com/r/StableDiffusion/comments/1kgxgtg/ive_trained_a_ltxv_13b_lora_its_insane/

      量子位 AI 主題策劃正在征集中!歡迎參與專題365 行 AI 落地方案,一千零一個 AI 應,或與我們分享你在尋找的 AI 產品,或發現的AI 新動向

      也歡迎你加入量子位每日 AI 交流群,一起來暢聊 AI 吧~

      一鍵關注 點亮星標

      科技前沿進展每日見

      一鍵三連「點贊」「轉發」「小心心」

      歡迎在評論區留下你的想法!

      相關標簽
      主站蜘蛛池模板: 国产一区二区三区影院| 精品人无码一区二区三区 | 精品日韩亚洲AV无码一区二区三区| 亚洲国产精品综合一区在线| 日韩电影在线观看第一区| 麻豆一区二区在我观看| 在线精品国产一区二区三区| 午夜一区二区免费视频| 亚洲欧美日韩中文字幕一区二区三区| 亚洲日本一区二区| 久久精品国产免费一区| 一本AV高清一区二区三区| 中文字幕一区二区视频| 一区二区精品视频| 一区在线免费观看| 日韩精品一区二区三区不卡| 白丝爆浆18禁一区二区三区| 韩国资源视频一区二区三区| 国产高清一区二区三区视频| 无码视频免费一区二三区| 亚洲熟女www一区二区三区| 国产乱码一区二区三区| 伊人久久大香线蕉AV一区二区| 97人妻无码一区二区精品免费| 亚洲视频免费一区| 国产欧美色一区二区三区| 国产精品99精品一区二区三区 | 国偷自产视频一区二区久| 女同一区二区在线观看| 国产视频福利一区| 亚洲一区二区三区乱码A| 精品成人一区二区三区四区| 成人免费av一区二区三区| 一区二区三区国产| 亚洲一区二区三区久久| 国产精品亚洲一区二区在线观看 | 中文字幕日韩人妻不卡一区 | 丝袜人妻一区二区三区网站| 无码日韩人妻AV一区免费l| 伊人久久大香线蕉av一区| 久久精品国产第一区二区三区|