LTX 2.3 ComfyUI:這可能是目前最強大的 AI 影片統一工作流
Mar 18, 2026

LTX 2.3 ComfyUI:這可能是目前最強大的 AI 影片統一工作流

LTX 2.3 在 ComfyUI 中把文生影片、圖生影片和音訊驅動影片整合進統一節點架構,是目前非常值得上手的 AI 影片工作流。

我一直在關注 AI 影片生成的進化,如果你也和我一樣,在各種模型之間反覆橫跳,你一定深有體會:想要高品質的畫面,往往就得犧牲生成速度;想要音畫同步,操作流程又極其複雜。

但今天,我想告訴你,遊戲規則改變了。

Lightricks 剛剛發佈了 LTX-2.3,這不僅僅是一個小版本的迭代,它透過一個統一的節點架構,將文生影片、圖生影片和音訊驅動影片整合在了一起。更重要的是,它在 ComfyUI 裡的表現非常強。

如果你想製作高品質的數位人,或者更穩定地生成有電影感的短片,這套工作流值得你認真研究。


為什麼 LTX-2.3 值得關注?

在進入實操之前,先看清楚 LTX-2.3 到底升級了什麼。基於社群回饋,Lightricks 這次不是簡單補丁,而是對底層能力做了比較完整的重構。

1. 細節明顯更銳利

官方重建了潛空間,並訓練了新的 VAE。這帶來的直接變化是:髮絲、皮膚紋理、服裝邊緣,甚至畫面裡的文字,都比過去更容易保持清晰,塑膠感和糊感明顯減輕。

2. 提示詞理解能力更強

它的提示詞連接器擴大到了原來的 4 倍,意味著模型對複雜空間關係和風格指令的理解更扎實。像「左邊站著一個男孩,右邊蹲著一隻貓」這種描述,模型的執行穩定性會高很多。

3. 圖生影片不再容易「假動」

過去很多 I2V 工作流會出現一個老問題:畫面看起來像投影片,人物幾乎不動,或者只是簡單縮放。LTX-2.3 對運動邏輯的處理更自然,動作連續性和鏡頭感都更好。

4. 原生支援豎屏

它支援原生的 1080x1920 直式生成,這對短影片創作者非常重要。不是先做橫屏再硬裁,而是從一開始就按豎屏結構生成,構圖更合理。


如何在 ComfyUI 中跑通 LTX-2.3

如果你準備在 ComfyUI 裡真正把它用起來,我建議你按下面這個順序理解。

第 1 步:先準備核心模型

你至少需要準備基礎檢查點,而且我建議兩個版本都下好:

  • Dev 版:適合追求更高品質,通常可以從 CFG 420 steps 開始測試。
  • Distilled 版:適合追求生成速度,通常 CFG 18 steps 就能很快出結果。

除此之外,別忘了對應的 Video VAEAudio VAE。如果你後面要做音訊驅動影片,這兩個元件不是可選項,而是工作流穩定運行的關鍵。

第 2 步:理解統一工作流的切換方式

LTX-2.3 真正厲害的地方,不只是品質提升,而是它把多種影片生成方式納入了同一個工作流邏輯。

在 ComfyUI 裡,你基本可以透過幾個開關完成模式切換:

  • 想做 T2V:關閉 I2V 和 Custom Audio,只讓模型按 Prompt 生成。
  • 想做 I2V:開啟 I2V,上傳參考首幀,讓模型圍繞原始圖像延展動作。
  • 想做 A2V / Talking Avatar:開啟 Custom Audio,上傳你的配音檔,讓模型根據音訊驅動角色口型和表情。

如果你之前被不同模型、不同節點鏈路搞得很亂,那麼你會立刻理解這種統一結構的價值:不是每做一種任務就換一套系統,而是在一套熟悉的工作流裡切模式。

第 3 步:學會兩階段採樣

這一步很實用,也很容易被忽視。

在這個工作流裡,你可以先用半解析度生成初始影片,先確認動作、構圖和節奏沒有跑偏;然後再透過 LTX-2.3 Spatial Upsampler 做 2 倍潛空間放大。

這樣做的核心收益很簡單:

  • 前期試錯更快
  • 渲染時間明顯縮短
  • 最終細節損失相對可控

對大多數人來說,這比一上來就全解析度硬跑更理性。你真正要優化的不是單次出圖參數,而是整套創作閉環的效率。


做數位人時,為什麼這套方案特別有吸引力?

如果你的目標是 Talking Avatar,LTX-2.3 在 ComfyUI 裡的優勢會更明顯。

傳統數位人流程最大的問題,不是「不能做」,而是鏈路太碎。你往往要先處理音訊,再分離人聲,再做嘴型驅動,再補動作一致性,最後還要回頭修清晰度。每多一層模組,就多一層不穩定。

而 LTX-2.3 的統一架構,至少把這件事往「可控生產流程」推進了一步。尤其是結合類似 Mel-Band Roformer 這樣的人聲處理節點後,整個音訊驅動流程會順很多。

這不代表它已經完美,但它確實比過去更接近「能反覆穩定複現」的生產工具。


Prompt 怎麼寫,效果差距最大?

這裡我給你一個非常直接的建議:不要只寫畫面主體,要把動作和鏡頭語言一起寫進去。

LTX-2.3 的理解能力上來之後,Prompt 的上限也被抬高了。你如果還停留在「一個人在街上走」的描述方式,模型當然也只能給你一個相對平的結果。

更有效的寫法是這樣:

一個穿著棕色夾克的男人在雨後的紐約街頭狂奔,背景是虛化的霓虹燈,鏡頭快速後退並持續跟隨,地面反射出潮濕的燈光,整體呈現電影感手持攝影風格。

這種 Prompt 的重點不是堆砌形容詞,而是同時交代:

  • 主體是誰
  • 場景是什麼
  • 動作怎麼發生
  • 鏡頭怎麼運動
  • 整體氛圍是什麼

當模型對這些維度都能理解時,輸出自然會比「關鍵詞拼盤」更像一條真正的影片鏡頭。


我的實戰建議

如果你準備真正把它用起來,我建議你這樣開始:

  1. 先用 Distilled 版快速試構圖和動作。
  2. 畫面方向確定後,再切到 Dev 版追品質。
  3. 預設把兩階段採樣當成工作流標準配置,而不是補救手段。
  4. 做數位人時,優先保證音訊品質和首幀品質,因為這兩項最直接影響最終穩定性。

很多人做 AI 影片時容易陷入一個誤區:不停換模型,卻不優化流程。LTX-2.3 給你的真正價值,不只是「更強了」,而是它讓你有機會把工作流固定下來。


結論

LTX-2.3 在 ComfyUI 上的表現說明了一件事:AI 影片正在從「偶爾能出驚喜」的玩具,走向「可以系統生產」的工具。

它把視覺、動作和音訊三件原本分散的事情,盡量壓進同一個工作流裡。對創作者來說,這種統一性比單純再高一點畫質更重要。

如果你對 AI 影片生成感興趣,尤其想做數位人、短片或者直式內容,那麼這套 ltx 2.3 comfyui 工作流值得你親自跑一遍。你很可能會發現,過去需要多套工具拼起來的事情,現在第一次真正有了統一解法。

更快的路線:直接在瀏覽器使用 LTX Video 2.3

當然,不是每個人都想先花時間接節點、下載模型、再慢慢調 ComfyUI 工作流,才開始驗證自己的想法。

如果你想走一條更快的路線,可以直接使用 ltx23.app。它讓你在瀏覽器裡就能體驗 LTX 2.3,不需要先把整套本地環境完整搭好。

我的建議很簡單:如果你需要更深的控制力、更多自訂節點,以及更偏生產級的工作方式,就用 ComfyUI;如果你只是想快速測試 prompt、驗證創意方向,或者更輕量地拿到可用結果,那就直接去 ltx23.app

即刻用 LTX 2.3 生成影片

免費建立你嘅第一條 LTX 2.3 影片。