Lightricks 開源人工智能影片模型。

LTX 2.3 同其他模型有咩分別？

速度快 18 倍，支援原生直向輸出。

LTX 2.3 支援咩規格？

最高 1080p，多種比例，時長 4 至 20 秒。

LTX 2.3 係唔係免費？

新帳戶可獲免費積分試用。

LTX 2.3 輸出可以商用嗎？

可以，影片擁有完整商業版權。

點樣開始用 LTX 2.3？

喺 ltx23.app 建立帳戶即可生成影片。

LTX 2.3 ComfyUI：這可能是目前最強大的 AI 影片統一工作流

我一直在關注 AI 影片生成的進化，如果你也和我一樣，在各種模型之間反覆橫跳，你一定深有體會：想要高品質的畫面，往往就得犧牲生成速度；想要音畫同步，操作流程又極其複雜。

但今天，我想告訴你，遊戲規則改變了。

Lightricks 剛剛發佈了 LTX-2.3，這不僅僅是一個小版本的迭代，它透過一個統一的節點架構，將文生影片、圖生影片和音訊驅動影片整合在了一起。更重要的是，它在 ComfyUI 裡的表現非常強。

如果你想製作高品質的數位人，或者更穩定地生成有電影感的短片，這套工作流值得你認真研究。

為什麼 LTX-2.3 值得關注？

在進入實操之前，先看清楚 LTX-2.3 到底升級了什麼。基於社群回饋，Lightricks 這次不是簡單補丁，而是對底層能力做了比較完整的重構。

1. 細節明顯更銳利

官方重建了潛空間，並訓練了新的 VAE。這帶來的直接變化是：髮絲、皮膚紋理、服裝邊緣，甚至畫面裡的文字，都比過去更容易保持清晰，塑膠感和糊感明顯減輕。

2. 提示詞理解能力更強

它的提示詞連接器擴大到了原來的 4 倍，意味著模型對複雜空間關係和風格指令的理解更扎實。像「左邊站著一個男孩，右邊蹲著一隻貓」這種描述，模型的執行穩定性會高很多。

3. 圖生影片不再容易「假動」

過去很多 I2V 工作流會出現一個老問題：畫面看起來像投影片，人物幾乎不動，或者只是簡單縮放。LTX-2.3 對運動邏輯的處理更自然，動作連續性和鏡頭感都更好。

4. 原生支援豎屏

它支援原生的 1080x1920 直式生成，這對短影片創作者非常重要。不是先做橫屏再硬裁，而是從一開始就按豎屏結構生成，構圖更合理。

如何在 ComfyUI 中跑通 LTX-2.3

如果你準備在 ComfyUI 裡真正把它用起來，我建議你按下面這個順序理解。

第 1 步：先準備核心模型

你至少需要準備基礎檢查點，而且我建議兩個版本都下好：

Dev 版：適合追求更高品質，通常可以從 CFG 4、20 steps 開始測試。
Distilled 版：適合追求生成速度，通常 CFG 1、8 steps 就能很快出結果。

除此之外，別忘了對應的 Video VAE 和 Audio VAE。如果你後面要做音訊驅動影片，這兩個元件不是可選項，而是工作流穩定運行的關鍵。

第 2 步：理解統一工作流的切換方式

LTX-2.3 真正厲害的地方，不只是品質提升，而是它把多種影片生成方式納入了同一個工作流邏輯。

在 ComfyUI 裡，你基本可以透過幾個開關完成模式切換：

想做 T2V：關閉 I2V 和 Custom Audio，只讓模型按 Prompt 生成。
想做 I2V：開啟 I2V，上傳參考首幀，讓模型圍繞原始圖像延展動作。
想做 A2V / Talking Avatar：開啟 Custom Audio，上傳你的配音檔，讓模型根據音訊驅動角色口型和表情。

如果你之前被不同模型、不同節點鏈路搞得很亂，那麼你會立刻理解這種統一結構的價值：不是每做一種任務就換一套系統，而是在一套熟悉的工作流裡切模式。

第 3 步：學會兩階段採樣

這一步很實用，也很容易被忽視。

在這個工作流裡，你可以先用半解析度生成初始影片，先確認動作、構圖和節奏沒有跑偏；然後再透過 LTX-2.3 Spatial Upsampler 做 2 倍潛空間放大。

這樣做的核心收益很簡單：

前期試錯更快
渲染時間明顯縮短
最終細節損失相對可控

對大多數人來說，這比一上來就全解析度硬跑更理性。你真正要優化的不是單次出圖參數，而是整套創作閉環的效率。

做數位人時，為什麼這套方案特別有吸引力？

如果你的目標是 Talking Avatar，LTX-2.3 在 ComfyUI 裡的優勢會更明顯。

傳統數位人流程最大的問題，不是「不能做」，而是鏈路太碎。你往往要先處理音訊，再分離人聲，再做嘴型驅動，再補動作一致性，最後還要回頭修清晰度。每多一層模組，就多一層不穩定。

而 LTX-2.3 的統一架構，至少把這件事往「可控生產流程」推進了一步。尤其是結合類似 Mel-Band Roformer 這樣的人聲處理節點後，整個音訊驅動流程會順很多。

這不代表它已經完美，但它確實比過去更接近「能反覆穩定複現」的生產工具。

Prompt 怎麼寫，效果差距最大？

這裡我給你一個非常直接的建議：不要只寫畫面主體，要把動作和鏡頭語言一起寫進去。

LTX-2.3 的理解能力上來之後，Prompt 的上限也被抬高了。你如果還停留在「一個人在街上走」的描述方式，模型當然也只能給你一個相對平的結果。

更有效的寫法是這樣：

一個穿著棕色夾克的男人在雨後的紐約街頭狂奔，背景是虛化的霓虹燈，鏡頭快速後退並持續跟隨，地面反射出潮濕的燈光，整體呈現電影感手持攝影風格。

這種 Prompt 的重點不是堆砌形容詞，而是同時交代：

主體是誰
場景是什麼
動作怎麼發生
鏡頭怎麼運動
整體氛圍是什麼

當模型對這些維度都能理解時，輸出自然會比「關鍵詞拼盤」更像一條真正的影片鏡頭。

我的實戰建議

如果你準備真正把它用起來，我建議你這樣開始：

先用 Distilled 版快速試構圖和動作。
畫面方向確定後，再切到 Dev 版追品質。
預設把兩階段採樣當成工作流標準配置，而不是補救手段。
做數位人時，優先保證音訊品質和首幀品質，因為這兩項最直接影響最終穩定性。

很多人做 AI 影片時容易陷入一個誤區：不停換模型，卻不優化流程。LTX-2.3 給你的真正價值，不只是「更強了」，而是它讓你有機會把工作流固定下來。

結論

LTX-2.3 在 ComfyUI 上的表現說明了一件事：AI 影片正在從「偶爾能出驚喜」的玩具，走向「可以系統生產」的工具。

它把視覺、動作和音訊三件原本分散的事情，盡量壓進同一個工作流裡。對創作者來說，這種統一性比單純再高一點畫質更重要。

如果你對 AI 影片生成感興趣，尤其想做數位人、短片或者直式內容，那麼這套 ltx 2.3 comfyui 工作流值得你親自跑一遍。你很可能會發現，過去需要多套工具拼起來的事情，現在第一次真正有了統一解法。

更快的路線：直接在瀏覽器使用 LTX Video 2.3

當然，不是每個人都想先花時間接節點、下載模型、再慢慢調 ComfyUI 工作流，才開始驗證自己的想法。

如果你想走一條更快的路線，可以直接使用 ltx23.app。它讓你在瀏覽器裡就能體驗 LTX 2.3，不需要先把整套本地環境完整搭好。

我的建議很簡單：如果你需要更深的控制力、更多自訂節點，以及更偏生產級的工作方式，就用 ComfyUI；如果你只是想快速測試 prompt、驗證創意方向，或者更輕量地拿到可用結果，那就直接去 ltx23.app。