LTX 2.3 ComfyUI:这可能是目前最强大的 AI 视频统一工作流
2026/03/18

LTX 2.3 ComfyUI:这可能是目前最强大的 AI 视频统一工作流

LTX 2.3 在 ComfyUI 中把文生视频、图生视频和音频驱动视频整合进统一节点架构,是当前非常值得上手的 AI 视频工作流。

我一直在关注 AI 视频生成的进化,如果你也和我一样,在各种模型之间反复横跳,你一定深有体会:想要高质量的画面,往往就得牺牲生成速度;想要音画同步,操作流程又极其复杂。

但今天,我想告诉你,游戏规则改变了。

Lightricks 刚刚发布了 LTX-2.3,这不仅仅是一个小版本的迭代,它通过一个统一的节点架构,将文生视频、图生视频和音频驱动视频整合在了一起。更重要的是,它在 ComfyUI 里的表现非常强。

如果你想制作高质量的数字人,或者更稳定地生成有电影感的短片,这套工作流值得你认真研究。


为什么 LTX-2.3 值得关注?

在进入实操之前,先看清楚 LTX-2.3 到底升级了什么。基于社区反馈,Lightricks 这次不是简单补丁,而是对底层能力做了比较完整的重构。

1. 细节明显更锐利

官方重建了潜空间,并训练了新的 VAE。这带来的直接变化是:头发丝、皮肤纹理、服装边缘,甚至画面里的文字,都比过去更容易保持清晰,塑料感和糊感明显减轻。

2. 提示词理解能力更强

它的提示词连接器扩大到了原来的 4 倍,意味着模型对复杂空间关系和风格指令的理解更扎实。像“左边站着一个男孩,右边蹲着一只猫”这种描述,模型的执行稳定性会高很多。

3. 图生视频不再容易“假动”

过去很多 I2V 工作流会出现一个老问题:画面看起来像幻灯片,人物几乎不动,或者只是简单缩放。LTX-2.3 对运动逻辑的处理更自然,动作连续性和镜头感都更好。

4. 原生支持竖屏

它支持原生的 1080x1920 纵向生成,这对短视频创作者非常重要。不是先做横屏再硬裁,而是从一开始就按竖屏结构生成,构图更合理。


如何在 ComfyUI 中跑通 LTX-2.3

如果你准备在 ComfyUI 里真正把它用起来,我建议你按下面这个顺序理解。

第 1 步:先准备核心模型

你至少需要准备基础检查点,而且我建议两个版本都下好:

  • Dev 版:适合追求更高质量,通常可以从 CFG 420 steps 开始测试。
  • Distilled 版:适合追求生成速度,通常 CFG 18 steps 就能很快出结果。

除此之外,别忘了对应的 Video VAEAudio VAE。如果你后面要做音频驱动视频,这两个组件不是可选项,而是工作流稳定运行的关键。

第 2 步:理解统一工作流的切换方式

LTX-2.3 真正厉害的地方,不只是质量提升,而是它把多种视频生成方式纳入了同一个工作流逻辑。

在 ComfyUI 里,你基本可以通过几个开关完成模式切换:

  • 想做 T2V:关闭 I2V 和 Custom Audio,只让模型按 Prompt 生成。
  • 想做 I2V:开启 I2V,上传参考首帧,让模型围绕原始图像延展动作。
  • 想做 A2V / Talking Avatar:开启 Custom Audio,上传你的配音文件,让模型根据音频驱动角色口型和表情。

如果你之前被不同模型、不同节点链路搞得很乱,那么你会立刻理解这种统一结构的价值:不是每做一种任务就换一套系统,而是在一套熟悉的工作流里切模式。

第 3 步:学会两阶段采样

这一步很实用,也很容易被忽视。

在这个工作流里,你可以先用半分辨率生成初始视频,先确认动作、构图和节奏没有跑偏;然后再通过 LTX-2.3 Spatial Upsampler 做 2 倍潜空间放大。

这样做的核心收益很简单:

  • 前期试错更快
  • 渲染时间明显缩短
  • 最终细节损失相对可控

对大多数人来说,这比一上来就全分辨率硬跑更理性。你真正要优化的不是单次出图参数,而是整套创作闭环的效率。


做数字人时,为什么这套方案特别有吸引力?

如果你的目标是 Talking Avatar,LTX-2.3 在 ComfyUI 里的优势会更明显。

传统数字人流程最大的问题,不是“不能做”,而是链路太碎。你往往要先处理音频,再分离人声,再做嘴型驱动,再补动作一致性,最后还要回头修清晰度。每多一层模块,就多一层不稳定。

而 LTX-2.3 的统一架构,至少把这件事往“可控生产流程”推进了一步。尤其是结合类似 Mel-Band Roformer 这样的人声处理节点后,整个音频驱动流程会顺很多。

这不代表它已经完美,但它确实比过去更接近“能反复稳定复现”的生产工具。


Prompt 怎么写,效果差距最大?

这里我给你一个非常直接的建议:不要只写画面主体,要把动作和镜头语言一起写进去。

LTX-2.3 的理解能力上来之后,Prompt 的上限也被抬高了。你如果还停留在“一个人在街上走”的描述方式,模型当然也只能给你一个相对平的结果。

更有效的写法是这样:

一个穿着棕色夹克的男人在雨后的纽约街头狂奔,背景是虚化的霓虹灯,镜头快速后退并持续跟随,地面反射出潮湿的灯光,整体呈现电影感手持摄影风格。

这种 Prompt 的重点不是堆砌形容词,而是同时交代:

  • 主体是谁
  • 场景是什么
  • 动作怎么发生
  • 镜头怎么运动
  • 整体氛围是什么

当模型对这些维度都能理解时,输出自然会比“关键词拼盘”更像一条真正的视频镜头。


我的实战建议

如果你准备真正把它用起来,我建议你这样开始:

  1. 先用 Distilled 版快速试构图和动作。
  2. 画面方向确定后,再切到 Dev 版追质量。
  3. 默认把两阶段采样当成工作流标准配置,而不是补救手段。
  4. 做数字人时,优先保证音频质量和首帧质量,因为这两项最直接影响最终稳定性。

很多人做 AI 视频时容易陷入一个误区:不停换模型,却不优化流程。LTX-2.3 给你的真正价值,不只是“更强了”,而是它让你有机会把工作流固定下来。


结论

LTX-2.3 在 ComfyUI 上的表现说明了一件事:AI 视频正在从“偶尔能出惊喜”的玩具,走向“可以系统生产”的工具。

它把视觉、动作和音频三件原本分散的事情,尽量压进同一个工作流里。对创作者来说,这种统一性比单纯再高一点画质更重要。

如果你对 AI 视频生成感兴趣,尤其想做数字人、短片或者竖屏内容,那么这套 ltx 2.3 comfyui 工作流值得你亲自跑一遍。你很可能会发现,过去需要多套工具拼起来的事情,现在第一次真正有了统一解法。

更快的路线:在浏览器里直接用 LTX Video 2.3

当然,不是每个人都愿意先花时间搭节点、下模型、调 ComfyUI 工作流,再开始验证自己的想法。

如果你想走一条更快的路线,可以直接使用 ltx23.app。它让你在浏览器里就能体验 LTX 2.3,而不用先把整套本地环境完整搭起来。

我的建议很简单:如果你需要更深的控制力、更多自定义节点,以及更偏生产级的调度方式,就用 ComfyUI;如果你只是想快速测试 prompt、验证创意方向,或者更轻量地拿到可用结果,那就直接去 ltx23.app

立即体验LTX 2.3

输入提示词,LTX 2.3为您免费生成第一个AI视频。