LTX 2.3是Lightricks开发的开源AI视频模型，支持文本、图片和音频生成视频。

LTX 2.3与WAN 2.2等视频模型相比如何？

LTX 2.3速度约为WAN 2.2的18倍，画质更锐利。

模型支持哪些视频规格？

LTX 2.3支持1080p，多比例，时长4-20秒。

LTX 2.3可以免费使用吗？

注册即送免费积分体验LTX 2.3。

LTX 2.3生成的视频可以商用吗？

LTX 2.3视频可商用，无水印无版税。

如何开始使用LTX 2.3？

注册后输入提示词，点击生成即可下载LTX 2.3视频。

LTX 2.3 ComfyUI：这可能是目前最强大的 AI 视频统一工作流

我一直在关注 AI 视频生成的进化，如果你也和我一样，在各种模型之间反复横跳，你一定深有体会：想要高质量的画面，往往就得牺牲生成速度；想要音画同步，操作流程又极其复杂。

但今天，我想告诉你，游戏规则改变了。

Lightricks 刚刚发布了 LTX-2.3，这不仅仅是一个小版本的迭代，它通过一个统一的节点架构，将文生视频、图生视频和音频驱动视频整合在了一起。更重要的是，它在 ComfyUI 里的表现非常强。

如果你想制作高质量的数字人，或者更稳定地生成有电影感的短片，这套工作流值得你认真研究。

为什么 LTX-2.3 值得关注？

在进入实操之前，先看清楚 LTX-2.3 到底升级了什么。基于社区反馈，Lightricks 这次不是简单补丁，而是对底层能力做了比较完整的重构。

1. 细节明显更锐利

官方重建了潜空间，并训练了新的 VAE。这带来的直接变化是：头发丝、皮肤纹理、服装边缘，甚至画面里的文字，都比过去更容易保持清晰，塑料感和糊感明显减轻。

2. 提示词理解能力更强

它的提示词连接器扩大到了原来的 4 倍，意味着模型对复杂空间关系和风格指令的理解更扎实。像“左边站着一个男孩，右边蹲着一只猫”这种描述，模型的执行稳定性会高很多。

3. 图生视频不再容易“假动”

过去很多 I2V 工作流会出现一个老问题：画面看起来像幻灯片，人物几乎不动，或者只是简单缩放。LTX-2.3 对运动逻辑的处理更自然，动作连续性和镜头感都更好。

4. 原生支持竖屏

它支持原生的 1080x1920 纵向生成，这对短视频创作者非常重要。不是先做横屏再硬裁，而是从一开始就按竖屏结构生成，构图更合理。

如何在 ComfyUI 中跑通 LTX-2.3

如果你准备在 ComfyUI 里真正把它用起来，我建议你按下面这个顺序理解。

第 1 步：先准备核心模型

你至少需要准备基础检查点，而且我建议两个版本都下好：

Dev 版：适合追求更高质量，通常可以从 CFG 4、20 steps 开始测试。
Distilled 版：适合追求生成速度，通常 CFG 1、8 steps 就能很快出结果。

除此之外，别忘了对应的 Video VAE 和 Audio VAE。如果你后面要做音频驱动视频，这两个组件不是可选项，而是工作流稳定运行的关键。

第 2 步：理解统一工作流的切换方式

LTX-2.3 真正厉害的地方，不只是质量提升，而是它把多种视频生成方式纳入了同一个工作流逻辑。

在 ComfyUI 里，你基本可以通过几个开关完成模式切换：

想做 T2V：关闭 I2V 和 Custom Audio，只让模型按 Prompt 生成。
想做 I2V：开启 I2V，上传参考首帧，让模型围绕原始图像延展动作。
想做 A2V / Talking Avatar：开启 Custom Audio，上传你的配音文件，让模型根据音频驱动角色口型和表情。

如果你之前被不同模型、不同节点链路搞得很乱，那么你会立刻理解这种统一结构的价值：不是每做一种任务就换一套系统，而是在一套熟悉的工作流里切模式。

第 3 步：学会两阶段采样

这一步很实用，也很容易被忽视。

在这个工作流里，你可以先用半分辨率生成初始视频，先确认动作、构图和节奏没有跑偏；然后再通过 LTX-2.3 Spatial Upsampler 做 2 倍潜空间放大。

这样做的核心收益很简单：

前期试错更快
渲染时间明显缩短
最终细节损失相对可控

对大多数人来说，这比一上来就全分辨率硬跑更理性。你真正要优化的不是单次出图参数，而是整套创作闭环的效率。

做数字人时，为什么这套方案特别有吸引力？

如果你的目标是 Talking Avatar，LTX-2.3 在 ComfyUI 里的优势会更明显。

传统数字人流程最大的问题，不是“不能做”，而是链路太碎。你往往要先处理音频，再分离人声，再做嘴型驱动，再补动作一致性，最后还要回头修清晰度。每多一层模块，就多一层不稳定。

而 LTX-2.3 的统一架构，至少把这件事往“可控生产流程”推进了一步。尤其是结合类似 Mel-Band Roformer 这样的人声处理节点后，整个音频驱动流程会顺很多。

这不代表它已经完美，但它确实比过去更接近“能反复稳定复现”的生产工具。

Prompt 怎么写，效果差距最大？

这里我给你一个非常直接的建议：不要只写画面主体，要把动作和镜头语言一起写进去。

LTX-2.3 的理解能力上来之后，Prompt 的上限也被抬高了。你如果还停留在“一个人在街上走”的描述方式，模型当然也只能给你一个相对平的结果。

更有效的写法是这样：

一个穿着棕色夹克的男人在雨后的纽约街头狂奔，背景是虚化的霓虹灯，镜头快速后退并持续跟随，地面反射出潮湿的灯光，整体呈现电影感手持摄影风格。

这种 Prompt 的重点不是堆砌形容词，而是同时交代：

主体是谁
场景是什么
动作怎么发生
镜头怎么运动
整体氛围是什么

当模型对这些维度都能理解时，输出自然会比“关键词拼盘”更像一条真正的视频镜头。

我的实战建议

如果你准备真正把它用起来，我建议你这样开始：

先用 Distilled 版快速试构图和动作。
画面方向确定后，再切到 Dev 版追质量。
默认把两阶段采样当成工作流标准配置，而不是补救手段。
做数字人时，优先保证音频质量和首帧质量，因为这两项最直接影响最终稳定性。

很多人做 AI 视频时容易陷入一个误区：不停换模型，却不优化流程。LTX-2.3 给你的真正价值，不只是“更强了”，而是它让你有机会把工作流固定下来。

结论

LTX-2.3 在 ComfyUI 上的表现说明了一件事：AI 视频正在从“偶尔能出惊喜”的玩具，走向“可以系统生产”的工具。

它把视觉、动作和音频三件原本分散的事情，尽量压进同一个工作流里。对创作者来说，这种统一性比单纯再高一点画质更重要。

如果你对 AI 视频生成感兴趣，尤其想做数字人、短片或者竖屏内容，那么这套 ltx 2.3 comfyui 工作流值得你亲自跑一遍。你很可能会发现，过去需要多套工具拼起来的事情，现在第一次真正有了统一解法。

更快的路线：在浏览器里直接用 LTX Video 2.3

当然，不是每个人都愿意先花时间搭节点、下模型、调 ComfyUI 工作流，再开始验证自己的想法。

如果你想走一条更快的路线，可以直接使用 ltx23.app。它让你在浏览器里就能体验 LTX 2.3，而不用先把整套本地环境完整搭起来。

我的建议很简单：如果你需要更深的控制力、更多自定义节点，以及更偏生产级的调度方式，就用 ComfyUI；如果你只是想快速测试 prompt、验证创意方向，或者更轻量地拿到可用结果，那就直接去 ltx23.app。