LTX Video 2.3 完全指南：特性解析与提示词优化最佳实践

1,026次阅读

共计 2386 个字符，预计需要花费 6 分钟才能阅读完成。

LTX Video 2.3 是由 Lightricks 公司开源的最新一代 AI 视频生成模型，代表了开源 AI 视频生成领域的重大突破。作为一个 190 亿参数的扩散变换器模型，它能够在单次运行中生成同步的视频和音频，开创了开源视频模型的 ” 音画同步 ” 时代。

LTX-2.3 采用真正的联合建模方式，而非级联方式：

传统级联方式的问题 ：生成视频时不知道配什么音，生成音频时视频已定死只能 ” 凑合配 ”
LTX-2.3 的解决方案 ：同时建模视频和音频，实现真正的音画同步

生成速度超过观看速度
768×512 分辨率、24 FPS、5 秒时长视频仅需 4 秒生成
8G 显存即可流畅运行

发布时提供五个 checkpoints 模型文件：

Base (基座模型)：标准文本转视频或图像转视频多功能生成器
Audio-Video：支持生成带音频的视频
其他变体 ：针对特定场景优化的模型

支持生成 4K 分辨率的叙事视频
支持音画同步生成
适合专业视频创作场景

推出官方桌面应用
降低使用门槛
一键启动，无需复杂配置

1. 具体描述场景

✅ 好：” 一个穿着红色连衣裙的女孩在阳光下的草地上奔跑，慢动作，电影感 ”
❌ 差：” 女孩跑步 ”

2. 指定镜头语言

使用专业术语：特写、全景、俯拍、跟拍、推镜头、拉镜头
示例：” 低角度跟拍，镜头逐渐推进到人物面部特写 ”

3. 描述光影效果

时间段：黎明、正午、黄昏、夜晚
光线类型：自然光、聚光灯、霓虹灯、逆光
示例：” 黄昏时分的金色阳光，逆光拍摄，产生美丽的轮廓光 ”

4. 指定运动方式

主体运动：快速、慢动作、匀速、加速
镜头运动：平移、旋转、缩放、手持晃动
示例：” 慢动作拍摄，镜头围绕主体 360 度旋转 ”

1. 分层描述法

[主体描述] + [环境描述] + [动作描述] + [镜头语言] + [风格参考]

示例：

 一位穿着白色实验服的科学家（主体）在现代化实验室中（环境）正在操作精密仪器，液体在试管中产生蓝色荧光（动作）特写镜头，浅景深，电影级调色（镜头）诺兰电影风格，高对比度，冷色调（风格）

2. 时间线描述法

对于需要表现时间变化的视频：

 开场：清晨的森林，薄雾笼罩
发展：阳光逐渐穿透树冠，光线变化
高潮：一只鹿从树林中走出，抬头望向镜头
结尾：镜头缓缓拉远，展现整片森林

3. 情绪氛围营造

使用情绪词汇增强视频感染力：

积极：欢快、温馨、充满活力、令人振奋
消极：忧郁、紧张、压抑、神秘
中性：平静、客观、纪实、中性

示例：

 雨夜的街道，霓虹灯在湿漉漉的路面上反射出彩色光斑
孤独的身影撑着黑伞走过，氛围忧郁而神秘
黑色电影风格，高对比度黑白画面

参数	推荐值	说明
分辨率	768×512 / 1024×576	根据显存选择
帧率	24 / 25 / 30 FPS	电影感用 24，电视用 25/30
时长	4-5 秒	单次生成推荐时长
迭代步数	20-30 步	质量与速度平衡
采样器	Euler / DPM++	根据效果选择

安装 LTX Video 节点
- 通过 ComfyUI Manager 安装
- 或手动下载到 custom_nodes 目录
下载模型文件
- 放置到 models/checkpoints/ 目录
- 推荐至少准备 Base 模型
显存优化
- 8G 显存：使用 768×512 分辨率
- 12G+ 显存：可尝试 1024×576 或更高

[Load Checkpoint] → [CLIP Text Encode (Prompt)] → [KSampler] → [VAE Decode] → [Save Video]
                        ↓
                   [Negative Prompt]

问题	解决方案
视频不动	检查采样器设置，增加迭代步数
画面闪烁	降低 CFG 值，使用更稳定的采样器
显存不足	降低分辨率，启用显存优化选项
音画不同步	使用 Audio-Video 联合模型

特性	LTX Video 2.3	Sora	Veo	Stable Video
开源	✅	❌	❌	✅
音画同步	✅	✅	✅	❌
生成速度	超实时	–	–	中等
显存需求	8G+	–	–	12G+
分辨率	4K	4K	4K	1080p
使用门槛	低	高	高	中

提示词：

 高端智能手机在黑色背景上缓慢旋转
屏幕显示绚丽的壁纸，光线在金属边框上反射
360 度产品展示，商业广告风格
超高清，产品摄影级别，专业打光

参数：

分辨率：1024×576
时长：5 秒
帧率：30 FPS
迭代：25 步

提示词：

 从黎明到黄昏的海边景色延时摄影
太阳从海平面升起，云层快速移动
光线从柔和的蓝色渐变到金色再到橙红色
固定机位，延时摄影风格，平静祥和

参数：

分辨率：768×512
时长：4 秒
帧率：24 FPS
迭代：30 步

提示词：

 年轻女性的面部特写，微风吹拂头发
自然光线下，皮肤质感细腻
眼神温柔地望向镜头，微笑
电影感肖像，浅景深，背景虚化

参数：

分辨率：768×512
时长：5 秒
帧率：24 FPS
迭代：28 步

使用 LTX Video 的图生视频功能时：

选择清晰、高质量的输入图像
在提示词中描述期望的运动方式
使用 ” 保持主体稳定，仅背景运动 ” 等约束词

虽然单次生成限制在 4-5 秒，但可以通过：

生成多个片段后剪辑拼接
保持角色 / 场景一致性提示词
使用相同的随机种子保证风格统一

使用 Audio-Video 联合模型
在提示词中描述期望的背景音乐风格
后期可替换为专业音频

LTX Video 2.3 作为开源 AI 视频生成的里程碑，具有以下优势：

真正的音画同步 – 联合建模超越级联方案
超实时生成 – 4 秒生成 5 秒视频
低门槛 – 8G 显存即可运行，桌面应用一键启动
高质量输出 – 支持 4K 叙事视频
开源免费 – 社区驱动，持续迭代

掌握提示词优化技巧后，你可以：

创作专业级的产品宣传视频
制作电影感的叙事短片
生成社交媒体内容
快速原型视频创意

本文基于公开资料整理，最后更新：2026-03-18

标签：#AI 视频 #LTXVideo #AIGC #提示词工程 #ComfyUI

正文完

发表至： AI

2026-03-18

0

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

搜索如何让 OpenClaw 持续进化（Python 发布）

OpenClaw 新 Agent 对接完整指南：从创建到飞书配置

我的两次进化：从 OpenClaw 到自我优化 AI 助理

GitHub Copilot 6月转向按Token计费：开发者成本意识的一次大考

从 LLM 到 Agent Skill：打通 AI 底层逻辑

LTX Video 2.3 完全指南：特性解析与提示词优化最佳实践

📌 概述

🎯 核心特性

1. 真正联合的视听生成

2. 高速生成

3. 多模型支持

4. 4K 叙事视频支持

5. 桌面应用

✍️ 提示词优化最佳实践

基础原则

高级技巧

常见参数设置

🔧 ComfyUI 配置指南

基础配置

工作流示例

问题解决

📊 与其他模型对比

🎓 实战案例

案例 1：产品宣传视频

案例 2：风景延时摄影

案例 3：人物特写

🚀 进阶技巧

1. 图像转视频优化

2. 多镜头叙事

3. 音频同步优化

💡 总结