如何在 NVIDIA RTX PC 上开始使用视觉生成式 AI

2026-01-23 16:23作者：新浪电竞来源：网络

　　作者： Joel Pennington US

　　预设链接： https：//blogs.nvidia.cn/blog/rtx-ai-garage-comfyui-tutorial

　　+++

　　AI 驱动的内容生成如今已深度融入 Adobe、Canva 等热门工具，众多机构与工作室也已将该技术纳入工作流。当下的图像模型能够稳定输出逼真的写实效果，视频模型可以生成时长更长、连贯性更强的画面内容，而两者都能够遵循创作指令进行生成。

　　创作者正越来越多地在本地 PC 上运行这些工作流，以便把控创作素材、节省云服务成本，避免反复修改的阻碍，从而更高效地优化生成结果，满足创意项目的创作时间需求。

　　< 插入 LTX-2 视频案例： https：//youtu.be/6Iao0Q9cYlA？si=S1YL_PFiM-jNSMYm >

　　自诞生以来，NVIDIA RTX PC 凭借强大的性能成为运行创意 AI 的首选平台，不仅大幅缩短了迭代时间，还允许用户免费在本地运行模型，彻底消除了对 Token 消耗的焦虑。

　　本月早些时候在 CES 上发布的 RTX 优化与全新开放权重模型让创作者能以更快的速度、更高的效率进行创作，并获得远超以往的创意呈现。

　　如何开始

　　视觉生成式 AI 可能会让新用户感觉复杂且有诸多限制。在线AI生成工具虽然使用简单，但可控性有限。

　　ComfyUI 这样的开源社区工具简化了高级创意工作流的搭建，且安装便捷。同时，它们还提供了获取最新、强大的模型，如 FLUX.2 和 LTX-2，以及优秀社区工作流的简单途径。

　　以下是如何在 RTX PC 上使用 ComfyUI 和主流模型，使用视觉生成式 AI 进行本地创作的方法：

访问comfy.org下载并安装适用于Windows的ComfyUI。
启动ComfyUI。
使用入门模板创建第一张图像：

点击“模板”按钮，然后选择“快速开始”，并选择“文本转图片”。
将模型“节点”连接到“保存图像”节点。这些节点以流水线方式协同工作，利用AI生成内容。
点击蓝色的“运行”按钮，观察绿色“节点”高亮显示，RTX PC 将开始生成你的第一张图像。

　　修改提示词并再次运行，即可进一步深入探索视觉生成式AI的创作世界。

　　下面介绍了如何深入使用更多 ComfyUI 模板，体验采用更高级的图像与视频模型的创作流。

　　模型规模与 GPU

　　当用户逐渐熟悉 ComfyUI 及其支持的模型后，就需要开始考虑GPU显存容量，以及某个模型是否能够在显存范围内运行。以下是根据不同 GPU 显存容量给出的入门示例：

　　[1] *为获得最佳效果，建议在 NVIDIA GeForce RTX 50 系列 GPU 上使用 FP4 模型，在 RTX 40 系列 GPU 上使用 FP8 模型。这样可以在占用更少显存的同时提供更高性能。

　　[2] *为获得最佳效果，建议在 NVIDIA GeForce RTX 50 系列 GPU 上使用 FP4 模型，在 RTX 40 系列 GPU 上使用 FP8 模型。这样可以在占用更少显存的同时提供更高性能。

　　生成图像

　　探索如何使用FLUX.2-Dev提升图像生成质量：

　　在 ComfyUI 的“模板”部分，点击“所有模板”，并搜索“FLUX.2 Dev 文生图”。选择后，ComfyUI 将加载一组已连接的节点，即“工作流”。

　　FLUX.2-Dev 包含需要下载的模型权重。

　　模型权重是 AI 模型内部所包含的“知识”，可以将其理解为大脑中的突触。当像 FLUX.2 这样的图像生成模型被训练时，它会从数百万张图像中学习模式，而这些模式会以数十亿个数值的形式存储下来，这些数值就被称为“权重”。

　　ComfyUI 并未内置这些权重文件，而是在需要时从 Hugging Face 等仓库中按需下载。这些文件体积通常很大（FLUX.2 根据版本不同，大小可能超过 30GB），因此系统需要具备足够的存储空间，并预留相应的下载时间。

　　系统会弹出一个对话框，引导用户下载模型权重。权重文件（filename.safetensors）会自动保存到用户 PC 上 ComfyUI 对应的正确文件夹中。

　　保存工作流：

　　在模型权重下载完成后，下一步是将这个新下载的模板保存为一个“工作流”。

　　点击左上角的汉堡菜单（三条横线），选择“保存”。该工作流将被保存到用户的“工作流”列表中（按下 W 键可显示或隐藏该窗口）。随后可关闭标签页，在不丢失任何内容的情况下退出该工作流。

　　如果在模型权重尚未下载完成前意外关闭了下载对话框：

　　● 按下 W 键可快速打开“工作流”窗口。

　　● 选择该工作流，ComfyUI 将重新加载，并自动提示下载缺失的模型权重。

　　此时，ComfyUI 已准备就绪，可使用 FLUX.2-Dev 生成图像。

　　FLUX.2-Dev提示词技巧：

　　● 从清晰、具体的主体、场景、风格和氛围描述开始，例如：“电影感特写，一辆雨中的复古赛车，湿漉漉的柏油路面上映出霓虹反射，高对比度，35mm 摄影。”在入门阶段，简短到中等长度的提示词——一两句聚焦明确的描述——通常比冗长、故事化的提示更容易控制效果。

　　● 添加约束条件以引导一致性和质量，例如：

　　○ 构图（“广角镜头”或“人像构图”）

　　○ 细节水平（“高细节，清晰对焦”）

　　○ 写实程度（“写实风格”或“风格化插画”）

　　● 如果画面显得过于杂乱，优先减少形容词，而不是继续添加。

　　● 避免使用负面提示词，专注描述你想要的内容。

　　请参见 Black Forest Labs 提供的指南，了解更多关于FLUX.2提示词的使用技巧。

　　本地存储路径：

　　完成图像细化后，右键点击“保存图像”节点，即可在浏览器中打开图像，或将其保存到新的位置。

　　根据应用类型和操作系统不同，ComfyUI 的默认输出文件夹通常如下：

　　● Windows（独立版/便携版）：通常位于C：\ComfyUI\output，或程序解压目录下的类似路径。

　　● Windows（桌面版）：路径通常位于AppData目录中，例如：C：\Users%username%\AppData\Local\Programs@comfyorgcomfyui-electron\resources\ComfyUI\output

　　● Linux：默认安装路径为~/。config/ComfyUI。

　　视频生成

　　以全新的 LTX-2 模型为例，探索如何提升视频生成质量：

　　< 插入 LTX-2 视频案例： https：//youtu.be/ifxOXmL351I？si=xf2_j01BAQlUhfhY >

　　Lightrick 的 LTX-2 是一款先进的音视频模型，专为在 ComfyUI 中实现可控、分镜式的视频生成而设计。在下载完成 LTX-2 图生视频 模板及模型权重后，建议将提示词视为简短的镜头描述，而非完整的电影剧本。

　　与前两个模板不同，LTX-2 图生视频 结合了一张图像与文本提示词来生成视频。

　　用户可以选用在 FLUX.2-Dev 中生成的图像之一，并添加文本提示词，让画面“动”起来。

　　LTX-2 提示词技巧：

　　为在ComfyUI中获得最佳效果，建议将提示词用现在时写成一个连贯的段落，或采用简洁的脚本格式，包括场景标题、动作、角色名称和对白。整体以4到6句描述性语句为宜，覆盖所有关键要素：

　　● 确立镜头与场景（远景/中景/特写、光照、色彩、材质、氛围）。

　　● 将动作描述为清晰的连续过程，定义角色的可见特征与肢体语言，并明确镜头运动方式。

　　● 最后补充音频元素，如环境音、音乐和对白，并使用引号标注。

　　细节层级需与镜头尺度相匹配。例如，特写镜头比远景镜头更需要精确的角色与材质细节。要清楚说明镜头与主体之间的关系，而不仅仅是镜头如何移动。

　　提示词中可考虑加入更多细节，包括：

　　● 镜头运动语言：明确指定“缓慢推轨前进”“手持跟拍”“过肩镜头”“横向摇摄”“向上俯仰”“推进”“拉远”或“固定镜头”等。

　　● 镜头类型：清晰说明远景、中景或特写，并结合合适的光照、浅景深与自然运动。

　　● 节奏：引导使用慢动作、延时摄影、停留镜头、长镜头、定格画面或无缝转场，以塑造节奏与氛围。

　　● 环境氛围：加入雾气、薄雾、雨水、黄金时刻光线、反射效果和丰富的表面纹理等场景细节，让画面更具真实感。

　　● 风格：在提示词开头明确风格，如绘画感、黑色电影、胶片风格、定格动画、像素化边缘、时尚大片或超现实风格。

　　● 光照：使用具体语言描述逆光、特定配色方案、柔和轮廓光、镜头光晕或其他光照细节。

　　● 情绪：重点刻画单一主体的表演，通过清晰的面部表情和细微动作传达情感。

　　● 声音与音频：提示角色使用不同语言说话或歌唱，并配合明确的环境音描述。

　　优化显存占用和图像质量

　　作为一款前沿模型，LTX-2 为了提供高质量效果，需要占用大量显存（VRAM）。随着分辨率、帧率、视频时长或采样步数的提升，显存占用也会随之增加。

　　ComfyUI 与 NVIDIA 合作优化了一项 weight streaming 功能，当 GPU 显存不足时，可将工作流的部分内容卸载到系统内存中运行——但这会以性能下降为代价。

　　根据GPU型号和使用场景的不同，用户可能需要对这些因素加以限制，以确保生成时间保持在合理范围内。

　　LTX-2 是一款极其先进的模型——但与任何模型一样，参数设置的调整都会对最终质量产生显著影响。

　　了解如何在 RTX GPU 上优化 LTX-2，请参考用于 ComfyUI 的 LTX-2 快速入门指南，

　　使用 FLUX.2-Dev 与 LTX-2 构建自定义工作流

　　用户如需简化在不同 ComfyUI 工作流之间来回切换、在本地寻找 FLUX.2-Dev 生成的图片并插入 LTX-2 工作流中的过程，可以将 FLUX.2-Dev 与 LTX-2 组合到一个新的工作流中：

　　● 打开已保存的 FLUX.2-Dev 文本转图像工作流。

　　● 按住 Ctrl 并用鼠标左键点击 FLUX.2-Dev 文本转图像节点。

　　● 在 LTX-2 图像转视频工作流中，使用 Ctrl+V 粘贴该节点。

　　● 将鼠标悬停在 FLUX.2-Dev 文本转图像节点的 “IMAGE” 接口点上，按住左键并拖动至 “调整图像/掩码大小” 接口点，蓝色连接线将自动生成。

　　以新名称保存该工作流，即可在同一个工作流中同时为图像和视频输入提示词。

　　高级 3D 生成

　　在使用 FLUX.2 生成图像、LTX-2 生成视频后，下一步是加入 3D 引导。NVIDIA 的 3D 引导生成式 AI Blueprint 展示了如何利用 3D 场景与资产，在 RTX PC 上驱动更可控、面向专业制作流程的图像与视频管线——并提供现成的工作流，供用户查看、调整和扩展。

　　创作者还可以在 Stable Diffusion subreddit 和 ComfyUI Discord 上展示作品、与其他用户交流并获取帮助。

　　#别错过 — NVIDIA RTX AI PC 的最新进展

　　💻NVIDIA @ CES 2026

　　NVIDIA 在 CES 发布的内容包括 NVIDIA RTX 加速 PC 端 4K AI 视频生成，LTX-2 与 ComfyUI全面升级。ComfyUI、LTX-2、Llama.cpp、Ollama、Hyperlink 等迎来全面 RTX 加速，解锁 AI PC 上的视频、图像与文本生成应用场景。

　　📝 Black Forest Labs 的多种 FLUX 2 版本

　　FLUX.2 [klein] 是一组紧凑、超高速的模型，支持图像生成与编辑，并提供业界领先的图像质量。这些模型通过 NVFP4 与 NVFP8 加速，速度最高可提升 2.5 倍，在 RTX GPU 上实现高性能运行。

　　NVIDIA RTX AI PC的相关信息请关注微博、抖音及哔哩哔哩官方账号。

　　软件产品信息请查看声明。

　　关于NVIDIA

　　NVIDIA （NASDAQ： NVDA）是加速计算领域的全球领导者。

　　# # #

　　媒体咨询：

　　Jade Li

　　NVIDIA GeForce， Studio PR

　　邮箱：jadli@nvidia.com