NVIDIA 비디오 생성 가이드

텍스트 프롬프트만으로 AI 영상을 생성하면 결과에 대한 제어가 제한됩니다. 본 가이드는 출력 결과를 세밀하게 제어하고, RTX GPU에서 워크플로우를 최대한 빠르게 실행할 수 있도록 돕습니다.

이 가이드는 원하는 영상의 스토리보드를 생성하고 이를 4K 고화질 영상으로 변환하는 방법을 소개하며, 구성, 비주얼, 스타일 전반을 제어할 수 있도록 안내합니다. 먼저 구도를 안내하기 위한 3D 장면을 생성한 다음, 이를 사실적인 이미지로 변환하고, 해당 이미지를 첫 프레임과 마지막 프레임으로 사용하여 영상을 생성합니다. 그런 다음 NVIDIA RTX Video Super Resolution 업스케일러를 사용하여 영상을 최대 4K 해상도까지 업스케일링합니다. 그 결과, 사용자가 지정한 구도, 카메라 각도, 피사체의 움직임을 반영한 고해상도 AI 생성 영상이 생성됩니다.

시작하기

NVIDIA Video Generation 워크플로우는 Blender, ComfyUI, Black Forest Labs의 FLUX.1과 Lightricks의 LTX-2.3과 같은 생성형 AI 모델, 그리고 현재 ComfyUI에서 사용 가능한 새로운 RTX Video Super Resolution 업스케일러 노드를 사용하여 RTX GPU에서 로컬로 실행됩니다.

이 워크플로우는 세 단계로 구성됩니다. 텍스트 프롬프트로 3D 오브젝트를 생성하는 블루프린트, 해당 자산을 깊이 셰이더로 활용해 이미지 생성 구성을 제어하는 블루프린트, 그리고 첫 프레임과 마지막 프레임 이미지를 활용해 영상을 생성하고 RTX Video로 업스케일링하는 ComfyUI 워크플로우입니다.

3D 오브젝트 생성기 블루프린트	3D 가이드 생성형 AI 이미지	LTX-2.3 FirstFrame/LastFrame ComfyUI 템플릿
오브젝트를 설명하고, 미리보기를 확인한 뒤 원하는 결과를 선택하세요. Llama 3.1 8B, NVIDIA SANA, Microsoft TRELLIS를 사용합니다.	Blender에서 장면을 구성하고, FLUX.1을 사용하여 뷰포트에서 시작 프레임과 종료 프레임을 생성하세요. 비상업적 용도로만 사용됩니다. 상업적 사용은 Black Forest Labs에 문의하세요.	LTX-2.3을 사용하면 몇 초 만에 키프레임을 영상으로 변환할 수 있습니다. 그런 다음 ComfyUI의 새로운 RTX Video Super Resolution 노드를 사용하여 몇 초 만에 영상을 업스케일링합니다.

크리에이터는 블루프린트 중 필요한 부분만 선택해 사용할 수 있습니다. 전체 파이프라인을 사용할 경우, 각 단계를 순차적으로 진행해 시스템 자원을 최대한 활용하는 것이 최적의 성능 확보에 도움이 됩니다.

ComfyUI가 처음이라면 다음 가이드를 참고해 기본 사용법을 익힐 수 있습니다. NVIDIA RTX PC에서 비주얼 생성형 AI 시작하기 | NVIDIA 블로그

각 블루프린트 및 워크플로우 다운로드 및 설정 방법:

3D 오브젝트 생성 블루프린트: GitHub(NVIDIA-AI-Blueprints/3d-object-generation)의 안내를 따르십시오.
3D 가이드 생성형 AI 블루프린트: GitHub(NVIDIA-AI-Blueprints/3d-guided-genai-rtx)의 안내를 따르십시오.
LTX-2.3 FirstFrame/LastFrame 및 RTX Video 업스케일러 ComfyUI 템플릿은 ComfyUI 템플릿 브라우저(제공 시) 또는 GitHub를 통해 사용할 수 있습니다.

시스템 요구 사항:

GPU: 16GB VRAM (NVIDIA GeForce RTX 5070 Ti 이상 권장)
OS: Windows 11
시스템 RAM: 64GB

사용 설명서

1단계: 장면 에셋 생성 및 장면 구성

3D 오브젝트 생성 블루프린트를 사용하여 단독으로 또는 Blender 4.2에서 에셋을 생성하세요.

PowerShell 또는 명령 프롬프트에서 단독 실행 방법은 다음과 같습니다:

C:\3d-object-generation

conda activate 3dwithtrellis311

python app.py

실행 후 http://127.0.0.1:7860에 접속해 생성을 시작하세요. 구성하고자 하는 장면을 설명하는 텍스트를 입력하세요. 아래 예시는 "spaceship bridge"를 사용하여 레트로 미래 스타일의 인형극 장면을 재현합니다.

3D 오브젝트 생성기 Gradio UI

레이아웃을 위한 에셋 컬렉션을 충분히 확보하기 위해 여러 번 실행하세요. Blender에서 직접 모델링하거나 온라인에서 소품을 가져올 수도 있습니다. 모든 에셋은 동일한 폴더에 저장해야 합니다.

블루프린트에 포함된 샘플 Blender 파일(문서 > Blender MotorCycle_FF_LF.blend 파일 선택)을 열고, 기존 소품을 삭제한 뒤, Asset Importer 애드온을 사용하여 모든 콘텐츠를 한 번에 Blender로 가져옵니다. 오브젝트에 스케일을 적용해야 할 수 있으며, 10배 확대를 권장합니다.

여기에서 설정한 레이아웃은 중요합니다. 카메라 각도, 장면 깊이, 피사체 위치는 모두 생성된 영상에 그대로 반영됩니다.

2단계: 이미지 생성을 위한 Blender 설정 및 첫 번째 키프레임 생성

이미 ComfyUI Blender AI 노드의 설치 완료했으므로, 이제 실행 준비가 되어 있는지 확인하면 됩니다. Blender 4.5 LTS를 실행하고 이전에 생성하거나 수정한 3D 장면을 엽니다. 샘플 장면을 수정했다면, 뷰포트 오른쪽에 ComfyUI Blender AI Node (ComfyUI x Blender) 애드온이 표시됩니다. Launch/Connect to Comfy 버튼을 누르기 전에, 첫 프레임과 마지막 프레임 모두에 대해 ComfyUI 노드가 올바르게 설정되어 있는지 확인합니다:

UNET Loader
- unet Name
DualCLIPLoader
- clip_name1
- clip_name2
KSampler
- sampler_name
- 최신 Spark

Blender 내 ComfyUI 노드 뷰

애드온에서 빨간색 Launch/Connect to ComfyUI 버튼을 눌러 Comfy를 실행한 후 30~60초 정도 대기하고, 첫 프레임 구성을 선택한 뒤 “Run”을 클릭합니다. 이미지는 ComfyUI 그래프의 SaveImage 노드에 따라 디스크에 저장됩니다.

이 과정에서는 Blender 장면으로부터 깊이 맵(각 요소가 카메라로부터 얼마나 떨어져 있는지를 표현하는 그레이스케일 이미지)을 생성하고, 이를 텍스트 프롬프트와 결합해 정확한 레이아웃과 시점을 반영한 사실적인 이미지를 생성합니다. Blender에 포함된 ComfyUI를 사용합니다. 이미지 생성은 RTX에서 NVFP4로 가속화된 FLUX.1 Depth를 사용합니다.

프롬프트를 입력하고 실행하세요.

Depth Map 및 생성된 첫 번째 프레임

구성이 제대로 될 때까지 프롬프트를 수정하세요. 이 이미지는 첫 번째 프레임입니다.

3단계: 마지막 키프레임 생성

Blender에서 애니메이션 장면을 사용하는 경우, 종료 지점으로 설정할 타임라인 위치로 이동하세요. 정적인 장면이라면 두 번째 카메라를 추가하고, 오브젝트를 이동시켜 원하는 종료 상태를 구성합니다. 아래 예시는 두 번째 카메라를 창문 쪽 앞으로 이동시켜 우주 정거장을 촬영하도록 설정한 사례입니다.

세트와 첫 번째 및 마지막 카메라 뷰를 보여주는 Blender의 3D 뷰포트

마지막 프레임 생성을 위해 다음과 같이 설정을 변경합니다:

3D Guided 애드온 상단 메뉴를 마지막 프레임으로 변경하고 텍스트 프롬프트를 입력합니다.
ComfyUI 창 상단 메뉴를 마지막 프레임으로 변경합니다.
파일명을 수정해 마지막 프레임임을 구분합니다.

Blender 내 ComfyUI 노드 뷰 (Last Frame 설정)

실행을 누르고 마지막 프레임을 생성합니다.

생성된 마지막 프레임

4단계: LTX-2.3으로 영상 생성

ComfyUI의 템플릿 브라우저에서 LTX를 검색하고 FirstFrame/LastFrame 템플릿을 선택하세요. 첫 프레임과 마지막 프레임 이미지를 각각의 입력 노드에 불러옵니다. 프레임 간의 움직임을 설명하는 영상 프롬프트를 작성합니다. 사람에게 설명하듯 자연스러운 문단 형태로 작성합니다. 다음은 예시 프롬프트입니다.

“1960년대 시네마틱 슈퍼마리오네이션 스타일. 두 명의 마리오네트 파일럿이 레트로 콕핏을 조작한다: 왼쪽에는 짙은 갈색 피부를 가진 흑인 남성이 있고, 오른쪽에는 금발 여성으로, 두 사람 모두 노란 점프슈트를 착용하고 있다. 캐릭터의 움직임은 보이지 않는 위쪽 실에 의해 제약을 받아 의도적으로 뻣뻣하고, 끊기며, 스타카토처럼 표현된다. 파일럿은 전체 시퀀스 동안 일관된 피부 톤과 특징을 유지한다. 카메라는 일정한 속도로 전진하며 두 파일럿 사이를 지나 전면 창으로 이동한다. 외부에는 빨간 태양광 패널이 장착된 단단하고 정적인 미니어처 우주 정거장이 푸른 행성의 저궤도를 따라 떠 있으며, 구조는 변형 없이 견고하게 유지된다. 높은 대비의 스튜디오 조명, 모델의 질감이 드러나는 표현, 그리고 빈티지 35mm 필름 그레인이 적용된다. ”

CFG 값을 조정해 프롬프트 반영 정도 변화를 확인할 수 있으며, 값을 1에서 4로 높일수록 프롬프트에 더 정확히 맞춰지지만 창의성은 감소합니다.

참고로 필수는 아니지만, 간단한 네거티브 프롬프트를 작성하면 보다 기대에 가까운 결과를 얻는 데 도움이 됩니다. 원하는 영상 결과를 얻기 위해서는 프롬프트와 CFG 값을 여러 차례 조정하는 과정이 필요할 수 있습니다.

다음 Lightricks 가이드를 참고하면 프롬프트 작성 방법을 보다 깊이 이해할 수 있습니다. Prompting Direct audio-to-motion mapping for LTX-2 | LTX 블로그

1280x704 해상도로 영상을 생성한 결과가 마음에 들었다면, 1920x1088 해상도로 다시 생성해 보세요. 더 높은 품질의 영상을 얻을 수 있습니다. 참고로 LTX는 32로 나누어 떨어지는 해상도를 요구하기 때문에 704, 1088과 같은 해상도가 사용됩니다.

5단계: RTX Video로 4K 업스케일링

모든 RTX GPU에서 RTX Video Super Resolution 노드를 노드 그래프에 연결해 출력 영상을 배율로 확장할 수 있습니다. 설치가 빠른 경량 모델로, 작업 시간을 절약할 수 있습니다.

ComfyUI Manager에서 ‘RTX’를 검색해 RTX Video Super Resolution 노드를 설치합니다.

ComfyUI 노드 매니저 – ‘rtx’ 검색

Node Library에서 ‘RTX’를 검색한 뒤 RTX Video Super Resolution을 Node View로 드래그합니다.
VAE Decode IMAGE 출력을 RTX Video Images In에 연결하고, RTX Video upscale_images 출력을 Create Video Images In에 연결합니다.

RTX Video Super Resolution 노드 연결 구성

4k 해상도를 사용하려면 1280x720 영상의 경우 3배, 1920x1088의 경우 2배를 선택하세요. 극도로 빠른 성능이 필요한 경우가 아니라면 ULTRA 품질을 유지해 보세요.

완료

텍스트 기반 영상 생성 도구로는 제공하기 어려운 구성, 시점, 움직임에 대한 정밀한 제어를 유지하면서 RTX GPU만으로 아이디어 단계부터 완성된 4K 영상까지 구현할 수 있습니다.

FAQ

TRELLIS에서 최상의 3D 오브젝트를 생성하려면 어떤 입력 이미지가 적합한가요?

1:1 비율, 단순하거나 제거된 배경, 균일한 중성 조명, 정면 또는 4분의 3 시점이 명확한 이미지를 사용하는 것이 좋습니다. 강한 방향성 그림자는 텍스처에 반영되어 잘못된 표면 노멀을 생성할 수 있습니다. 생성된 오브젝트의 실루엣은 깔끔하지만 텍스처는 지저분한 경우, 원본 이미지의 복잡하거나 혼잡한 배경이 있었을 가능성이 큽니다. TRELLIS에 입력하기 전에 미리 제거하세요.

생성된 3D 오브젝트의 품질을 어떻게 향상시킬 수 있나요?

TRELLIS에서는 두 가지 설정이 품질에 영향을 미칩니다. Sparse Structure Sampling Steps는 기하학적 구조를 결정하며(값이 높을수록 더 깔끔한 토폴로지와 선명한 엣지를 생성), Latent Sampling Steps는 표면 디테일과 텍스처를 제어합니다(값이 높을수록 더 높은 품질을 제공합니다). 두 설정 모두에서 CFG Scale을 높이면 모델이 프롬프트를 보다 정확하게 따르도록 할 수 있습니다. 기본값으로 시작한 뒤, 결과가 원하는 내용과 다를 경우 점진적으로 값을 높이는 것을 권장합니다.

SANA 이미지 미리보기에는 어떤 해상도를 사용해야 하나요?

SANA는 1024x1024에 최적화되어 있습니다. 빠른 반복 작업이 필요할 경우 512 또는 768 해상도를 사용할 수 있습니다. 품질은 다소 낮아지지만 에셋 선택에는 충분합니다.

FLUX 대신 다른 이미지 모델을 사용할 수 있나요?

네, 가능합니다. 예를 들어 Load Model 노드에서 FLUX.1-dev를 SDXL과 같은 더 가벼운 모델로 교체하면 반복 작업 속도를 높일 수 있습니다. ComfyUI 그래프를 열면 긍정/부정 프롬프트, 무작위 변형을 위한 와일드카드 등 추가 옵션을 설정할 수 있으며, 다양한 조명 스타일을 자동으로 탐색하는 데 유용합니다.

LTX-2.3에는 어떤 해상도와 프레임 수를 사용해야 하나요?

반복 작업은 1280x720 해상도에서 진행하고, 시퀀스는 257프레임 이하로 유지하는 것이 일관성과 속도의 균형을 맞추는 데 유리합니다. 최종 단계에서는 해상도를 1920x1080으로 높여보는 것을 권장합니다.

LTX-2.3에는 어떤 추론 설정을 사용해야 하나요?

반복 작업 시에는 20~30 스텝, 최종 렌더링 시에는 40스텝 이상을 사용하는 것이 좋습니다. 프롬프트 일관성과 자연스러운 모션 간의 최상의 균형을 위해 가이던스 스케일을 3.0-3.5로 설정하세요.

RTX Video Super Resolution은 어떻게 설정하나요?

입력 해상도와 대상 출력에 따라 업스케일 요소를 1-4 사이로 설정하고 720p에서 4K로 업스케일링할 경우 3을 사용하는 것이 적절합니다. 최대 수준의 선명도 향상과 아티팩트 제거를 위해 Quality Level은 4로 설정하는 것을 권장합니다.

LTX-2.3 이미지-동영상 프롬프트는 어떻게 작성하나요?

LTX-2.3은 태그 나열이 아닌 자연어 문장을 요구합니다. 이미지에는 이미 시각 정보가 포함되어 있으므로, 프롬프트에서는 변화와 동작을 설명해야 합니다. 권장 구조는 다음과 같습니다: 샷 구성("중간 클로즈업, 약간 위로 기울어진 앵글"), 조명("골든 아워, 긴 그림자"), 이후 시간 흐름에 따른 동작("오토바이가 앞으로 가속하며 뒤에서 먼지가 일어남"). 톤과 품질을 나타내는 표현은 피사체보다 앞에 배치합니다. 4~6문장으로 작성하는 것이 적절합니다. 키프레임에 이미 보이는 내용은 반복하지 말고, 정적인 상태가 아닌 변화와 움직임을 설명합니다.

부정적인 프롬프트에는 무엇을 넣어야 할까요?

간결하게 유지하는 것이 중요합니다. 기본적으로 morphing, distortion, warping, flicker, jitter, blur, artifacts, glitch, overexposure, watermark, text, subtitles 등을 포함할 수 있습니다. 과도하게 긴 목록은 지양하는 것이 좋습니다. 또한 LTX-2.3은 부정적인 프롬프트를 필수로 요구하지 않습니다.

마지막 프레임이 입력 이미지와 일치하지 않습니다. 어떻게 해결하나요?

이는 알려진 문제입니다. 먼저 가이드 노드에서 마지막 프레임 강도 값을 1.0으로 높여줍니다. 그래도 문제가 해결되지 않는다면 마지막 프레임 위치 인덱스를 -1 대신 -12로 설정해 보세요. 이렇게 하면 모델이 종료되기 전 안착할 수 있는 여유 프레임이 확보됩니다. 또한 영상 길이가 길어질수록 마지막 프레임 일치도가 낮아지므로, 5초(121프레임) 이하로 유지하는 것이 결과 개선에 도움이 됩니다.

출력 영상이 완전히 검게 나옵니다. 가장 먼저 무엇을 확인해야 하나요?

다음 세 가지를 순서대로 확인합니다. 먼저 프레임 수가 (Nx8)+1 규칙을 따르는지 확인합니다(유효 값: 49, 65, 97, 121...). 둘째, FirstFrame/LastFrame 워크플로우를 사용하는 경우 VAE 디코드 노드 앞에 LTXVCropGuides를 추가했는지 확인하세요. 이 설정이 없으면 가이드 프레임이 디코딩을 손상시켜 검은 화면이 출력될 수 있습니다. 셋째, 텍스트 인코더가 정상적으로 로드되었는지 확인합니다. Gemma 인코더가 누락되면 조건 신호가 없어 검은 또는 거의 검은 프레임이 생성됩니다.

영상 중간에 피사체의 외형이 변합니다. 어떻게 줄일 수 있나요?

피사체 변화는 버그가 아닌 모델의 한계입니다. 가장 효과적인 방법은 영상 길이를 5초 이하로 유지하고, 프롬프트에서 한 번에 하나의 동작만 명확히 설명하며, CFG를 3.0~3.5로 낮추는 것입니다. 반복 등장하는 캐릭터의 경우 해당 피사체로 학습된 LoRA를 사용하면 일관성이 크게 향상됩니다.