NVIDIA 動画生成ガイド

テキストプロンプトのみで AI 動画を生成すると、結果に対する制御が限られます。このガイドは、アウトプットをきめ細かく制御し、RTX GPU を使用してワークフローを可能な限り高速に実行するのに役立ちます。

このガイドでは、構図、ルック、スタイルを制御しながら、作成したい動画のストーリーボードを生成し、4K 高品質の動画に変換する方法を説明します。まず、構図のガイドとなる 3D シーンを生成し、フォトリアリスティックな画像に変換し、それらの画像を最初と最後のフレームとして使用して動画を生成します。その後、NVIDIA RTX Video Super Resolution アップスケーラーを使用して、最大 4K 解像度にアップスケールされます。その結果、正確な構図、カメラ角度、被写体の動きを追随する高解像度の AI 生成クリップが作成されます。

製品を使用する

NVIDIA 動画生成ワークフローは、Blender、ComfyUI、Black Forest Labs の FLUX.1 や Lightricks の LTX-2.3 などの生成 AI モデル、そして ComfyUI で利用可能になった新しい RTX Video Super Resolution アップスケーラーノードを使用して、RTX GPU 上でローカルで実行されます。

このワークフローは 3 つのステップに分かれています。1 つ目はテキストプロンプトから 3D オブジェクトを生成するブループリント、2 つ目はこれらのアセットを画像生成の構図制御のためのデプスシェーダーとして活用するブループリント、そして 3 つ目は最初と最後のフレーム画像を使用してテキストプロンプトから動画を生成し、RTX Video を使用して出力をアップスケールする ComfyUI のワークフローです。

3D オブジェクトジェネレーターのブループリント	3D ガイド付きの生成 AI 画像	LTX-2.3 FirstFrame/LastFrame ComfyUI テンプレート
オブジェクトを説明し、プレビューを確認して、希望するものを選択しましょう。Llama 3.1 8B、NVIDIA SANA、および Microsoft TRELLIS を使用します。	Blender でシーンをレイアウトし、FLUX.1 を使用してビューポートから開始フレームと終了フレームを生成します。非商用のみです。商用利用については、Black Forest Labs までお問い合わせください。	LTX-2.3 を使用して、キーフレームを数秒で動画に変換しましょう。その後、ComfyUI の新しい RTX Video Super Resolution Node を使用して、動画を数秒でアップスケールできます。

クリエイターは、ブループリントのどの部分を使用したいかを選択できます。フルパイプラインを使用する場合は、すべてのシステムリソースが利用可能な状態を確保して最高のパフォーマンスを発揮できるよう、次のステップに進む前に各ステップを完了することを推奨します。

ComfyUI を初めて利用される方は、操作に慣れるためにこちらのガイドをご覧ください。NVIDIA RTX PC でビジュアル生成 AI を始める方法 | NVIDIA ブログ

各ブループリントやワークフローのダウンロードとセットアップ手順:

3D オブジェクトジェネレーターブループリント: こちらの GitHub (NVIDIA-AI-Blueprints/3d-object-generation) の手順に従ってください。
3D ガイド付き生成 AI ブループリント: こちらの GitHub (NVIDIA-AI-Blueprints/3d-guided-genai-rtx) の手順に従ってください。
LTX-2.3 FirstFrame/LastFrame + RTX Video アップスケーラー ComfyUI テンプレート。ComfyUI テンプレートブラウザー (利用可能な場合) または GitHub 経由で提供。

システム要件:

GPU: 16GB の VRAM (NVIDIA GeForce RTX 5070 Ti 以上を推奨)
OS: Windows 11
システム RAM: 64GB

ユーザーガイド

ステップ 1: シーンアセットを生成し、シーンを構築する

スタンドアロンまたは Blender 4.2 のいずれかの方法で、3D オブジェクト生成ブループリントを使用してアセットを生成します。

PowerShell またはコマンドプロンプトでスタンドアロン起動する手順は以下の通りです:

C:\3d-object-generation

conda activate 3dwithtrellis311

python app.py

実行が完了したら、http://127.0.0.1:7860 にアクセスして生成を開始します。構築したいシーンの説明を入力します。以下の例では、「宇宙船のブリッジ」を使用して、レトロフューチャーなパペット操作の映像クリップを再現しています。

3D オブジェクトジェネレーター Gradio UI

数回実行して、レイアウト用のアセットを豊富に揃えましょう。ユーザーは、Blender で直接モデリングしたり、オンラインで小道具を見つけたりすることもできます。すべてのアセットが同じフォルダーに保存されていることを確認してください。

Blueprint に付属するサンプル Blender ファイルを開き（「ドキュメント」>>「Blender」：MotorCycle_FF_LF.blend ファイルを選択）、その中の小道具（プロップ）とセットデコレーションを削除します。次に、アセットインポーターアドオンを使用して、すべてのコンテンツを一度に Blender に取り込みます。オブジェクトにスケールファクターを適用する必要がある場合もあります。10x を推奨します。

ここで設定するレイアウトは重要です。カメラのアングル、シーンの奥行き、被写体の位置は、すべて生成された動画に直接反映されます。

ステップ 2: Blender を画像生成用にセットアップし、初めてのキーフレームを作成

ComfyUI Blender AI ノードのインストールプロセスはすでに完了しています。セットアップと動作確認が済んでいることを確認しましょう。Blender 4.5 LTS を開き、以前に構築または編集した 3D シーンを開きます。サンプルシーンを変更したため、ビューポートの右側に ComfyUI Blender AI Node (ComfyUI x Blender) アドオンがすでに表示されているはずです。[追加/Connect to Comfy] を押す前に、ComfyUI ノードが正しく設定されていることを確認してください。最初と最後のフレームの ComfyUI グラフの両方でこれを行ってください。

UNET Loader
- unet 名
DualCLIPLoader
- clip_name1
- clip_name2
KSampler
- sampler_name
- scheduler

Blender での ComfyUI Node View

アドオンの赤い [起動/Connect to ComfyUI] ボタンを押し、Comfy が読み込まれるまで 30 ～ 60 秒待ち、最初のフレーム用の構成を選択し、「Run」を押します。画像は、ComfyUI グラフの SaveImage ノードに従ってディスクに保存されます。

このグラフは、Blender シーンからデプスマップ (各要素がカメラからの距離をエンコードしたグレースケール画像) を生成し、テキストプロンプトと組み合わせることで、正確なレイアウトや視点に合ったフォトリアリスティックな画像を生成します。Blender に埋め込まれた ComfyUI を使用します。画像生成は、FLUX.1 Depth を使用し、RTX 上の NVFP4 によって高速化されます。

プロンプトを入力し、実行します。

デプスマップと生成された最初のフレーム

構成が正しく見えるようになるまで、プロンプトを改良します。この画像は最初のフレームです。

ステップ 3: 最後のキーフレームを生成

Blender では、アニメーション化されたシーンがある場合は、終了と決めたアニメーションの時点までスクラブします。静止したシーンがある場合は、2 台目のカメラを設置し、モーションを終了させたい位置に他のオブジェクトを動かします。以下の例では、宇宙ステーションのショットを撮影できるように、2 台目のカメラを窓の方へ移動させています。

Blender の 3D ビューポートに表示された、セットと最初および最後のカメラビュー

変更を加えて最後のフレームを生成します。

3D Guided アドオンのトップメニューを「最後のフレーム」に変更し、テキストプロンプトを追加します。
ComfyUI ウィンドウのトップメニューを「最後のフレーム」に変更
最後のフレームを区別できるようファイル名を編集

Blender での ComfyUI ノードビューと最後のフレームビューを併用

Run を押し、最後のフレームを作成します。

生成された最後のフレーム

ステップ 4: LTX-2.3 による動画の生成

ComfyUI で、テンプレートブラウザーで LTX を検索し、FirstFrame/LastFrame テンプレートを選択します。最初と最後のフレーム画像を、対応する入力ノードに読み込みます。フレーム間の動きを説明する動画プロンプトを作成します。まるで誰かに何かを説明しているかのように、段落として記述しましょう。このプロジェクトのサンプルプロンプトは以下の通りです。

「Cinematic 1960s Supermarionation style」2 人のマリオネットの操縦士がレトロなコックピットを操縦しています。左側はダークブラウンの肌を持つ黒人男性、右側はブロンドの女性で、2 人とも黄色いジャンプスーツを着用しています。キャラクターの動きは意図的に硬く、ぎこちなく、断続的で、見えない頭上のひもに拘束されています。パイロットは、シークエンス全体を通して一貫したスキントーンと容姿を維持します。カメラは安定した前方ドリーインを行い、パイロット間を通り抜けてフロントウィンドウへ向かいます。外では、赤いソーラーパネルを備えた硬く静止したミニチュア宇宙ステーションが、青い惑星の上空の低軌道に浮かんでおり、ステーションは完全に変形せず固体のままです。ハイコントラストのスタジオ照明、目に見えるモデルのテクスチャ、ヴィンテージの 35mm フィルムグレイン。」

CFG を調整してプロンプト順守度の変化を確認します。数値を 1 から 4 に増やすと、プロンプトに沿った生成結果が得られますが、創造性が失われます。

ヒント: 必須ではありませんが、短いネガティブプロンプトを書くことで、ユーザーの期待に近い生成結果を得るのに役立ちます。動画を正しく生成するには、プロンプトや CFG 値を試してみる必要がある場合があります。

Lightricks のガイドで、プロンプティングについて詳しく学べます。Prompting Direct Audio-to-Motion Mapping』| LTX ブログ

1280x704 動画を生成し、結果が気に入った場合は、1920x1088 で再生成してみてください。これにより、より見栄えの良い動画が作成されます。注：LTX では 32 で割り切れるピクセル寸法が必要であるため、704 や 1088 などの非標準的な解像度が使用されます。

ステップ 5: RTX Video で 4K にアップスケール

すべての RTX GPU では、新しい RTX Video Super Resolution ノードがノードグラフに接続し、出力動画を乗数でスケーリングします。小型モデルで、すぐにインストールできるため、時間を節約できます。

ComfyUI Manager で「RTX」を探し、RTX Video Super Resolution ノードをインストールします。

ComfyUI Node Manager、検索語句：「rtx」

ノードライブラリで「RTX」を探し、RTX Video Super Resolution をノードビューにドラッグします。
VAE Decode IMAGE を RTX Video Images In に接続し、RTX Video upscale_images を Create Video images In に接続します。

RTX Video Super Resolution ノード接続

4k 解像度にするには、1280x720 動画では 3 倍、1920x1088 では 2 倍を選択します。非常に高速なパフォーマンスが必要でない限り、ULTRA 品質を維持してください。

完了

構図、遠近法、動きに対してテキストのみの動画ツールでは実現できない創造的な制御を発揮しながら、シーンのアイデアから完成した 4K 動画まで、すべてを RTX GPU 上で完結させました。

FAQ

TRELLIS の最高の 3D オブジェクトを作り出す入力画像はどれでしょうか。

1:1 のアスペクト比、無地または除去済みの背景、ニュートラルで均一なライティング、そして正面または斜め 45 度（3/4）からのクリアな画像を使用してください。強い指向性の影がテクスチャに焼き付き、誤った表面法線が生成されます。生成されたオブジェクトのシルエットはクリーンですが、テクスチャが乱雑な場合は、ソース画像の背景が複雑または散らかっている可能性があります。TRELLIS に入力する前に背景を削除してください。

生成された 3D オブジェクトの品質を向上させるには、どうすればよいですか?

TRELLIS の 2 つの設定で、品質を制御します。 Sparse Structure Sampling Steps はジオメトリの骨格を定義し（ステップ数が多いほどトポロジがきれいになり、エッジがシャープになります）、Latent Sampling Steps は表面のディテールやテクスチャを制御します（ステップ数が多いほどより良い結果が得られます）。両方の CFG Scale を上げると、モデルがプロンプトにより忠実に追従するようになります。デフォルト値から開始し、出力がプロンプトの説明と一致しない場合は値を増やしてください。

SANA 画像のプレビューには、どの解像度を使用すればよいですか?

SANA は、1024x1024 向けに最適化されています。イテレーション中により高速なプレビューを希望する場合は、512 または 768 を使用してください。品質は若干低下しますが、アセットを選択するには十分です。

FFLUX を別の画像モデルに置き換えることはできますか？

はい。たとえば、Load Model ノードでは、FLUX.1-dev を SDXL などのより小さなモデルに置き換えて、イテレーションを高速化できます。ComfyUI グラフを開くと、ポジティブ / ネガティブプロンプトや、さまざまなライティングスタイルを自動的に切り替えるのに便利なランダム化用ワイルドカードなど、追加の条件調整オプションにアクセスできます。

LTX-2.3 にはどの解像度とフレームカウントを使用すればよいですか?

コヒーレンスとスピードの最適なバランスを得るために、1280x720 でイテレーション作業を最適化し、シーケンスを 257 フレーム未満に維持してください。準備が整ったら、ピクセル解像度を 1920x1080 に上げてみてください。

LTX-2.3 にはどの推論設定を使用すればよいですか?

イテレーション時は 20 ～ 30 ステップ、最終品質のレンダリングには 40 以上のステップを使用します。プロンプトのコヒーレンスと自然な動きの最適なバランスを得るために、Guidance Scale を 3.0-3.5 に設定してください。

RTX Video Super Resolution を設定するにはどうすればよいですか?

入力解像度とターゲット出力に基づいて Upscale Factor (1-4) を設定します。720p から 4K の場合は 3 を使用してください。エッジのシャープニングとアーティファクトの除去を最大にするには、Quality Level を 4 に設定します。

LTX-2.3 画像から動画へのプロンプトを記述する方法を教えてください。

LTX-2.3 は、タグリストではなく、自然言語を想定します。画像にはすでに視覚的な情報が含まれているため、プロンプトでは何が起こるかを説明してください。信頼性の高い構造：ショットフレーミング（「中クローズアップ、わずかに上方に傾斜」）、ライティング（「ゴールデンアワー、長いシャドウ」）、そして時系列としてのアクション（「バイクが前進し、後輪の後方に砂ぼこりが舞い上がる」）。トーンや品質に関する言葉は、主語の名詞の前に配置してください。4 ～ 6 文で記述します。キーフレームですでに表示されている内容は繰り返さず、静的な状態ではなく変化を記述してください。

ネガティブプロンプトには、何を入力すればよいですか?

内容は絞り込んでください。信頼性の高い起点：モーフィング、歪み、ワーピング、フリッカー、ジッター、ぼかし、アーティファクト、グリッチ、露出オーバー、ウォーターマーク、テキスト、字幕。長いリストの作成は避けましょう。また、LTX-2.3 ではネガティブプロンプトは必須ではありません。

最後のフレームは、入力した画像と一致しません。修正する方法を教えてください。

これは既知の問題です。まず、ガイドノードの最終フレームの強度値を 1.0 に上げてください。それでも解決しない場合は、最終フレームの位置インデックスを -1 ではなく -12 に設定してみてください。これにより、モデルは終了前に数フレームの余裕を確保できます。また、ラストフレームの追従精度は長いクリップになるほど低下するため、シーケンスを 5 秒（121 フレーム）以内に収めることで結果が大幅に改善されます。

出力動画が完全に真っ黒です。最初に確認すべきものは?

3 つのことを順に実行します。まず、フレーム数が (Nx8)+1 ルール (有効値: 49、65、97、121 ...) に従っていることを確認します。次に、FirstFrame/LastFrame ワークフローを使用している場合は、VAE デコードノードの前に LTXVCropGuides を追加していることを確認してください。これがなければ、ガイドフレームがデコードを破損させ、黒い出力になります。 3 つ目は、テキストエンコーダーが正しく読み込まれていることを確認してください。Gemma エンコーダーがない場合、モデルは条件付けシグナルを受け取れず、黒または黒に近いフレームを生成します。

動画中盤で被写体の外観が変化します。これを減らす方法を教えてください。

サブジェクトドリフトはバグではなく、モデルの制限です。最も効果的な緩和策：クリップを最大 5 秒に抑え、プロンプトで一度に 1 つの明確な動作を描写し、CFG を 3.0〜3.5 に下げることです。繰り返し登場するキャラクターについては、そのキャラクターを対象に LoRA をトレーニングすることで、生成結果全体の一貫性が大幅に向上します。

NVIDIA 動画生成ガイド

製品を使用する

ユーザー ガイド

FAQ

ユーザーガイド