こんにちは、パレイド技術部です。
Wan や LTX の登場でローカル環境でのAI動画生成も現実的なものとなってきました。 前回まで簡単な実験レベルは行っていましたが、より実践的な動画生成の定型化にチャレンジするための連載を始めます。
本連載のゴールは「BGV(Background Video)を安定して生成できるフローを確立する」ことです。 Windows + RTX4070(VRAM 12GB)環境をメインターゲットに、Macbook Air 環境でも参考まで試してみます。
連載の全体構成
| 回 | テーマ |
|---|---|
| 第1回(本記事) | Wan2.2の導入と環境構築(5Bモデル) |
| 第2回 | 14B Text-to-Video — Kijai版でVRAM 12GBに挑戦 |
| 第3回 | 14B Image-to-Video — Kijai版で狙った映像を作る |
| 第4回 | 高画質化パイプライン(アップスケール+補間) |
| 第5回 | 逆再生+ランダム結合で自然なループ長尺素材を作る |
| 第6回 | MacBook Air での動作検証 |
| 第7回 | 上位モデル・他モデルとの比較 |
| 第8回 | LTX-2.3再挑戦と総合比較 |
なぜWan2.2なのか
2025年後半から2026年にかけて、オープンソースの動画生成モデルは急速に進化しています。 特に、比較的ロースペックな環境でも動作可能な Wan2.2 は人気。まずはこちらをベースに試してみます。
- VRAM要件が現実的: 5Bは12GB VRAMから動作可能
- ComfyUI対応: ワークフローの構築・共有が容易
- 品質と速度のバランス: BGV用途には十分な品質が期待できる
- 活発なコミュニティ: パラメータ調整の知見が蓄積されている
環境構成
まずはメインの Windows デスクトップ機で検証し、その後に MacBook Air でも試します。
| 項目 | スペック |
|---|---|
| OS | Windows 11 |
| GPU | NVIDIA RTX 4070(VRAM 12GB) |
| RAM | 32GB |
| Python | 3.11 |
| CUDA | 13.0 |
| ツール | ComfyUI Desktop |
なお MPS 環境では問題の報告が多く、MacBook での動作は困難が予想され、しばらく CUDA 環境で検証を進めます。 (少なくとも、MacBook Air に ComfyUI 入れ、テンプレートとモデルを入れるだけでは動かないところまで確認済み)
ComfyUI は公式からインストーラー形式のダウンロードで簡単に始められます。 他にも Stability Matrix を経由してインストール、または手動でインストールも可能です。 下記の記事でも紹介しています。

Wan2.2モデルのダウンロード
Wan2.2はHugging Faceで公開されています。今回使用するのは、VRAM 12GBで動作する軽量版です。
ComfyUI Desktopを使用する場合、ワークフローを読み込めばモデルの自動ダウンロードが走ります。手動で配置する場合は、以下のディレクトリ構成に従います。
ComfyUI/
models/
diffusion_models/
wan2.2_ti2v_5B_bf16.safetensors
text_encoders/
umt5xxl_fp8_e4m3fn.safetensors
vae/
wan_2.2_vae.safetensors
clip/
open_clip_vit_h_14.safetensors
ComfyUIでの初回起動
ComfyUI Desktopを起動し、Wan2.2のText-to-Videoテンプレートを読み込みます。
テンプレートは多数利用可能ですが、5B の TI2V が試せるテンプレートを選んでいます。
Wan2.2 は5B/14Bが配布されており、まずは 5B を試していきます。

初回の確認ポイントは以下の通りです。
- モデルが正しくロードされるか — VRAMエラーが出ないことを確認
- 推論が完了するか — デフォルト設定で1本の動画が生成されることを確認
- VRAM使用量の確認 — タスクマネージャーでピーク使用量を記録
環境によっては、手動でモデルをダウンロードし、models フォルダに配置が必要な場合もあります。指示に従って進めましょう。
また、デフォルト設定では解像度等が高めに設定されていますので、生成を試すよりも先に調整することをおすすめします。
初回生成の結果
まずは パラメータを抑えた設定で生成を試します。これ以上解像度やfpsを下げると生成される動画の品質が不安定になります。この設定であれば、RTX4070の12GB VRAMに収まります。デフォルトのプロンプトで生成してみると、約1分で5秒間の動画が出力されました。
- 解像度: 512×512
- フレーム数: 61、fps: 12 (約5秒となる換算)
- 生成時間: 40~50秒
- VRAM使用量: 12~13GB(ピーク時)
この設定でも、VRAM 12GB には乗り切らずメインメモリに逃げてしまいますが、生成時間には大きな問題はありません。品質は素材としては使えそうという印象ですが、解像度が低く実用には向きません。
解像度とフレーム数の調整
VRAM 12GBという制約の中で、横長の動画サイズでよく見られる設定をどこまで上げられるかを検証しました。前回と同じComfyUI テンプレート、デフォルトのプロンプトを利用しています。
Low contrast. In a retro 1970s-style subway station, a street musician plays in dim colors and rough textures. He wears an old jacket, playing guitar with focus. Commuters hurry by, and a small crowd gathers to listen. The camera slowly moves right, capturing the blend of music and city noise, with old subway signs and mottled walls in the background.
※Comfy Wan2.2 5B TI2V 公式テンプレートより引用
| 解像度 | フレーム数 | メモリ使用量 | 生成時間 | 結果 |
|---|---|---|---|---|
| 480×320 | 81(fps=24、約3.3秒) | 12GB〜13GB前後 | 30秒~1分 | × 生成動画が破綻、時間にばらつき |
| 640×480 | 81(fps=24、約3.3秒) | 専用11GB(ピーク時)+共有1GB | 約65秒 | ○ 安定動作 |
| 736×480 | 81(fps~24、約3.3秒) | 専用11GB(ピーク時) +共有4GB | 約80秒 | ○ 安定動作 |
| 736×480 | 121(fps=24、約5秒) | 専用11GB(ピーク時) +共有5GB | 約120秒 | ○ 安定動作 |
| 736×480 | 153(fps=30、約5秒) | 専用11GB(ピーク時) +共有5.5GB | 約160秒 | △ 安定動作、品質ばらつき |
| 736×480 | 301(fps=30、約10秒) | 約11GB(ピーク時) +共有10GB | 約160秒 | △ 安定動作、品質ばらつき |
パラメータの値は意図した値からモデルもしくはノードの扱える数値に切り揃えられる様です(画像幅の720→736、フレーム数の80→81など)。実用上は問題ないでしょう。専用のVRAMから共有のメインメモリへのオフロードが発生しますが、速度・安定性とも問題ありません。
RTX4070で安定して使える上限は 736×480 / 5秒前後 でしょう。公式の説明による720p・24fpsっまでサポートとの説明の裏付けが取れています。これ以上の長尺生成は実用的ではないようです。時間を延ばすことは可能ですが、動画の内容に変化がなくなったり破綻することが増えます。解像度が物足りない点は、アップスケールで対応する方針とします。
まとめ
- Wan2.2の5BモデルはRTX4070(12GB)で問題なく動作する
- ComfyUI Desktopを使えばセットアップは比較的簡単
- デフォルト設定での品質は「素材としてはアリ」、720p、fps24が実用レベル
次回は、14Bの動作に挑みます。