AI動画でBGVを作る(1)|Wan2.2の導入とRTX4070 12GB環境構築

こんにちは、パレイド技術部です。

Wan や LTX の登場でローカル環境でのAI動画生成も現実的なものとなってきました。 前回まで簡単な実験レベルは行っていましたが、より実践的な動画生成の定型化にチャレンジするための連載を始めます。

本連載のゴールは「BGV(Background Video)を安定して生成できるフローを確立する」ことです。 Windows + RTX4070(VRAM 12GB)環境、Macbook Air M2 / M5環境で試します。 (2026年3月 Macbook Air M5環境に関する追記を行いました)

連載の全体構成

テーマ
第1回(本記事)Wan2.2の導入と環境構築
第2回Text-to-Videoの基本生成とパラメータ調整
第3回Image-to-Videoで狙った映像を作る
第4回高画質化パイプライン(アップスケール+補間)
第5回逆再生+ランダム結合で自然なループ長尺素材を作る
第6回MacBook Air での動作検証
第7回上位モデル・他モデルとの比較
第8回LTX-2.3再挑戦と総合比較

なぜWan2.2なのか

2025年後半から2026年にかけて、オープンソースの動画生成モデルは急速に進化しています。 特に、比較的ロースペックな環境でも動作可能な Wan2.2 は人気。まずはこちらをベースに試してみます。

  • VRAM要件が現実的: 1.3Bは8GB VRAMから動作可能
  • ComfyUI対応: ワークフローの構築・共有が容易
  • 品質と速度のバランス: BGV用途には十分な品質が期待できる
  • 活発なコミュニティ: パラメータ調整の知見が蓄積されている

環境構成

まずはメインの Windows デスクトップ機で検証し、その後に MacBook Air M2/M5 でも試します。

項目スペック
OSWindows 11
GPUNVIDIA RTX 4070(VRAM 12GB)
RAM32GB
Python3.11
CUDA13.0
ツールComfyUI Desktop

なお MPS 環境では問題の報告が多く、MacBook での動作は困難が予想され、しばらく CUDA 環境で検証を進めます。 (少なくとも、MacBook Air に ComfyUI 入れ、テンプレートとモデルを入れるだけでは動かないところまで確認済み)

ComfyUI は公式からインストーラー形式のダウンロードで簡単に始められます。 他にも Stability Matrix を経由してインストール、または手動でインストールも可能です。 下記の記事でも紹介しています。

Wan2.2モデルのダウンロード

Wan2.2はHugging Faceで公開されています。今回使用するのは、VRAM 12GBで動作する軽量版です。

ComfyUI Desktopを使用する場合、ワークフローを読み込めばモデルの自動ダウンロードが走ります。手動で配置する場合は、以下のディレクトリ構成に従います。

ComfyUI/
  models/
    diffusion_models/
      wan2.2_ti2v_5B_bf16.safetensors
    text_encoders/
      umt5xxl_fp8_e4m3fn.safetensors
    vae/
      wan_2.2_vae.safetensors
    clip/
      open_clip_vit_h_14.safetensors

ComfyUIでの初回起動

ComfyUI Desktopを起動し、Wan2.2のText-to-Videoテンプレートを読み込みます。

テンプレートは多数利用可能ですが、5B の TI2V が試せるテンプレートを選んでいます。
Wan2.2 は5B/14Bが配布されており、環境に余裕のある方は14Bでも良いでしょう。

初回の確認ポイントは以下の通りです。

  1. モデルが正しくロードされるか — VRAMエラーが出ないことを確認
  2. 推論が完了するか — デフォルト設定で1本の動画が生成されることを確認
  3. VRAM使用量の確認 — タスクマネージャーでピーク使用量を記録

環境によっては、手動でモデルをダウンロードし、models フォルダに配置が必要な場合もあります。指示に従って進めましょう。

また、デフォルト設定では解像度等が高めに設定されていますので、生成を試すよりも先に調整することをおすすめします。

初回生成の結果

まずは パラメータを抑えた設定で生成を試します。これ以上解像度やfpsを下げると生成される動画の品質が不安定になります。この設定であれば、RTX4070の12GB VRAMに収まります。デフォルトのプロンプトで生成してみると、約1分で5秒間の動画が出力されました。

  • 解像度: 512×512
  • フレーム数: 61、fps: 12 (約5秒となる換算)
  • 生成時間: 約120秒
  • VRAM使用量: 約12~13GB(ピーク時)

この設定でも、VRAM 12GB には乗り切らずメインメモリに逃げてしまいますが、生成時間には大きな問題はありません。品質は素材としては使えそうという印象ですが、解像度が低く実用には向きません。次回以降でパラメータ調整と高画質化を進めていきます。

まとめ

  • Wan2.2の5BモデルはRTX4070(12GB)で問題なく動作する
  • ComfyUI Desktopを使えばセットアップは比較的簡単
  • デフォルト設定での品質は「素材としてはアリ」だが、解像度の改善が必要

次回は、プロンプトの書き方やパラメータの調整で品質をどこまで上げられるかを検証します。

タイトルとURLをコピーしました