AI動画でBGVを作る(11)|ComfyUI公式テンプレートでWan2.2 14B T2Vがあっさり動いた話――VRAM 12GBで1280×720/16fps

AI動画でBGVを作る(11)|ComfyUI公式テンプレートでWan2.2 14B T2Vがあっさり動いた話――VRAM 12GBで1280×720/16fps — AI動画, ComfyUI, Wan2.2 AI動画

こんにちは、パレイド技術部です。

前回は Dynamic VRAM まわりのトラブルで丸1日潰した話を書きました。3つのフラグを無効化して安定動作は取り戻したものの、ワークフローそのものがだいぶツギハギになっていたので、せっかくなら一度まっさらな状態で組み直そうと考えていました。

そこで今回は ComfyUI に同梱されている Wan2.2 公式テンプレート を素直に使ったらどうなるか、という検証です。結論から書くと、VRAM 12GB + メインメモリ 32GB の RTX4070 環境で、14B T2V モデルが何の工夫もなくあっさり動きました。

検証環境

連載第1回から使い続けている環境です。

項目
GPUNVIDIA RTX 4070(VRAM 12GB)
メインメモリ32GB
OSWindows 11
ComfyUI0.18.1
モデルWan2.2 14B T2V(高ノイズ/低ノイズの2モデル構成)

起動オプションは前回の変更(Dynamic VRAM・Pinned Memory・Async Offload を無効化)をクリアした初期状態です。

ComfyUI 公式テンプレートを開く

ComfyUI は最近のアップデートで、主要モデル向けのワークフローテンプレートをメニューから直接読み込めるようになっています。

Workflow → Browse Templates → Video を開くと、Wan2.2 用のテンプレートが並んでいます。今回使ったのは 「Wan 2.2 14B T2V」 という名前のテンプレートで、高ノイズ・低ノイズのデュアルモデル構成がそのまま組まれたシンプルなものです。

テンプレートを選ぶと、足りないモデルファイルのダウンロードリンクが自動で案内されるので、指示どおりに配置するだけで準備完了でした。第1回からコツコツ積み上げていた WanVideoWrapper ベースのワークフローとは違い、ComfyUI 本体のノードだけで構成されています。

生成条件

前回までの検証で基準にしてきた設定をベースに、解像度とフレームレートだけ引き上げました。

パラメータ
解像度1280 × 720
フレームレート16 fps
フレーム数81(約5秒)
サンプラーテンプレート既定値
ステップ数テンプレート既定値
プロンプト連載で使い回している夜景BGV用プロンプト

連載第1回の 736×480 から比べると面積比で約2.6倍、フレームレートも 12fps → 16fps に上げているので、相応に重くなる想定でした。

結果:562秒で完走

最初の1本はおそるおそる実行しましたが、特にエラーもなく普通に進行して、562秒で1本が完走しました。

指標
生成時間562s(約9分22秒)
VRAM ピーク11.4GB 前後(物理12GB内に収まる)
メインメモリ24〜27GB(高ノイズ/低ノイズ切り替えで増減)
出力1280×720 / 16fps / 81フレーム MP4

連続で3本生成しても症状は出ず、Dynamic VRAM トラブル時のような「2回目以降で壊れる」現象は再現しませんでした。メインメモリも 32GB の枠内で収まっており、スワップに落ちる気配もありません。

何が違ったのか

WanVideoWrapper ベースの既存ワークフローでは、ブロックスワップや LoRA 差し込みなど細かいチューニングを積み上げた結果、ComfyUI 本体のメモリ管理と二重に動いてしまうのが不安定さの原因でした。

公式テンプレートは以下の点でシンプルです。

  1. ComfyUI 本体のローダーしか使わないのでメモリ管理が一箇所にまとまる
  2. デュアルモデルの切り替えがテンプレートに最初から組み込まれている
  3. 余計なカスタムノードを挟まないので依存関係が壊れにくい
  4. ComfyUI のアップデートに追随してメンテされる

WanVideoWrapper の強みは細かい制御ができる点にあり、BGV 制作の最終段では引き続き使うつもりですが、「まず14B T2V を動かしたい」「検証のたたき台がほしい」という用途には公式テンプレートのほうが素直です。

1280×720 / 16fps が現実的になった意味

これまで本連載では「12GB VRAM では 832×480 が現実的」というラインで進めてきましたが、今回の結果で 1280×720 / 16fps / 5秒 が6分程度で安定して作れることが確認できました。BGV としてはそのまま使えるサイズとフレームレートです。

1本10分弱であれば、プロンプトを変えながら夜通し回して朝に30本近く得られる計算になります。アップスケールパイプライン(第6回)や i2v ループ(第7回)と組み合わせれば、BGV 素材の歩留まりがかなり改善しそうです。

まとめ

  • ComfyUI 公式の Wan2.2 14B T2V テンプレートが、VRAM 12GB + メイン 32GB 環境で普通に動いた
  • 1280×720 / 16fps / 81フレームで 562秒 / 1本、VRAM ピークは約11.4GB
  • 前回の3フラグ無効化は維持したまま、ワークフロー側をテンプレートに置き換えただけ
  • 本体ノードだけで完結するぶん、カスタムノード由来の競合が起きにくい
  • まずは公式テンプレートをベースラインにして、細かい制御だけ WanVideoWrapper で足していくのが良さそう
タイトルとURLをコピーしました