生成AIショート動画自動生成チャレンジ: Stability MatrixでComfyUIとSD WebUIを準備

素材生成の準備が整ったので、今回は実験としてショート動画をどこまで自動生成できるかを試してみます。

今回試す動画生成: ショート動画のベース

動画の長さは1分とし、全体で1つのストーリーとして構成します。

まず、ストーリーの雰囲気に合った音楽を生成し、それに合わせて数秒程度の動画クリップを複数作成します。これらを繋ぎ合わせることで、1分程度のショート動画を生成します。

生成結果のばらつき(いわゆる「ガチャ」)を考慮し、ローカル環境で無料で試せる構成を優先します。字幕や音声も欲しくなりますが、バイブコーディングの現実的なラインを踏まえ、今回は次のステップに回します。

Stability Matrixで動画・画像生成AI環境を簡単インストール

今回は手元のWindows環境を利用しました。

VRAMが12GBあるNVIDIAのGPUを搭載しており、ショート動画を前提とした画像生成や動画生成には十分実用的なスペックです。

他社のGPUやMacでも、それぐらいのメモリを生成AIに当てられる環境であれば十分実用的なスピードで動くでしょう。

流れとしては、Stable Diffusion系で静止画を生成、ComfyUIでWAN2.2を利用してImage to Videoで数秒程度の動画を作ります。ComfyUIでSDのチェックポイントを使うワークフローも構築できますが、こちらのほうが汎用性が高い構成になります。

環境構築にはStability Matrixを利用しました。ComfyUIや、好みのSD系のUIを簡単にインストールし管理できます。今回のようなAPI利用では環境を選びませんので、既にインストールされた環境があればそれを利用する方が良いでしょう。

パレイド
Stability Matrixの導入と起動方法:Stable Diffusion環境をまとめて管理
Stability Matrixは、Lykos AIが開発しているStable Diffusionを始めとする生成AIのGUIパッケージマネージャです。 Sta…

ComfyUIをインストール

ComfyUIは、ここではStability Matrixを使って導入し、APIを利用できる状態にします。
ローカル環境で完結する場合は特に設定は不要ですが、リモートサーバーの場合は–listenオプションを付けましょう。

ComfyUIおよびAPIの概要については、過去記事で紹介しています。

パレイド
ComfyUI APIでACE-Step音楽生成を自動化する全体像まとめ
ComfyUIとACE-StepをPythonからAPI操作する一連の流れを整理し、生成・進捗確認・ダウンロードまでを迷わず実装できる形でまとめます。

Stable Diffusionインストール

今回は、定番の Stable Diffusion WebUI Forge を利用しました。同様にStability Matrix からインストールします。

現在はより先進的な環境も多いですが、WebUIはStability Matrix を使えば簡単に導入でき、チェックポイント管理用の UI も便利です。API が主な利用のため、SD 系であれば互換性が高く好みのパッケージを利用して問題ありません。

ComfyUI と Forge の両方が稼働している状態を構築できればOKです。

StabilityMatrix上でComfyUIとWebUI Forgeが稼働している状態

まとめ

今回は、ショート動画自動生成の方向性を整理しました。

字幕や音声の追加も検討していますが、まずは欲張らず、この構成で検証を進めます。

次回は、実際に動画生成を試します。

パレイド
生成AIショート動画自動生成チャレンジ: ComfyUIとWan2.2テンプレート導入とAPI利用の準備
前回は、生成AIを使ってショート動画を自動生成するための全体方針を整理しました。今回はその準備として、動画パーツを生成するための WAN2.2 と Co…
パレイド
生成AIショート動画自動生成チャレンジ: Stable Diffusion WebUI Forge導入とAPI利用
前回まで、生成AIによるショート動画の自動生成を目指し、I2Vを行うための WAN2.2 と ComfyUI の設定を進めました。 今回は、I2Vの元となる画像…
パレイド
生成AIショート動画自動生成チャレンジ: Stability Matrix+Pythonで静止画から動画クリップを作る
前回までに、Stable Diffusion WebUI Forgeで静止画を生成し、Wan2.2を用いてI2Vによる短い動画クリップを作成するところまでを確認…
[NEXT] TECH · 其の4250
Stable Audio 3 Medium を RTX 4070 + ComfyUI で動かす|380 秒生成と VRAM 崖の現在地
[NEXT] TECH · 其の4203
Anima Base v1.0 と Turbo LoRA を比べる — M5 Air で 7-8 倍、ただし同 seed でも別の画が出る