生成AIショート動画自動生成チャレンジ: 音楽・画像を動画に統合したサンプル紹介

これまで紹介してきた手順を統合し、実際にショート動画のサンプルを制作してみます。
生成AIを組み合わせた具体的な制作フローと、その作例をあわせて紹介します。

パレイド
生成AIショート動画自動生成チャレンジ: 動画クリップと音楽を統合してffmpegで動画生成
前回までに、ACE-Stepを用いた楽曲生成と、Stable Diffusion WebUI ForgeおよびWan2.2による動画クリップ生成の手順を確認しま…

ACE-StepでBGMを生成

以前に紹介した ComfyUI + ACE-Step の組み合わせを使い、30秒の音楽を生成します。
プロンプトは ChatGPT に作成してもらいました。歌詞は[instrumental]指定をしてボーカルなしに設定します。

Medieval fantasy ambient background music,
ancient kingdom atmosphere, mystical and ethereal,
slow tempo, ceremonial and majestic,
traditional medieval instruments such as lute, harp, viola da gamba, and soft frame drums,
subtle mixed choir texture without lyrics,
modal scale, spacious reverb,
calm, spiritual, nature-inspired,
echoing castle halls and distant forest ambience, loopable
パレイド
ACE-Stepによる音楽生成AIの「ガチャ」自動化に挑む
ACE-StepとComfyUI APIを使った音楽生成を自動化し、生成結果を数値評価して「ガチャ」を回す仕組みを解説します。

動画クリップの生成

動画クリップはI2Vを利用して生成します。T2Vでも良いのですが、I2Vは文字通りイメージの合わせ込みが簡単にできる分重宝します。

3〜5秒程度の動画クリップ素材を、音楽の秒数分だけ準備します。ショート動画は1080×1920など縦動画が人気ですが、今回はお試しのため540×960で生成しています。後工程でHires.fix等で倍にするとちょうど良いでしょう。

Stable DiffusionのT2Iで動画素材を作る

Stable Diffusion に WebUI Forge を組み合わせて利用します。チェックポイント(モデル)には、権利関係が比較的安心な DreamShaperXL を選択していますが、目的や用途に応じて Civitai などから好みのモデルを選ぶとよいでしょう。

ポジティブプロンプトは ChatGPT に相談して作成しました。イメージに近い設定を伝えたり、参考画像を見せたりすることで、より具体的なプロンプトを作ることができます。

medieval fantasy RPG, top-down perspective, group of adventurers resting at campfire in dark forest, glowing embers, soft blue river winding through trees, lanterns hanging from branches, cozy warm lighting, highly detailed sprites, symmetrical composition, nostalgic retro cinematic

ネガティブプロンプトもChatGPTに作成してもらい、不要と思われる要素を試しながら調整・削除しました。

blurry, low quality, jpeg artifacts, smooth shading, extra limbs, bad anatomy, text, watermark, logo

画像はあらかじめ10枚ほど生成しておきます。実際に動画化するとイメージと異なる場合もあるため、まずは1〜2枚で動作確認を行い、その後にバッチ処理を行うのがおすすめです。その際に備えて、少し余分に生成しておくと安心です。

今回はバッチ処理で100枚ほど生成し、その中から手動で選別しました。画像の良し悪しは自動判定が難しく、最終的には好みも関わるため、手作業で選んだほうが結果的に早いと感じています。

パレイド
生成AIショート動画自動生成チャレンジ: Stability MatrixでComfyUIとSD WebUIを準備
素材生成の準備が整ったので、今回は実験としてショート動画をどこまで自動生成できるかを試してみます。 今回試す動画生成: ショート動画のベース …

Wan2.2でI2V動画を生成

用意した画像をもとに、ComfyUI + Wan2.2(5B)でI2Vによる動画クリップを生成します。
今回は1枚の画像あたり3秒の動画を生成しました。技術的な制約やAI動画の不自然さを緩和しつつ、シーンが動いたほうが映像としては自然に見えるためです。

ComfyUIでは14Bモデルも利用可能ですが、RTX 4070(VRAM 12GB)環境ではメインメモリへのオフロードが発生し、量子化モデルやパラメータ調整に時間を掛ける必要があります。今回は安定した実績のあるWan2.2を選択していますが、既にWan2.5や2.6を利用している場合は、そちらを試してみてもよいでしょう。

I2Vは処理時間がそれなりにかかるため、最初はfpsやステップ数を低めに設定して挙動を確認し、イメージ通りに生成できることを確かめてからバッチ処理を行うと効率的です。

プロンプトはChatGPTに相談して作成しました。Stable Diffusion用のプロンプトを提示し、「Wan2.2でこのように動かしたい」と具体的に伝えることで調整しています。

Continuous flame movement, dynamic fire motion, constantly changing fire shape,
embers drifting upward, subtle wind affecting the flames,
people shifting slightly in their seats,
cloth and hair reacting gently to the warm air

ネガティブプロンプトは、ComfyUIテンプレートのデフォルト設定をそのまま使用しています。

なおモデルの推奨では中国語の指定が適しているようですが、ChatGPTからは英語のプロンプトのみ出力され、説明の内容も微妙な内容でした。中国語の翻訳の問題はないと思われますが、指示の仕方に工夫がいるのかも知れません。

色调艳丽,过曝,静态,细节模糊不清,字幕,风格,作品,画作,画面,静止,整体发灰,最差质量,低质量,JPEG压缩残留,丑陋的,残缺的,多余的手指,画得不好的手部,画得不好的脸部,畸形的,毁容的,形态畸形的肢体,手指融合,静止不动的画面,杂乱的背景,三条腿,背景人很多,倒着走
パレイド
生成AIショート動画自動生成チャレンジ: Stability Matrix+Pythonで静止画から動画クリップを作る
前回までに、Stable Diffusion WebUI Forgeで静止画を生成し、Wan2.2を用いてI2Vによる短い動画クリップを作成するところまでを確認…

ffmpegで音楽と動画を結合する方法

最後にffmpegで、今回はシンプルに動画と音声をそのまま結合しています。必要に応じてフェードイン・フェードアウトなどの演出を加えることも可能です。

まず生成した動画クリップを連結します。list.txtにファイル名を列挙しておきます。

ffmpeg -f concat -safe 0 -i list.txt -c copy merged.mp4

次に動画長に合わせて音楽と統合します。改行の連結はOSやターミナルで適宜読み替えてください。

ffmpeg -i merged.mp4 -i ComfyUI_00121_.mp3 \
-map 0:v -map 1:a \
-c:v copy -c:a aac -b:a 192k \
-shortest final_output.mp4

作例はこちらです。540×960で生成しています。

今回は品質を追い込まずに制作しましたが、それでもなんとか視聴できる仕上がりになる点がAIの面白いところです。チューニングに時間をかければ、YouTubeなどで公開されているAI生成コンテンツと遜色ないレベルまで高めることも可能でしょう。

サンプル作成からの注意点

炎の演出や水面のゆらぎなどは、生成結果に違和感が残るパターンが多いようです。

特に炎はバーナーのように強く燃え上がる傾向があり、ネガティブプロンプトでの抑制やガチャでの選別にも限界がありました。画質や解像度はチェックポイント選定やHires.fixなどで改善が期待できますが、I2V部分はAIに限らず他のツールやエフェクトを組み合わせるのが品質に寄与しやすいと思われます。

また、ACE-Stepもインストゥルメンタルでは違和感のある曲が多く出力されます。ボーカルのある作例は高品質なものも多いのですが、楽器のみや静かな音楽は難しいようです。

本記事執筆後、2026年2月現在、Wan2.6、ACE-Step1.5が利用可能となり品質が向上しました。

まとめ

本記事では、音楽生成(ACE-Step)・画像生成(Stable Diffusion)・動画生成(Wan2.2 I2V)を組み合わせ、生成AIだけでショート動画を制作する流れを実践しました。各工程を分離して試行し、最適化しながら統合することで、効率よくクオリティを高めることができます。

特別な商用ツールを使わなくても、工夫次第で実用レベルの動画制作が可能です。パラメータ調整やプロンプト改善を重ねれば、さらに完成度を引き上げることもできるでしょう。

パレイド
簡単にローカルで試せる音楽生成AI: ComfyUIでACE-Stepを使う
ComfyUIのテンプレートを使い、ACE-Stepでインストゥルメンタル/歌入り音楽を生成して保存するまでを、迷わずできる形でまとめます。
パレイド
生成AIショート動画自動生成チャレンジ: ComfyUIとWan2.2テンプレート導入とAPI利用の準備
前回は、生成AIを使ってショート動画を自動生成するための全体方針を整理しました。今回はその準備として、動画パーツを生成するための WAN2.2 と Co…
[NEXT] TECH · 其の4250
Stable Audio 3 Medium を RTX 4070 + ComfyUI で動かす|380 秒生成と VRAM 崖の現在地
[NEXT] TECH · 其の4203
Anima Base v1.0 と Turbo LoRA を比べる — M5 Air で 7-8 倍、ただし同 seed でも別の画が出る