生成AIショート動画自動生成チャレンジ: 音楽・画像を動画に統合したサンプル紹介

これまで紹介してきた手順を統合し、実際にショート動画のサンプルを制作してみます。
生成AIを組み合わせた具体的な制作フローと、その作例をあわせて紹介します。

ACE-StepでBGMを生成
動画クリップの生成
ffmpegで音楽と動画を結合する方法
まとめ

ACE-StepでBGMを生成

以前に紹介した ComfyUI + ACE-Step の組み合わせを使い、30秒の音楽を生成します。
プロンプトは ChatGPT に作成してもらいました。歌詞は[instrumental]指定をしてボーカルなしに設定します。

Medieval fantasy ambient background music,
ancient kingdom atmosphere, mystical and ethereal,
slow tempo, ceremonial and majestic,
traditional medieval instruments such as lute, harp, viola da gamba, and soft frame drums,
subtle mixed choir texture without lyrics,
modal scale, spacious reverb,
calm, spiritual, nature-inspired,
echoing castle halls and distant forest ambience, loopable

動画クリップの生成

動画クリップはI2Vを利用して生成します。T2Vでも良いのですが、I2Vは文字通りイメージの合わせ込みが簡単にできる分重宝します。

3〜5秒程度の動画クリップ素材を、音楽の秒数分だけ準備します。ショート動画は1080×1920など縦動画が人気ですが、今回はお試しのため540×960で生成しています。後工程でHires.fix等で倍にするとちょうど良いでしょう。

Stable DiffusionのT2Iで動画素材を作る

Stable Diffusion に WebUI Forge を組み合わせて利用します。チェックポイント（モデル）には、権利関係が比較的安心な DreamShaperXL を選択していますが、目的や用途に応じて Civitai などから好みのモデルを選ぶとよいでしょう。

ポジティブプロンプトは ChatGPT に相談して作成しました。イメージに近い設定を伝えたり、参考画像を見せたりすることで、より具体的なプロンプトを作ることができます。

medieval fantasy RPG, top-down perspective, group of adventurers resting at campfire in dark forest, glowing embers, soft blue river winding through trees, lanterns hanging from branches, cozy warm lighting, highly detailed sprites, symmetrical composition, nostalgic retro cinematic

ネガティブプロンプトもChatGPTに作成してもらい、不要と思われる要素を試しながら調整・削除しました。

blurry, low quality, jpeg artifacts, smooth shading, extra limbs, bad anatomy, text, watermark, logo

画像はあらかじめ10枚ほど生成しておきます。実際に動画化するとイメージと異なる場合もあるため、まずは1〜2枚で動作確認を行い、その後にバッチ処理を行うのがおすすめです。その際に備えて、少し余分に生成しておくと安心です。

今回はバッチ処理で100枚ほど生成し、その中から手動で選別しました。画像の良し悪しは自動判定が難しく、最終的には好みも関わるため、手作業で選んだほうが結果的に早いと感じています。

Wan2.2でI2V動画を生成

用意した画像をもとに、ComfyUI + Wan2.2（5B）でI2Vによる動画クリップを生成します。
今回は1枚の画像あたり3秒の動画を生成しました。技術的な制約やAI動画の不自然さを緩和しつつ、シーンが動いたほうが映像としては自然に見えるためです。

ComfyUIでは14Bモデルも利用可能ですが、RTX 4070（VRAM 12GB）環境ではメインメモリへのオフロードが発生し、量子化モデルやパラメータ調整に時間を掛ける必要があります。今回は安定した実績のあるWan2.2を選択していますが、既にWan2.5や2.6を利用している場合は、そちらを試してみてもよいでしょう。

I2Vは処理時間がそれなりにかかるため、最初はfpsやステップ数を低めに設定して挙動を確認し、イメージ通りに生成できることを確かめてからバッチ処理を行うと効率的です。

プロンプトはChatGPTに相談して作成しました。Stable Diffusion用のプロンプトを提示し、「Wan2.2でこのように動かしたい」と具体的に伝えることで調整しています。

Continuous flame movement, dynamic fire motion, constantly changing fire shape,
embers drifting upward, subtle wind affecting the flames,
people shifting slightly in their seats,
cloth and hair reacting gently to the warm air

ネガティブプロンプトは、ComfyUIテンプレートのデフォルト設定をそのまま使用しています。

なおモデルの推奨では中国語の指定が適しているようですが、ChatGPTからは英語のプロンプトのみ出力され、説明の内容も微妙な内容でした。中国語の翻訳の問題はないと思われますが、指示の仕方に工夫がいるのかも知れません。

色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走

ffmpegで音楽と動画を結合する方法

最後にffmpegで、今回はシンプルに動画と音声をそのまま結合しています。必要に応じてフェードイン・フェードアウトなどの演出を加えることも可能です。

まず生成した動画クリップを連結します。list.txtにファイル名を列挙しておきます。

ffmpeg -f concat -safe 0 -i list.txt -c copy merged.mp4

次に動画長に合わせて音楽と統合します。改行の連結はOSやターミナルで適宜読み替えてください。

ffmpeg -i merged.mp4 -i ComfyUI_00121_.mp3 \
-map 0:v -map 1:a \
-c:v copy -c:a aac -b:a 192k \
-shortest final_output.mp4

作例はこちらです。540×960で生成しています。

今回は品質を追い込まずに制作しましたが、それでもなんとか視聴できる仕上がりになる点がAIの面白いところです。チューニングに時間をかければ、YouTubeなどで公開されているAI生成コンテンツと遜色ないレベルまで高めることも可能でしょう。

サンプル作成からの注意点

炎の演出や水面のゆらぎなどは、生成結果に違和感が残るパターンが多いようです。

特に炎はバーナーのように強く燃え上がる傾向があり、ネガティブプロンプトでの抑制やガチャでの選別にも限界がありました。画質や解像度はチェックポイント選定やHires.fixなどで改善が期待できますが、I2V部分はAIに限らず他のツールやエフェクトを組み合わせるのが品質に寄与しやすいと思われます。

また、ACE-Stepもインストゥルメンタルでは違和感のある曲が多く出力されます。ボーカルのある作例は高品質なものも多いのですが、楽器のみや静かな音楽は難しいようです。

本記事執筆後、2026年2月にはWan2.6、ACE-Step1.5が利用可能で品質が向上しました。

まとめ

本記事では、音楽生成（ACE-Step）・画像生成（Stable Diffusion）・動画生成（Wan2.2 I2V）を組み合わせ、生成AIだけでショート動画を制作する流れを実践しました。各工程を分離して試行し、最適化しながら統合することで、効率よくクオリティを高めることができます。

特別な商用ツールを使わなくても、工夫次第で実用レベルの動画制作が可能です。パラメータ調整やプロンプト改善を重ねれば、さらに完成度を引き上げることもできるでしょう。