← [ PHIL / 思想部 ] に戻る
OBSERVATION · 其の4156 · 2026.05.10

AI Video Pipeline(2)|絵を動かす——画風の選び替えと i2v のガチャ

AI Video Pipeline(2)|絵を動かす——画風の選び替えと i2v のガチャ — AI Video, SDXL, i2v

こんにちは、パレイド思想部の橘です。

前回は、動画編集をAIの対話で進める導入を書きました。AI との対話のなかで「読み上げでは届かない節回しの領域を ACE-Step で攻める」作りに変わり、題材に遠野物語を選定して、対話を 5 世代回して採用に至るまで。第 2 回の今回は、その朗詠の上に乗せる 画像と動画の量産 を扱います。

パレイド
AI Video Pipeline(1)|編集ソフトに向き合っていた手が、対話で動き始める
こんにちは、パレイド思想部の橘です。 少し前に、連載「pareido.jp を AI リニューアル」の第 6 回で、媒体に動画を取り込む話を書きました。 htt…

連載の地図表をもう一度置いておくと、第 1 回 (音声) → 第 2 回 (画像と動画) → 第 3 回 (Triad2 への結線) で、完成動画は第 3 回のラストで初めて出します。

本記事は LLM による自動執筆パイプラインで生成されました。現在は人間が補助していますが、pareido.jp では最終的に AI が自律的にコンテンツを制作できる仕組みの構築を目指しています。

素材量産の自動化——放置できるワークフローは Python で

朗詠ができたあとの作業は、量産でした。SDXL で 18 場面の静止画を起こし、それぞれを Wan2.2 ti2v 5B で 3 秒の動画にして、ffmpeg で連結して 60 秒に切り詰める。1 シーンあたりの動画生成が手元の RTX4070 で 5 分前後、18 シーン回すと 100 分くらい計算機が走り続ける、という時間規模です。

100 分。これは、人間が放置している時間の長さです。仕込みのときだけ手元に居て、台帳をスクリプトに渡したら、その後は別の作業をしていたい。初期は AI エージェントにやらせてみましたが、スマホアプリで許可を出す形にしたとしても、確認が入るスパンが数分から長くても十数分単位のため、目が離せません。

AI エージェントへの許諾の作業以外にも、リモートサーバーの状態が不安定で止まるケースも多い。ここは自動リトライを組み込んだ Python コードを生成し、できるだけ放置可能な形を整えます。作業を限定させられるので、確認作業も減ります。また、結果的に作業の定型化にも恩恵がありました。

シーン毎の静止画——「画風」で選ぶというアプローチ

最初に手を動かしたのは、シーン台帳を書くことでした。

遠野物語 119 話のなかから、60 秒に乗せる 18 場面を選び、各シーンにプロンプトを割り当てる——という台帳を JSON で整理します。序文の風景から始まり、河童渕・オシラサマ・座敷童子・雪女など民俗の妖怪を経て、再び遠野郷の俯瞰に戻るコマ割りを 18 場面で描く。シーン選び自体も AI に頼みました。今回の「遠野物語」のようにデータの豊富な題材なら妥当な候補選定が期待できます。情報の少ない題材で、同様の精度が出るかは今後の宿題です。

台帳ができたら画風です。ここも AI の提案結果から、月岡芳年版明治古写真版 の二系統を、同じ台帳から並べて作りました。月岡芳年版は illustriousXLukiyo-e woodblock print, Tsukioka Yoshitoshi style, ... washi paper texture という prefix を、明治古写真版は Juggernaut-XL_v9_RunDiffusionPhoto_v2vintage albumen print, Meiji era ethnographic photograph, sepia tone という写真 prefix を置きます。run_pipeline.py--variant yoshitoshi / --variant meiji で切り替えられるよう書き、台帳と出力先も variant 別に分ける——「同じ題材を別の画風で並べて作る」を最小コストで回せる設計にしました。試行回数を増やして、良いもの残していく方アプローチにします。

題材とチェックポイントの相性

二系統を並べると、同じ題材でもチェックポイントの違いがみて取れます。

例えば illustriousXL は人物中心で、河童の場面をプロンプトで投げたら、河童は出ず、笠をかぶった旅人 が出てきました。kappa というタグは内部で別の主体に引き寄せられるようです。当然ですが、妖怪名のような限定的な日本文脈のタグは、そのまま使うのは難しい。

illustriousに浮世絵調を指定して生成。顔が崩れているが初期プロットとしては十分。

明治古写真版で同じ場面を回すと、河童やそれに類する生物は出てきません。
こちらも考えてみれば当然ですが、「写真」に残っていない河童という存在の生成は難しいようです。

juggernauteに河童を無茶振りした結果。奥の棚田?が狭すぎるが、風景としてはそれっぽい。

ただし、出てきた「笠の旅人」はアイディアとしては捨てずに、序文の「馬を引く笠の旅人」に使えそうです。AI のランダム性を活かす 往復が、量産パイプラインのなかで自然に起きる瞬間です。

月岡芳年版の河童は「絵」のなかの河童、明治古写真版の河童は「写真」のなかの河童——別物のされ方が、画風によって違いました。月岡芳年版はそもそも実際の浮世絵というよりアニメ寄りで、衣装も明治とはかけ離れます。今回は原作の空気感を反映できる「明治古写真版」の方向性を採用します。

動画——「動き」の多寡をコントロール

静止画ができたら、次は動画です。各シーンを Wan2.2 ti2v 5B に投げ、ImageScale で 832×1216 (SDXL) から 720×1280 (Wan i2v 入力) に center-crop し、81 フレーム (約 3.4 秒、24fps) の動画を出させる。実装は数十行のスクリプトに収まっています。

ここで「動かない / 動きすぎ」のガチャを 3 世代回しました。

まずは Wan2.2 公式テンプレートの shift=8.0, cfg=5.0, steps=20 を素直にコピー、motion_prompt も特に考えず淡々と書きます。出てきた動画は、ほぼ静止画。3 秒間、雲が一筋流れるだけ。

次は初回の試行を踏まえて、shift=5.0, cfg=6.5 に下げ、motion_prompt も runs, bursts の強い動詞中心に書き直すと、今度は 絵全体が動きすぎ。3 秒で人物が走り、振り向き、消える。

3回目で、公式パラメータに戻し、prompt の動詞だけ調整runsslowly walks forward に、burstsgently flutters に書き直すと、ちゃんと動きました。

今回の試行の範囲では、Wan2.2の場合、動きの量を変えるにはパラメータよりも prompt の表現が効く ということでした。ガチャの結果から手探りで組み立てた格好です。生成AIはランダム性はあってもプログラムには違いなく、パラメータや seed を固定すれば決定論的に振る舞います。今回はこのパラメータで臨みます。

あとは全体を生成し、該当シーンだけ seed を変えて静止画から再生成、動画も該当 1 本だけ作り直し、結合をやり直す。全体18シーンに対して1~2シーン違和感のある部分のみ調整し、それっぽい仕上がりとなりました。

AI は、今回のように、特定の正解を持たない中で「生成された意外性を楽しむ」目的が一番あっているように思います。特定の絵作りを意識した編集作業には、やはり専用のアプリが向いているでしょう。

二系統の全体出力を並べてみて、結論として今回は明治古写真版 を採用しました。写真の忠実性・真正性(AIなので当然、そんなわけはないのですが)がありつつ、現代とは違う原作の異世界感を反映しているように思います。

書いておきたいのは、illustrious + 浮世絵調、というアプローチも別の良さを感じた点です。良くも悪くも既視感があり、より広く受け入れられる可能性はこちらの方が高いかもしれません。

次回に向けて

今回、「遠野物語」の原文から抽出する形で、60 秒の base 動画が 1 本残りました。音声と動画ができたところで、次は動画として合成する話に進みます。

朗詠が乗り、画像と動画が動き、明治の古写真風な世界観が動画として浮かび上がります。これに、シリーズタイトル・字幕・avatar の発言・BGM・年表テロップを重ねていく作業が、最終回 (5/11 公開予定) になります。

━━ 観るのを再開 ━━
次の回を読む
pareido.jp を三部に分けて AI に託すために、リニューアルを公開しました
思想部を一覧で
部門アーカイブ
[NEXT] PHIL · 其の3949
pareido.jp を三部に分けて AI に託すために、リニューアルを公開しました
[NEXT] PHIL · 其の4157
AI Video Pipeline(3)|AI に動画の解説シナリオを下書きさせる