こんにちは、パレイド思想部の橘です。
連載「AI Video Pipeline」 も今回で最終回です。第 1 回は音声素材 (ACE-Step) を作り、第 2 回は静止画 (ComfyUI + SDXL系チェックポイント) と i2v (Wan2.2) で 60 秒の素材動画を組み立てる記録でした。
残るは、その素材動画の上に字幕を合成する処理。シリーズタイトルの上帯と、avatar の語る年表ナレーション、字幕を時刻順に並べる 工程。今回は、ここを AI に解説シナリオごと作業してもらうという試みです。
本記事はローカル LLM による自動執筆パイプラインで生成されました。現段階ではクラウド AI(Claude 等)の補助や人間の編集が介在していますが、pareido.jp では最終的に AI が自律的にコンテンツを制作できる仕組みの構築を目指しています。
これまでの動画編集者の手作業
次にやりたいことは、生成したベース動画を背景に、アバターを表示して音声と字幕で解説をつけていく作業です。 アバターの表示は別の自作ツールで行いますが、まずは動画に合わせて音声と字幕を合成していきます。
普段なら、ここは編集アプリでの仕事です。Adobe Premiere や DaVinci Resolve のタイムラインに 60 秒のベース動画を素材として貼り、その上に 音声トラックを 8 本立てて、各音声の波形を見ながらドラッグで開始位置を決め、字幕レイヤを別途乗せ、フォントや改行を調整する 。聞いて、見て、ずらして、また聞く——という作業を繰り返します。
特に地道な作業が要求されるポイントは、こんな項目です。
- 読み上げ時間の試算 — セリフを音声にした場合に、どの文章が何秒で読まれるか、調整が必要か
- 時間軸への配分 — 等間隔ではなく、内容の山に合わせて余白をどう置くか
- 声の重なり回避 — BGM とナレーション、ナレーション同士が重ならないように
- 字幕の改行と長さ — 表示位置で半端な折り返しが起きないように
- 音量バランス — 背景音とナレーションの聞こえ方を再生して詰める
どれも数秒、数文字単位の判断で、動画編集者の経験と耳が一番物を言う部分 でした。

AI が解説シナリオを下書きする時代
今回、台本のテキストと素材動画をAIに渡し、「シーンとセリフを合わせて」と伝えてみました。
Claude の場合、Claude Vision での画像認識が可能です。AIエージェントは実際に動画から画像を抽出し、シーンの切り替わりや意味を理解して、セリフの内容と合わせ込みをしてくれます。 たとえば VOICEVOX を利用する場合、キャラクターのIDを伝えれば実際に TTS で音声を生成し、長さを測って調整します。
今回は、作品について事前に整理した年表を重ねてみます。AI には、バランスよく配分すること、音声の重なりを避けること、最後に余韻を残すことなど伝えれば、解説シナリオ (発話の時刻と読み上げテキストを並べた一枚のテキスト) を下書きしてくれます 。実際に渡したのは、素材動画の長さ (1:03) と内容のざっくりした流れ、年表として伝えたい情報、上に乗せるバナー状のタイトル表示とアバターに設定するVOICEVOXの音声です。

AI が返してきたのは、たとえば——
- 「2010 年、刊行 100 年を機に、遠野市が観光リブートを仕掛けます。そして 2026 年、シンギュラリティ前夜のいま、想像の形を変えて」 を一気に読ませると枠を超えるから、句点で分割した方が良い (しかも「そして 2026 年」 の前で切ると未来の方向に視線が引き継がれる、という意味の流れの提案つき)
- 年代が大きく動く 1950s → 2010 の間に余白を置き、最後の発話が素材動画末尾の少し手前に来るよう配分する
- 冒頭のささやき (「あの頃 AI があったら」) と最初の発話が重ならないよう、最初の開始時刻を 0:00 ではなく 0:03 あたりに置く
- 渡した年表 5 点に加えて、橋渡しの発話と、最後の締めくくり一文 (「AI には、こんな景色が見えています」) を avatar の声として加える提案
- また、YouTube等の動画サイトをイメージした、視聴者コメント風の文章も生成してくれます。
実際に再生し、少々手を入れた箇所はあるものの、土台はほぼ AI の下書きそのまま使えています。
動画編集の視点が変わる
驚いたのは、編集の作業にはじめから俯瞰が加えられる点です。「素材を時系列に並べる」 という編集の中核工程は、テキスト指示一回で済む ——普通なら波形を見て、再生して、ドラッグして、また再生する作業は、AI が秒数を計算して時間軸に置いてくれます。動画編集作業は、作業をして、全体のバランスを探って、また作業という段階的な作業の繰り返しではなく、全体のバランス調整や、シナリオ自体の改善を一体で回す作業に変わりつつあります。
たとえば今回、人間の側で打った判断は二つのみ。動画のピークをどこに持ってくるか、画面にコメントやバナーをどのように配置するか。他の作業は、AI の提案で調整がかなり楽になります。
まとめ
動画に解説ナレーションを乗せる工程は、編集ソフトを開かなくても、AIへのテキスト指示で組める時代 に入りました。年表とテーマと素材動画さえ渡せば、AI が時刻つきの解説シナリオを返してくれる——クリエーター系の作業に少しでも触れたことがあれば、一度試してみる価値があります。
連載 3 回を通じて感じたのは、AI に任せられる範囲が増えるほど、人間の判断は素材から構造へ、置く位置から並べ方の設計へ、と階層を上がっていく感覚です。徐々に、動画を制作・編集する行為と、観客として消費する行為との境界も曖昧になってきています。AIによって、メタな視点で楽しむ世界が広がってきている印象です。