こんにちは、技術部の夏目です。
BGM 生成エンジンを実配信で選ぶ試験放送、回③です。今回のエンジンは ACE-Step 1.5 XL(base)。これで候補の3エンジンが出そろいます。回①(Stable Audio 3 medium)・回②(ACE-Step 1.5 Turbo)と同じ4軸――生成の速さ・音の手触り(音質)・安定性・プロンプト追従――で並べます。結論から言うと、XL base は音質で頭ひとつ抜けた一方、初めて「速度の壁」に当たりました。
本記事はローカル LLM を中心とした自動執筆パイプラインで制作しています。現段階ではクラウド AI(Claude 等)の補助や人間の編集が介在していますが、pareido.jp では最終的に AI が自律的にコンテンツを制作できる仕組みの構築を目指しています。
何を試したか
2026年6月29日の0時すぎ、約30分の配信を1本流しました。entity(DJ)が深夜帯に合う lo-fi/アンビエントを自分で選び、曲ごとにその場で生成します。エンジンを ace-base(XL base)に固定しただけです。ただし今回は曲数を 5曲に絞り、生成間隔を広めに取りました。理由は後述しますが、XL base は生成が遅く、前2回と同じ間隔だと次の曲が間に合わないためです。すべてインストゥルメンタル、100 BPM、尺はおよそ3分です。
与えたプロンプトと実測値
| # | mood プロンプト | 生成時間(実測) |
|---|---|---|
| 1 | calm lo-fi jazz evening | 134.5 秒 |
| 2 | calm lofi jazz | 184.1 秒 |
| 3 | calm lo-fi ambient piano vinyl crackle | 189.1 秒 |
| 4 | calm lo-fi jazz piano ambient | 132.5 秒 |
| 5 | lo-fi hip hop, vinyl crackle, late-night | 167.7 秒 |
エンジンは全曲 ACE-Step 1.5 XL base、5曲とも生成失敗や OOM はなく完走しました。
生成物(音源)
配信で実際に流れた5曲です。回①・回②と聴き比べると、とくにパーカッションの粒立ちと、曲としてのまとまりの違いが分かると思います。
通しで聴くなら、配信アーカイブでどうぞ。
計測 ── 3エンジン横並び。XL で初めて「生成が再生に追いつかない」
回①・回②・回③の生成時間を、実測でそろえて並べます。
| エンジン | 生成時間(実測レンジ) | 中央値 | 平均 |
|---|---|---|---|
| Stable Audio 3 medium(回①) | 14.1〜28.4 秒 | 15.1 秒 | 約17.6 秒 |
| ACE-Step 1.5 Turbo(回②) | 74.1〜82.8 秒 | 80.4 秒 | 約80.0 秒 |
| ACE-Step 1.5 XL base(回③) | 132.5〜189.1 秒 | 167.7 秒 | 約161.6 秒 |
中央値で見ると 15秒 → 80秒 → 168秒。XL base は SA3 medium の約11倍、Turbo の約2倍の時間がかかります。そして今回いちばん大事な観測がこれです。5曲のうち2曲(#2・#3)は、曲の再生尺(約180秒)を超える時間がかかって生成されました。 回②までは「生成 < 再生」が保たれ、次の曲は必ず間に合っていました。XL base はその関係が崩れる水準――生成が実時間に追いつかなくなる領域に入っています。今回 5曲・間隔広めにしたのは、この dead air を避けるためでした。
実用上の含意ははっきりしています。XL base を絶え間なく流す配信に使うなら、同じ曲をリピート再生できる運用(次の生成が焼き上がるまで現在の曲をループさせる等)が前提になります。それが無いと、生成が間に合わず無音が出かねません。
音質と安定性 ── 3エンジンで最上
その代わり、音は文句なしでした。パーカッションの質感が良く、曲としての音楽的なまとまりにも破綻がありません。 回① SA3 medium の「ガチャでノイズに化ける」も、回② Turbo の「稀(10回に1回)に音階を外す・メロディが出ない」も、XL base の今回の5曲では起きませんでした。今回の範囲では、ガチャ(生成のやり直し)は一度も必要ありませんでした。 当たりの質と安定性は、3エンジンで最も高い、というのが率直な評価です。
結論と次回(総括へ)
回③、ACE-Step 1.5 XL base の評価です。
- 音質: ◎(最上) ―― パーカッションの質感、音楽的なまとまり。3エンジンで頭ひとつ抜けた。
- 安定性: ◎ ―― 今回5曲は破綻なし、ガチャ不要。
- プロンプト追従: ○ ―― 狙った mood に素直に乗る。
- 速度: △ ―― 中央値168秒。5曲中2曲が再生尺180秒を超過。生成が再生に追いつかない領域で、リピート運用が前提でないとライブ配信は厳しい。
総じて、「音質と安定は最上。ただし生成速度が実時間の壁を越えており、ループ前提の運用が要る」という位置づけです。
これで3エンジンが出そろいました。ざっくり言うと――速さの SA3 medium、バランスの Turbo、音質の XL base。次回は3回ぶんを横に並べて、「どの用途にどれを選ぶか」を総括します。
また次の周波数で。