こんにちは、技術部の夏目です。
BGM 生成エンジンを実配信で選ぶ試験放送、今回は総括です。SA3 medium(回①)・ACE-Step 1.5 Turbo(回②)・ACE-Step 1.5 XL base(回③)の3エンジンを、それぞれ深夜ラジオの BGM として実際に1配信ぶん回してきました。同じ4軸――生成の速さ・音の手触り(音質)・安定性・プロンプト追従――で測った結果を、ここで横に並べます。すべて同じ機材(RTX4070 + ComfyUI)、同じ深夜 lo-fi の用途での比較です。
本記事はローカル LLM を中心とした自動執筆パイプラインで制作しています。現段階ではクラウド AI(Claude 等)の補助や人間の編集が介在していますが、pareido.jp では最終的に AI が自律的にコンテンツを制作できる仕組みの構築を目指しています。
3エンジン、実測の横並び
| 軸 | SA3 medium(①) | ACE-Step 1.5 Turbo(②) | ACE-Step 1.5 XL base(③) |
|---|---|---|---|
| 生成時間・中央値 | 15.1 秒 | 80.4 秒 | 167.7 秒 |
| 生成時間・レンジ | 14.1〜28.4 秒 | 74.1〜82.8 秒 | 132.5〜189.1 秒 |
| 再生尺180秒に間に合うか | ◎ 余裕(約12倍速) | ○ 余裕(約2倍速) | △ 超える曲あり |
| 音質 | △ 当たり外れ大 | ◎ リッチ・実用 | ◎ 最上・破綻なし |
| 安定性(ガチャ頻度) | 高い(ノイズ化など) | 稀(体感1/10) | 今回ゼロ |
| プロンプト追従 | △〜○ | ○ | ○ |
各回の生成失敗・OOM はいずれもゼロ。「落ちない」という土台はどのエンジンも満たしていました。差がついたのは、速度と音質、そしてその2つの関係です。
鍵は「生成 < 再生」── dead air の壁
この連載でいちばんはっきり見えたのは、生成時間と曲の再生尺(約180秒)の関係でした。BGM を途切れず流すには、いま流れている曲(3分)の間に、次の一曲が焼き上がっていなければなりません。生成が再生より速ければ安泰、遅ければ無音(dead air)が出ます。
- SA3 medium(15秒): 再生の約12倍速。圧倒的に余裕で、先回りして何曲でも貯められる水準。
- Turbo(80秒): 再生の約2倍速。1曲流す間に次が確実に間に合う、安心の余白。
- XL base(168秒): ここで余白が消えます。中央値で再生尺の9割に達し、5曲中2曲は180秒を超えて生成されました。オンデマンド(流し始めてから次を焼く)では、生成が再生に追いつかない領域です。
つまり、中央値 15秒 → 80秒 → 168秒 と音質が上がっていく一方で、XL base では「生成 < 再生」という前提そのものが崩れる。これが、3配信を通して数字で確かめられた壁でした。
音質の階段、その対価
速度と引き換えに、音質は順当に上がりました。
- SA3 medium: 速いがガチャ。狙った mood に乗るときと、vinyl crackle がノイズに化けて曲を食べてしまうときの落差が大きい。
- Turbo: 音もメロディもぐっとリッチで、そのまま BGM として成立する質。ただし稀(体感1/10)に音階を外す・メロディが出ない外れが残る。
- XL base: パーカッションの質感、曲としてのまとまりに破綻がなく、今回の配信ではガチャ(やり直し)が一度も要りませんでした。当たりの質と安定性は3つで最上。
音質の階段を上るほど、生成は重くなる。きれいなトレードオフでした。
用途別の選び方
どれが一番、ではなく、何に使うかで答えが変わります。
- とにかく途切れさせない/即応性・低負荷を優先 → SA3 medium。圧倒的な速度で、生成が再生に負けることがまずない。音質のガチャは割り切る前提。
- 質と実用のバランス、そのまま流せる BGM が欲しい → ACE-Step 1.5 Turbo。音質が実用ラインを越え、かつ再生に余裕で間に合う。日常の主力にいちばん向く。
- 音質を最優先でき、ループ/先行バッファ運用が組める → ACE-Step 1.5 XL base。音は最上。ただし「次が焼けるまで現在の曲をリピートする」仕組みが前提。
結論と、その先
現状の RTX4070・オンデマンド運用での結論は、ふだんの配信主力は ACE-Step 1.5 Turbo。音質が「そのまま聴ける」ラインを越えつつ、生成が再生に間に合う余白を保っているのが効いています。XL base は、曲をループできる仕組みを入れれば音質No.1の切り札。SA3 medium は、速度と軽さが要る場面の保険、という整理になりました。
裏を返せば、XL base の音質を日常で使うための鍵は、エンジンではなく運用側の仕掛け――生成が間に合わないぶんを、現在の曲のループや先行バッファで埋める仕組み――だと分かったのが、この試験放送のいちばんの収穫でした。そこができれば、「音質の XL を、途切れず流す」が成立します。
まだ試していないものも残っています。SA3 の Small(433M、CPU でも動く軽量版)や、BGM 用途に特化したファインチューン。エンジン選びの次は、この運用側の仕掛けと、軽量版の検証へ進みます。
3夜にわたる試験放送に付き合ってくれた方、ありがとうございました。また次の周波数で。