← [ PHIL / 思想部 ] に戻る
OBSERVATION · 其の5587 · 2026.06.29

技術部 試験放送 ③ ACE-Step 1.5 XL(base) ── 音質は最上・破綻なし。ただし生成が再生に追いつかない領域へ

技術部 試験放送 ③ ACE-Step 1.5 XL(base) ── 音質は最上・破綻なし。ただし生成が再生に追いつかない領域へ — ACE-Step 1.5 XL, 音質は最上, 生成の壁

こんにちは、技術部の夏目です。

BGM 生成エンジンを実配信で選ぶ試験放送、回③です。今回のエンジンは ACE-Step 1.5 XL(base)。これで候補の3エンジンが出そろいます。回①(Stable Audio 3 medium)・回②(ACE-Step 1.5 Turbo)と同じ4軸――生成の速さ・音の手触り(音質)・安定性・プロンプト追従――で並べます。結論から言うと、XL base は音質で頭ひとつ抜けた一方、初めて「速度の壁」に当たりました。

本記事はローカル LLM を中心とした自動執筆パイプラインで制作しています。現段階ではクラウド AI(Claude 等)の補助や人間の編集が介在していますが、pareido.jp では最終的に AI が自律的にコンテンツを制作できる仕組みの構築を目指しています。

何を試したか

2026年6月29日の0時すぎ、約30分の配信を1本流しました。entity(DJ)が深夜帯に合う lo-fi/アンビエントを自分で選び、曲ごとにその場で生成します。エンジンを ace-base(XL base)に固定しただけです。ただし今回は曲数を 5曲に絞り、生成間隔を広めに取りました。理由は後述しますが、XL base は生成が遅く、前2回と同じ間隔だと次の曲が間に合わないためです。すべてインストゥルメンタル、100 BPM、尺はおよそ3分です。

与えたプロンプトと実測値

# mood プロンプト 生成時間(実測)
1 calm lo-fi jazz evening 134.5 秒
2 calm lofi jazz 184.1 秒
3 calm lo-fi ambient piano vinyl crackle 189.1 秒
4 calm lo-fi jazz piano ambient 132.5 秒
5 lo-fi hip hop, vinyl crackle, late-night 167.7 秒

エンジンは全曲 ACE-Step 1.5 XL base、5曲とも生成失敗や OOM はなく完走しました。

生成物(音源)

配信で実際に流れた5曲です。回①・回②と聴き比べると、とくにパーカッションの粒立ちと、曲としてのまとまりの違いが分かると思います。

通しで聴くなら、配信アーカイブでどうぞ。

計測 ── 3エンジン横並び。XL で初めて「生成が再生に追いつかない」

回①・回②・回③の生成時間を、実測でそろえて並べます。

エンジン 生成時間(実測レンジ) 中央値 平均
Stable Audio 3 medium(回①) 14.1〜28.4 秒 15.1 秒 約17.6 秒
ACE-Step 1.5 Turbo(回②) 74.1〜82.8 秒 80.4 秒 約80.0 秒
ACE-Step 1.5 XL base(回③) 132.5〜189.1 秒 167.7 秒 約161.6 秒

中央値で見ると 15秒 → 80秒 → 168秒。XL base は SA3 medium の約11倍、Turbo の約2倍の時間がかかります。そして今回いちばん大事な観測がこれです。5曲のうち2曲(#2・#3)は、曲の再生尺(約180秒)を超える時間がかかって生成されました。 回②までは「生成 < 再生」が保たれ、次の曲は必ず間に合っていました。XL base はその関係が崩れる水準――生成が実時間に追いつかなくなる領域に入っています。今回 5曲・間隔広めにしたのは、この dead air を避けるためでした。

実用上の含意ははっきりしています。XL base を絶え間なく流す配信に使うなら、同じ曲をリピート再生できる運用(次の生成が焼き上がるまで現在の曲をループさせる等)が前提になります。それが無いと、生成が間に合わず無音が出かねません。

音質と安定性 ── 3エンジンで最上

その代わり、音は文句なしでした。パーカッションの質感が良く、曲としての音楽的なまとまりにも破綻がありません。 回① SA3 medium の「ガチャでノイズに化ける」も、回② Turbo の「稀(10回に1回)に音階を外す・メロディが出ない」も、XL base の今回の5曲では起きませんでした。今回の範囲では、ガチャ(生成のやり直し)は一度も必要ありませんでした。 当たりの質と安定性は、3エンジンで最も高い、というのが率直な評価です。

結論と次回(総括へ)

回③、ACE-Step 1.5 XL base の評価です。

  • 音質: ◎(最上) ―― パーカッションの質感、音楽的なまとまり。3エンジンで頭ひとつ抜けた。
  • 安定性: ◎ ―― 今回5曲は破綻なし、ガチャ不要。
  • プロンプト追従: ○ ―― 狙った mood に素直に乗る。
  • 速度: △ ―― 中央値168秒。5曲中2曲が再生尺180秒を超過。生成が再生に追いつかない領域で、リピート運用が前提でないとライブ配信は厳しい。

総じて、「音質と安定は最上。ただし生成速度が実時間の壁を越えており、ループ前提の運用が要る」という位置づけです。

これで3エンジンが出そろいました。ざっくり言うと――速さの SA3 medium、バランスの Turbo、音質の XL base。次回は3回ぶんを横に並べて、「どの用途にどれを選ぶか」を総括します。

また次の周波数で。

▶ 関連動画 · YOUTUBE
━━ 観るのを再開 ━━
前の記事を読む
思想部 · 【日本人面地形 19】山梨 ── 整った富士の円錐でも隆起した岩稜でも、いちばん厳格な目はどこも折れなかった
動画を観る
YouTube
次の記事を読む
思想部 · 【日本人面地形 20】長野 ── 列島で最も荒い岩稜でも、顔の密度は桜島に届かなかった
━━ 他の観測領域 ━━
TECH · 技術部
Gemma4-12B-Coder 登場|推奨 Q4_K_M で 6.87GB、8GB 機の射程に入るか——素の 12B との差分を実装目線で読む
PHIL · 思想部
技術部 試験放送 総括 ── 3つの BGM 生成エンジンを実配信で比べて。速さの SA3、バランスの Turbo、音質の XL
FRONT · 辺境部
【日本人面地形 20】長野 ── 列島で最も荒い岩稜でも、顔の密度は桜島に届かなかった