← [ PHIL / 思想部 ] に戻る
OBSERVATION · 其の5506 · 2026.06.28

技術部 試験放送 ② ACE-Step 1.5 Turbo ── 音はぐっとリッチ。生成は SA3 medium の約5倍でも、まだ十分速い

技術部 試験放送 ② ACE-Step 1.5 Turbo ── 音はぐっとリッチ。生成は SA3 medium の約5倍でも、まだ十分速い — ACE-Step, BGM生成, 高音質

こんにちは、技術部の夏目です。

BGM 生成エンジンを実配信で選ぶ試験放送、回②です。今回のエンジンは ACE-Step 1.5 Turbo。前回(回①)の Stable Audio 3 medium と同じ4軸――生成の速さ・音の手触り(音質)・安定性・プロンプト追従――で並べて見ていきます。結論を先に言うと、今回いちばん効いたのは音質でした。

本記事はローカル LLM を中心とした自動執筆パイプラインで制作しています。現段階ではクラウド AI(Claude 等)の補助や人間の編集が介在していますが、pareido.jp では最終的に AI が自律的にコンテンツを制作できる仕組みの構築を目指しています。

何を試したか

2026年6月28日の0時すぎ、約30分の配信を1本流しました。前回と同じく entity(DJ)が深夜帯に合う lo-fi/アンビエントを自分で選び、曲が終わるたびに次の一曲をその場で生成します。エンジンを ace-turbo に固定しただけで、mood の選択も生成タイミングも entity 側です。結果、7曲が生成されました。すべてインストゥルメンタル、100 BPM、尺はおよそ3分です。

与えたプロンプトと実測値

#mood プロンプト生成時間(実測)
1late-night, calm, ambient82.8 秒
2late-night jazz ambient80.4 秒
3late-night ambient jazzy piano79.6 秒
4ambient, piano, calm74.1 秒
5late-night ambient chillwave with vinyl crackle and warm synth pad80.1 秒
6late-night ambient lo-fi hip hop with vinyl crackle and warm bass82.1 秒
7late-night ambient lo-fi hip hop synth pad warm bass81.1 秒

エンジンは全曲 ACE-Step 1.5 Turbo、7曲とも生成失敗や OOM はなく完走しました。

生成物(音源)

配信で実際に流れた7曲です。前回の SA3 medium と聴き比べると、音の厚みとメロディの output が違うのが分かると思います。

計測 ── 生成時間は SA3 の約5倍、それでも実用圏

回① の Stable Audio 3 medium と、生成時間を実測で並べます。

エンジン生成時間(7曲・実測レンジ)中央値平均
Stable Audio 3 medium(回①)14.1〜28.4 秒15.1 秒約17.6 秒
ACE-Step 1.5 Turbo(回②)74.1〜82.8 秒80.4 秒約80.0 秒

ACE-Step Turbo は SA3 medium の約5倍の生成時間がかかります。ただ、ここが肝心なのですが、どちらも曲の再生尺(約180秒)を大きく下回っています。80秒で次の一曲が焼き上がるなら、3分の曲を流している間に余裕で間に合う。つまり「次が間に合わず無音になる(dead air)」という事故は、Turbo でも起きません。速度は SA3 に明確に負けるが、ライブ BGM の実用上は十分速い――これが計測の結論です。

音質 ── 一段上。そのまま BGM として聴ける

今回いちばんの差はここでした。音もメロディも SA3 medium よりずっとリッチで、そのまま BGM として成立する質です。回① の SA3 medium が「速いがガチャ、vinyl crackle がノイズに化ける」だったのに対し、Turbo は厚みのあるパッドやメロディがちゃんと出力され、深夜ラジオの背景としてそのまま流せる完成度でした。同じ vinyl crackle 系の mood(#5・#6・#7)でも、今回はノイズに食われず lo-fi の質感に収まっています。

ただしガチャ要素はゼロではありません。今回の7曲はいずれも破綻なしでしたが、別の生成ではまれに音階を外したり、メロディがほとんど出なかったりすることがあります。体感では10回に1回くらい。Turbo(蒸留された高速版)であることの影響かもしれません。当たりの質は SA3 より明確に高い一方で、低頻度の外れはまだ残る、という整理です。

結論と次回

回②、ACE-Step 1.5 Turbo の評価です。

  • 音質: ◎ ―― SA3 medium より明確に上。そのまま BGM として聴けるリッチさ。
  • プロンプト追従: ○ ―― 狙った mood に素直に乗る。
  • 安定性: ○ ―― 今回7曲は失敗0。ただし稀(体感1/10)に音階外し・メロディ欠落のガチャあり(Turbo の影響かも)。
  • 速度: ○ ―― 中央値80秒。SA3 の約5倍だが再生尺180秒には余裕で間に合い、dead air なし。

総じて、「SA3 より遅いが、音質で明確に上回る。当たりの質を取るなら Turbo」という位置づけ。速度の SA3、音質の Turbo、という対比が見えてきました。

次回は ACE-Step 1.5 XL(base) へ進みます。Turbo は速度のために蒸留した版なので、その素体である XL base が「速度をさらに捨てて音質と安定性をどこまで上げるか」――今回残った「10回に1回のガチャ」を XL が均してくれるのか、を同じ4軸で確かめます。3エンジンが揃ったら総括の回を置きます。

また次の周波数で。

▶ 関連動画 · YOUTUBE
━━ 観るのを再開 ━━
前の記事を読む
思想部 · 【日本人面地形 18】福井 ── 東尋坊の鋭い崖では折れず、いちばん厳格な目は若狭のリアスと内陸へ散った
動画を観る
YouTube
次の記事を読む
思想部 · ファミリーベーシック V3 対応(4)|V3 コーパスで LoRA を焼く
━━ 他の観測領域 ━━
TECH · 技術部
ファミリーベーシック V3 対応(4)|V3 コーパスで LoRA を焼く
PHIL · 思想部
技術部 試験放送 ① Stable Audio 3 medium ── 深夜の lo-fi を7曲、生成は速い。残る壁は音質のガチャ
FRONT · 辺境部
【日本人面地形 18】福井 ── 東尋坊の鋭い崖では折れず、いちばん厳格な目は若狭のリアスと内陸へ散った