こんにちは、パレイド技術部です。
オープンソースの音楽生成 AI「ACE-Step 1.5 XL」が MIT ライセンスで公開されました。ベンチマークでは Suno v5 を全指標で上回ると謳っており、しかも商用利用可能。これは試さないわけにはいきません。
本記事はローカル LLM による自動執筆パイプラインで生成されました。現段階ではクラウド AI(Claude 等)の補助や人間の編集が介在していますが、pareido.jp では最終的に AI が自律的にコンテンツを制作できる仕組みの構築を目指しています。
ACE-Step 1.5 XL とは
ACE Studio と StepFun が開発した音楽生成基盤モデルです。言語モデルが「プランナー」として楽曲の設計図を作り、Diffusion Transformer(DiT)が実際のオーディオを合成するハイブリッド構成を採用しています。
主な特徴をまとめます。
| 項目 | 内容 |
|---|---|
| パラメータ数 | 40億(DiT デコーダー) |
| ライセンス | MIT(商用利用可) |
| 対応言語 | 50言語以上(日本語対応) |
| 生成速度 | A100 で4分の楽曲を2秒以下、RTX 3090 で10秒以下 |
| 楽曲の長さ | 10秒のループから最大10分まで |
| 機能 | カバー生成、ボーカル→BGM 変換、リペイント編集 |
モデルは xl-base / xl-sft / xl-turbo の3バリアントが提供されています。
動作環境と VRAM 要件
公式リポジトリによると、CPU オフロードや overlapped decoding を有効にすれば VRAM 8GB まで削減可能とされています。起動オプションは以下の通り。
acestep --torch_compile true --cpu_offload true --overlapped_decode true
GPU ごとの実測ベンチマーク(1分間のオーディオ生成にかかる時間)も公開されています。
| デバイス | リアルタイム倍率 | 1分の音声生成時間 |
|---|---|---|
| RTX 4090 | 34.48x | 1.74秒 |
| A100 | 27.27x | 2.20秒 |
| RTX 3090 | 12.76x | 4.70秒 |
| M2 Max | 2.27x | 26.43秒 |
RTX 3090(24GB)以上なら数秒で生成できます。Mac の M2 Max でも動作はしますが、1分の音声に約26秒かかります。実時間未満とはいえ、少々の忍耐が必要ですが十分実用レベルでしょう。
VRAM 8GB クラスの GPU でもオフロード併用で動かせるのは敷居が低いと言えます。
ベンチマーク: v1.0 → 1.5 → 1.5 XL → Suno v5
公式が公開しているベンチマーク(Table 1)から、ACE-Step 自身の進化と Suno v5 との比較を見てみます。
| モデル | AudioBox | SongEval | Style Align | Lyric Align |
|---|---|---|---|---|
| ACE-Step v1.0 | 7.22 | 7.52 | 6.50 | 7.76 |
| ACE-Step 1.5 | 7.42 | 8.09 | 6.47 | 8.35 |
| ACE-Step 1.5 XL | 7.76 | 8.12 | 6.62 | 8.42 |
| Suno v5 | 7.69 | 7.87 | 6.51 | 8.29 |
v1.0 から 1.5 への進化で SongEval(+0.57)と Lyric Align(+0.59)が大きく改善されました。歌詞の発音精度と楽曲の完成度が上がった形です。一方 Style Align はほぼ横ばいで、ジャンル再現の難しさが窺えます。
1.5 から 1.5 XL への変化は、DiT デコーダーを 4B に拡大したことで AudioBox(+0.34)が目立って向上しています。音の解像感やクリアさはパラメータ数が効く領域のようです。
Suno v5 との比較では、1.5 XL が全指標で上回っています。ただし差はわずかで、AudioBox は 7.76 vs 7.69、Lyric Align は 8.42 vs 8.29 といった僅差です。「圧倒的に超えた」というよりは「同等以上に並んだ」というのが率直な印象です。また、これは開発元が自ら測定した結果である点は留意が必要です。
以前の記事で ACE-Step v1.0 と 1.5 の比較を行っているので、あわせてご覧ください。
実際に使ってみた感想
良かった点
- 日本語歌詞の認識精度が高い。プロンプトに日本語の歌詞を入れるとそのまま歌ってくれる。英語と比べても大きな品質差を感じない
- ジャンル指定の柔軟性。「J-Pop」「ロック」「アンビエント」など幅広いスタイルに対応し、プロンプトへの追従性が良い
- LoRA によるカスタマイズ。少量のサンプルから声質やスタイルをファインチューニングできる仕組みが用意されている
気になった点
- ボーカルの表現力に限界がある。息継ぎやビブラートなどの細かいニュアンスは苦手で、やや機械的に聞こえる場面がある
- シードによる出力のばらつき。同じプロンプトでもランダムシードが変わると品質が大きく変動する。当たり外れが激しい
- 編集操作の継続性。リペイントやカバー生成で途中から再生成すると、前後のつながりが不自然になることがある
- 特定ジャンルの弱さ。クラシックやジャズなど複雑なアレンジが求められるジャンルは精度が落ちる印象
まとめ
ACE-Step 1.5 XL は、MIT ライセンスで商用利用可能な音楽生成モデルとしては現時点で最も有力な選択肢です。Suno v5 との品質比較では確かに遜色なく、ローカルで動くという自由度は大きい。
一方で、20GB VRAM という推奨環境は、昨今のメモリの高騰も相待って高い壁です。「誰でも手軽に」とはいかないのが現実でしょう。また、ボーカルの表現力や出力の安定性にはまだ改善の余地があり、商用楽曲にそのまま使うには人間による仕上げが不可欠です。
とはいえ、BGM 生成やプロトタイピング用途では十分な実用性があります。オープンソースなので今後のコミュニティによる改善にも期待できます。音楽生成 AI に興味があるなら、一度触ってみる価値はあるモデルです。




