商用利用OKの音楽生成AI「ACE-Step 1.5 XL」を試してみた｜Suno v5超えは本当か？

こんにちは、パレイド技術部です。

オープンソースの音楽生成 AI「ACE-Step 1.5 XL」が MIT ライセンスで公開されました。ベンチマークでは Suno v5 を全指標で上回ると謳っており、しかも商用利用可能。これは試さないわけにはいきません。

本記事はローカル LLM による自動執筆パイプラインで生成されました。現段階ではクラウド AI（Claude 等）の補助や人間の編集が介在していますが、pareido.jp では最終的に AI が自律的にコンテンツを制作できる仕組みの構築を目指しています。

ACE-Step 1.5 XL とは
動作環境と VRAM 要件
ベンチマーク: v1.0 → 1.5 → 1.5 XL → Suno v5
実際に使ってみた感想
まとめ

ACE-Step 1.5 XL とは

ACE Studio と StepFun が開発した音楽生成基盤モデルです。言語モデルが「プランナー」として楽曲の設計図を作り、Diffusion Transformer（DiT）が実際のオーディオを合成するハイブリッド構成を採用しています。

主な特徴をまとめます。

項目	内容
パラメータ数	40億（DiT デコーダー）
ライセンス	MIT（商用利用可）
対応言語	50言語以上（日本語対応）
生成速度	A100 で4分の楽曲を2秒以下、RTX 3090 で10秒以下
楽曲の長さ	10秒のループから最大10分まで
機能	カバー生成、ボーカル→BGM 変換、リペイント編集

モデルは xl-base / xl-sft / xl-turbo の3バリアントが提供されています。

動作環境と VRAM 要件

公式リポジトリによると、CPU オフロードや overlapped decoding を有効にすれば VRAM 8GB まで削減可能とされています。起動オプションは以下の通り。

acestep --torch_compile true --cpu_offload true --overlapped_decode true

GPU ごとの実測ベンチマーク（1分間のオーディオ生成にかかる時間）も公開されています。

デバイス	リアルタイム倍率	1分の音声生成時間
RTX 4090	34.48x	1.74秒
A100	27.27x	2.20秒
RTX 3090	12.76x	4.70秒
M2 Max	2.27x	26.43秒

RTX 3090（24GB）以上なら数秒で生成できます。Mac の M2 Max でも動作はしますが、1分の音声に約26秒かかります。実時間未満とはいえ、少々の忍耐が必要ですが十分実用レベルでしょう。

VRAM 8GB クラスの GPU でもオフロード併用で動かせるのは敷居が低いと言えます。

ベンチマーク: v1.0 → 1.5 → 1.5 XL → Suno v5

公式が公開しているベンチマーク（Table 1）から、ACE-Step 自身の進化と Suno v5 との比較を見てみます。

モデル	AudioBox	SongEval	Style Align	Lyric Align
ACE-Step v1.0	7.22	7.52	6.50	7.76
ACE-Step 1.5	7.42	8.09	6.47	8.35
ACE-Step 1.5 XL	7.76	8.12	6.62	8.42
Suno v5	7.69	7.87	6.51	8.29

v1.0 から 1.5 への進化で SongEval（+0.57）と Lyric Align（+0.59）が大きく改善されました。歌詞の発音精度と楽曲の完成度が上がった形です。一方 Style Align はほぼ横ばいで、ジャンル再現の難しさが窺えます。

1.5 から 1.5 XL への変化は、DiT デコーダーを 4B に拡大したことで AudioBox（+0.34）が目立って向上しています。音の解像感やクリアさはパラメータ数が効く領域のようです。

Suno v5 との比較では、1.5 XL が全指標で上回っています。ただし差はわずかで、AudioBox は 7.76 vs 7.69、Lyric Align は 8.42 vs 8.29 といった僅差です。「圧倒的に超えた」というよりは「同等以上に並んだ」というのが率直な印象です。また、これは開発元が自ら測定した結果である点は留意が必要です。

以前の記事で ACE-Step v1.0 と 1.5 の比較を行っているので、あわせてご覧ください。