← [ TECH / 技術部 ] に戻る
OBSERVATION · 其の3207 · 2026.04.14

商用利用OKの音楽生成AI「ACE-Step 1.5 XL」を試してみた|Suno v5超えは本当か?

商用利用OKの音楽生成AI「ACE-Step 1.5 XL」を試してみた|Suno v5超えは本当か? — 音楽生成AI, ACE-Step 1.5 XL, 商用利用

こんにちは、パレイド技術部の夏目です。

オープンソースの音楽生成 AI「ACE-Step 1.5 XL」が MIT ライセンスで公開されました。ベンチマークでは Suno v5 を全指標で上回ると謳っており、しかも商用利用可能。これは試さないわけにはいきません。

なお ACE-Step は版でリポジトリが分かれており、1.5/1.5 XL は本体(ace-step/ACE-Step・Apache-2.0)とは別の ace-step/ACE-Step-1.5(MIT)で公開されています。本記事の「MIT・商用可」はこの 1.5 系のものです。

GitHubGitHub – ace-step/ACE-Step-1.5: The most powerful local music generation model that outperforms almost all commercial alternatives, supporting Mac, AMD, Intel, and CUDA devices.The most powerful local music generation model that outperforms almost all commercial alternatives, supporting Mac, AMD, Intel, and CUDA de…github.com

本記事はローカル LLM による自動執筆パイプラインで生成されました。現段階ではクラウド AI(Claude 等)の補助や人間の編集が介在していますが、pareido.jp では最終的に AI が自律的にコンテンツを制作できる仕組みの構築を目指しています。

ACE-Step 1.5 XL とは

ACE Studio と StepFun が開発した音楽生成基盤モデルです。言語モデルが「プランナー」として楽曲の設計図を作り、Diffusion Transformer(DiT)が実際のオーディオを合成するハイブリッド構成を採用しています。

主な特徴をまとめます。

項目 内容
パラメータ数 40億(DiT デコーダー)
ライセンス MIT(商用利用可)
対応言語 50言語以上(日本語対応)
生成速度 A100 で4分の楽曲を2秒以下、RTX 3090 で10秒以下
楽曲の長さ 10秒のループから最大10分まで
機能 カバー生成、ボーカル→BGM 変換、リペイント編集

モデルは xl-base / xl-sft / xl-turbo の3バリアントが提供されています。

huggingface.coACE-Step (ACE-Step)Org profile for ACE-Step on Hugging Face, the AI community building the future.huggingface.co

動作環境と VRAM 要件

公式リポジトリによると、CPU オフロードや overlapped decoding を有効にすれば VRAM 8GB まで削減可能とされています。起動オプションは以下の通り。

acestep --torch_compile true --cpu_offload true --overlapped_decode true

GPU ごとの実測ベンチマーク(1分間のオーディオ生成にかかる時間)も公開されています。

デバイス リアルタイム倍率 1分の音声生成時間
RTX 4090 34.48x 1.74秒
A100 27.27x 2.20秒
RTX 3090 12.76x 4.70秒
M2 Max 2.27x 26.43秒

RTX 3090(24GB)以上なら数秒で生成できます。Mac の M2 Max でも動作はしますが、1分の音声に約26秒かかります。実時間未満とはいえ、少々の忍耐が必要ですが十分実用レベルでしょう。

VRAM 8GB クラスの GPU でもオフロード併用で動かせるのは敷居が低いと言えます。

ベンチマーク: v1.0 → 1.5 → 1.5 XL → Suno v5

公式が公開しているベンチマーク(Table 1)から、ACE-Step 自身の進化と Suno v5 との比較を見てみます。

モデル AudioBox SongEval Style Align Lyric Align
ACE-Step v1.0 7.22 7.52 6.50 7.76
ACE-Step 1.5 7.42 8.09 6.47 8.35
ACE-Step 1.5 XL 7.76 8.12 6.62 8.42
Suno v5 7.69 7.87 6.51 8.29

v1.0 から 1.5 への進化で SongEval(+0.57)と Lyric Align(+0.59)が大きく改善されました。歌詞の発音精度と楽曲の完成度が上がった形です。一方 Style Align はほぼ横ばいで、ジャンル再現の難しさが窺えます。

1.5 から 1.5 XL への変化は、DiT デコーダーを 4B に拡大したことで AudioBox(+0.34)が目立って向上しています。音の解像感やクリアさはパラメータ数が効く領域のようです。

Suno v5 との比較では、1.5 XL が全指標で上回っています。ただし差はわずかで、AudioBox は 7.76 vs 7.69、Lyric Align は 8.42 vs 8.29 といった僅差です。「圧倒的に超えた」というよりは「同等以上に並んだ」というのが率直な印象です。また、これは開発元が自ら測定した結果である点は留意が必要です。

以前の記事で ACE-Step v1.0 と 1.5 の比較を行っているので、あわせてご覧ください。

パレイドローカルで動くAI作曲モデル「ACE-Step」ガイドローカルAI作曲「ACE-Step」とは|特徴とできること AIが音楽を作る時代。Suno や Udio などのサービスが広がる一方で、「クラウドに頼らず、自分… パレイドACE-Step 1.5とは?1.0との違いを実測比較|軽量化・速度・音質の進化2026年2月3日に、ACE-Step 1.5が発表されました。 https://ace-step.github.io/ace-step-v1.5.github…

実際に使ってみた感想

良かった点

  • 日本語歌詞の認識精度が高い。プロンプトに日本語の歌詞を入れるとそのまま歌ってくれる。英語と比べても大きな品質差を感じない
  • ジャンル指定の柔軟性。「J-Pop」「ロック」「アンビエント」など幅広いスタイルに対応し、プロンプトへの追従性が良い
  • LoRA によるカスタマイズ。少量のサンプルから声質やスタイルをファインチューニングできる仕組みが用意されている

気になった点

  • ボーカルの表現力に限界がある。息継ぎやビブラートなどの細かいニュアンスは苦手で、やや機械的に聞こえる場面がある
  • シードによる出力のばらつき。同じプロンプトでもランダムシードが変わると品質が大きく変動する。当たり外れが激しい
  • 編集操作の継続性。リペイントやカバー生成で途中から再生成すると、前後のつながりが不自然になることがある
  • 特定ジャンルの弱さ。クラシックやジャズなど複雑なアレンジが求められるジャンルは精度が落ちる印象

まとめ

ACE-Step 1.5 XL は、MIT ライセンスで商用利用可能な音楽生成モデルとしては現時点で最も有力な選択肢です。Suno v5 との品質比較では確かに遜色なく、ローカルで動くという自由度は大きい。

一方で、快適に回すなら RTX 3090/4090 クラス(VRAM 24GB)が望ましく、メモリ高騰の昨今では高い壁でもあります。CPU オフロードと overlapped decoding を併用すれば VRAM 8GB クラスでも動かせますが、その分時間はかかります。また、ボーカルの表現力や出力の安定性にはまだ改善の余地があり、商用楽曲にそのまま使うには人間による仕上げが不可欠です。

とはいえ、BGM 生成やプロトタイピング用途では十分な実用性があります。オープンソースなので今後のコミュニティによる改善にも期待できます。音楽生成 AI に興味があるなら、一度触ってみる価値はあるモデルです。

ACE-Step の導入から版選び(1.0 / 1.5 / 1.5 XL)、ComfyUI 自動化までを一枚で見渡したい場合は、ACE-Step 完全ガイド(版の違いとローカル導入)にまとめています。

ace-step.github.ioACE-Step 1.5: Pushing the Boundaries of Open-Source Music Generationace-step.github.io パレイドACE-Step 完全ガイド:1.0 / 1.5 / 1.5 XL の違いとローカル導入【無料・商用可・2026年版】こんにちは、パレイド技術部の夏目です。 「ローカルで音楽生成 AI を動かしたい。ACE-Step が良いらしい。でも 1.0 / 1.5 / 1.5 XL と…
━━ 観るのを再開 ━━
次の回を読む
夢十夜・第五夜 ── 鶏の鳴き真似が、運命を分ける。偽の信号で止まる生成
技術部を一覧で
部門アーカイブ
[NEXT] FRONT · 其の4701
夢十夜・第五夜 ── 鶏の鳴き真似が、運命を分ける。偽の信号で止まる生成
[NEXT] FRONT · 其の4870
機械に棲む山彦 第4回: ノイズを自作する——三つの雑音と、応えたひとつ