ACE-Step 1.5とは?1.0との違いを実測比較|軽量化・速度・音質の進化

2026年2月3日に、ACE-Step 1.5が発表されました。

ace-step.github.io
ACE-Step 1.5: Pushing the Boundaries of Open-Source Music Generation
ace-step.github.io

ACE-StepはText 2 Audioとして実用的な音楽生成AI。当サイトでもBGM生成ができるモデルとして度々取り上げています。

パレイド
ローカルで動くAI作曲モデル「ACE-Step」ガイド
ローカルAI作曲「ACE-Step」とは|特徴とできること AIが音楽を作る時代。Suno や Udio などのサービスが広がる一方で、「クラウドに頼らず、自分…

詳しい紹介は下記などがよくまとまっていますが、1.0からの正当進化といった感じです。

GIGAZINE
高品質な歌唱付き楽曲を爆速生成できる音楽生成AI「ACE-Step 1.5」が登場、VRAM容量4GB未満のPCでローカル実行可能でLoRAにも対応
音楽生成AI「ACE-Step 1.5」が2026年2月3日にオープンモデルとして公開されました。ACE-Step 1.5では歌唱付きの高品質な楽曲を高速生成可能。VRAM消…
gigazine.net

1.0からの変化点

ACE-Step 1.5では、モデルの品質と実行速度の両面で改良が加えられています。公式情報では、1.0系と比べて生成の安定性が向上し、より短時間で実用的な音楽を生成できる点が強調されています。

  • 高速性の強化:従来の生成より圧倒的に高速(2〜10秒/曲)になった点が最大の違い。
  • 歌詞付き音楽対応:歌唱入り生成が明示的にサポートされるようになった。
  • 軽量動作4GB未満のGPUでも動作可能で、より多くのPCで使いやすい。
  • LoRA対応:ユーザーが独自スタイルを反映しやすくなった。
  • 導入の簡略化:ComfyUI テンプレート対応により、環境セットアップが容易。

また、ComfyUI向けのテンプレートが最初から整備されたことで、導入から実行までの手順も簡単です。これにより、細かな設定を意識せずとも、Text to Audioによる楽曲生成を試しやすくなっています。

blog.comfy.org
ACE-Step 1.5 is Now Available in ComfyUI
Commercial-grade music generation on consumer hardware
blog.comfy.org

ライセンスや利用条件については、1.0と同様に配布元ごとの確認が前提となりますが、GitHubリポジトリが公開されたことで、実装内容や前提条件を一次情報として参照しやすくなった点も変更点の一つと言えるでしょう。

動作テスト

今回「軽くなった」のが最大の目玉かと思いますので、手元の環境で比較してみました。

ComfyUIから利用可能なテンプレートを利用します。

ComfyUIから利用可能なACE-Stepテンプレート
  1. “ACE-Step v1 テキストからソング”テンプレート
  2. “ACE-Step1.5 音楽生成ワークフロー”テンプレート
  3. 1のテンプレートからパラメータを2に設定したもの
    (秒数、プロンプト、歌詞、KサンプラーのCFGおよびステップ数)

120秒の音楽生成での比較結果は下記の通りです。
作業をしながらの検証のため厳密な数値ではありませんが、相対的なイメージは掴めると思います。

実行環境ACE-Step 1.0
テンプレート
ACE-Step 1.5
テンプレート
ACE-Step1.5
テンプレート
+
1.0と同じ指定
Macbook Air M2
Unified Memory 16GB
メモリ不足で動作不能11分程度で出力完了25不程度で出力完了
Windows RTX4070
VRAM 12GB
約30〜40秒前後で出力完了約20秒前後で出力完了約60秒前後。ただし出力品質が不安定

特に MacBook Air M2 のような軽量な環境でも動作するようになった点は、大きな変化と言えます。従来はメモリや計算資源の制約から実用が難しかった環境でも、条件次第で生成が可能になりました。

テンプレートのデフォルト設定を見ると、Kサンプラーのステップ数やCFGの値が大きく異なっており、これが生成時間に直結しているようです。一方で、試した範囲では、出力される音質はむしろ向上している印象を受けました。

公式では「高速」を強く打ち出しており、例として A100 で数秒未満、RTX 3090 で10秒未満といった記述が見られます(いずれも環境や条件に依存します)。また、ベンダー記事では Ryzen AI / Radeon(ROCm)環境での導入や速度についても言及されています。

まとめ

ACE-Step 1.5は、1.0で可能だった歌詞付き生成やComfyUI利用といった機能を改善しつつ、使用VRAMや生成処理時間に対する音質が大きく向上しています。

ComfyUIのテンプレートも始めから準備されており、生成速度と安定性が向上し、軽量な環境でも実用的に動かしやすくなりました。

無料でローカルで使える音楽生成のモデルは多くはありません。定番の選択肢が更に使いやすくなりったことは率直にありがたいですね。今後にも期待できます。

パレイド
簡単にローカルで試せる音楽生成AI: ComfyUIでACE-Stepを使う
ComfyUIのテンプレートを使い、ACE-Stepでインストゥルメンタル/歌入り音楽を生成して保存するまでを、迷わずできる形でまとめます。
パレイド
Riffusionは現在も動くか?:AI音楽生成の原点を試す
この記事のポイント RiffusionはStable Diffusion系の発想で音を作るAI。現在はProducer.aiへ発展 ローカル実行は可能だが、20…
[NEXT] TECH · 其の4250
Stable Audio 3 Medium を RTX 4070 + ComfyUI で動かす|380 秒生成と VRAM 崖の現在地
[NEXT] TECH · 其の4203
Anima Base v1.0 と Turbo LoRA を比べる — M5 Air で 7-8 倍、ただし同 seed でも別の画が出る