2026年2月3日に、ACE-Step 1.5が発表されました。
ACE-StepはText 2 Audioとして実用的な音楽生成AI。当サイトでもBGM生成ができるモデルとして度々取り上げています。
詳しい紹介は下記などがよくまとまっていますが、1.0からの正当進化といった感じです。
1.0からの変化点
ACE-Step 1.5では、モデルの品質と実行速度の両面で改良が加えられています。公式情報では、1.0系と比べて生成の安定性が向上し、より短時間で実用的な音楽を生成できる点が強調されています。
- 高速性の強化:従来の生成より圧倒的に高速(2〜10秒/曲)になった点が最大の違い。
- 歌詞付き音楽対応:歌唱入り生成が明示的にサポートされるようになった。
- 軽量動作:4GB未満のGPUでも動作可能で、より多くのPCで使いやすい。
- LoRA対応:ユーザーが独自スタイルを反映しやすくなった。
- 導入の簡略化:ComfyUI テンプレート対応により、環境セットアップが容易。
また、ComfyUI向けのテンプレートが最初から整備されたことで、導入から実行までの手順も簡単です。これにより、細かな設定を意識せずとも、Text to Audioによる楽曲生成を試しやすくなっています。
ライセンスや利用条件については、1.0と同様に配布元ごとの確認が前提となりますが、GitHubリポジトリが公開されたことで、実装内容や前提条件を一次情報として参照しやすくなった点も変更点の一つと言えるでしょう。
動作テスト
今回「軽くなった」のが最大の目玉かと思いますので、手元の環境で比較してみました。
ComfyUIから利用可能なテンプレートを利用します。

- “ACE-Step v1 テキストからソング”テンプレート
- “ACE-Step1.5 音楽生成ワークフロー”テンプレート
- 1のテンプレートからパラメータを2に設定したもの
(秒数、プロンプト、歌詞、KサンプラーのCFGおよびステップ数)
120秒の音楽生成での比較結果は下記の通りです。
作業をしながらの検証のため厳密な数値ではありませんが、相対的なイメージは掴めると思います。
| 実行環境 | ACE-Step 1.0 テンプレート | ACE-Step 1.5 テンプレート | ACE-Step1.5 テンプレート + 1.0と同じ指定 |
|---|---|---|---|
| Macbook Air M2 Unified Memory 16GB | メモリ不足で動作不能 | 11分程度で出力完了 | 25不程度で出力完了 |
| Windows RTX4070 VRAM 12GB | 約30〜40秒前後で出力完了 | 約20秒前後で出力完了 | 約60秒前後。ただし出力品質が不安定 |
特に MacBook Air M2 のような軽量な環境でも動作するようになった点は、大きな変化と言えます。従来はメモリや計算資源の制約から実用が難しかった環境でも、条件次第で生成が可能になりました。
テンプレートのデフォルト設定を見ると、Kサンプラーのステップ数やCFGの値が大きく異なっており、これが生成時間に直結しているようです。一方で、試した範囲では、出力される音質はむしろ向上している印象を受けました。
公式では「高速」を強く打ち出しており、例として A100 で数秒未満、RTX 3090 で10秒未満といった記述が見られます(いずれも環境や条件に依存します)。また、ベンダー記事では Ryzen AI / Radeon(ROCm)環境での導入や速度についても言及されています。
まとめ
ACE-Step 1.5は、1.0で可能だった歌詞付き生成やComfyUI利用といった機能を改善しつつ、使用VRAMや生成処理時間に対する音質が大きく向上しています。
ComfyUIのテンプレートも始めから準備されており、生成速度と安定性が向上し、軽量な環境でも実用的に動かしやすくなりました。
無料でローカルで使える音楽生成のモデルは多くはありません。定番の選択肢が更に使いやすくなりったことは率直にありがたいですね。今後にも期待できます。





