簡単にローカルで試せる音楽生成AI: ComfyUIでACE-Stepを使う

ComfyUIは、生成AIの処理をノードでつないでワークフロー化できるツールです。

画像や動画が話題ですが、音楽生成モデルACE-StepもComfyUIで扱いやすくなりました。

以前は導入は手作業が必要でしたが、UIからテンプレートを読み込んでプロンプトを入れるだけで曲が生成できます。

本記事では将来的な曲生成の自動化まで含め、シリーズで試していきたいと思います。

ACE-Stepとは:楽曲をローカルで生成できる無料AIモデル

「ACE-Step」は、テキスト（曲調のタグや歌詞）から音楽を生成するオープンソースのAIモデルです。

以前はACE-Stepのインストールは手動で行う必要があり、gitリポジトリやPythonの知識が必要で、気軽な音楽生成というにはハードルが高いものでした。

ComfyがACE-Stepにネイティブで対応したことで、拡張機能マネージャーからワンクリックでインストール可能となり身近なものとなりました。

ComfyUI側では、公式ドキュメントのACE-Stepチュートリアルに沿った「ネイティブ例（テンプレート／例ワークフロー）」をベースに進めます。

まずは公式例どおりに動かし、必要に応じて拡張ノード（Custom Nodes）に進んでみましょう。

ace-step/ACE-Step: ACE-Step: A Step Towards Music Generation Foundation Model

ComfyUIは複数の配布形態がありますが、初めてなら公式ドキュメントのインストール案内に従うのが確実です。
ComfyUI Official Documentation – ComfyUI

Windows/Mac/Linuxとも「ComfyUI Desktop」が利用可能で、依存関係をまとめて整えたい人には便利です。

本連載では、ACES-Stepで生成した音楽を素材とした動画生成やYouTube投稿までを視野に入れています。Stability MatrixのComfyUI環境を利用すると、画像生成や動画生成も一括で扱えるためおすすめです。

また、ComfyUIからACE-Stepを利用するテンプレートがいくつか公開されています。ComfyUIのテンプレート選択画面で”Text to Audio”等で検索すると出てきます。

いくつかバージョンがありますが、ここでは「テキストからオーディオへ(新)」を試しています。

Stable Audioのテンプレートも見つかりますが、現状はText to Audioに対応するモデルの数は少ないので迷うことは少ないでしょう。

テンプレートを開いた後、予め例文で入力されたプロンプトを適宜書き換え、生成ボタンを押すだけで音楽が生成されます。

左の縦2つのノードは説明です。英語ですが一読しておくと良いでしょう。

まずはこの例をそのまま読み込み、動く状態を作ります。ワークフローが完走すると、プレビューと保存を担うノード（Save Audio）で再生でき、ファイルも保存されます。

Text-toSong AceStep (Simplified) に2つ入力欄があります。上がいわゆるプロンプトで、下の欄には歌詞を入れます。

プロンプト欄には、ACE-Stepでは、曲調を表すタグ（style/tags）と、歌詞（lyrics）を組み合わせて指定します。タグは「ジャンル＋雰囲気＋楽器」くらいの粒度で、欲しい方向を2〜3語で固定して試すのがおすすめです。

歌詞の欄には[instrumental]と入れた場合はインストゥルメンタル曲が生成され、短いフレーズを入れた場合は歌入りの曲が生成されます。日本語の歌詞も利用可能ですが、プロンプト自体は英語で書く必要があります。

インストゥルメンタルにしたい場合は、歌詞欄に [instrumental] を入れます。公式チュートリアルでは、タグの例として male voice を female voice に変える、といった例も紹介されています。

デフォルトの設定では1分の長さのmp3ファイルが生成されます。
まずは生成された曲を聞き、ACE-Stepでできることを把握しておくのがおすすめです。

今回はComyfyUIでACE-Stepを利用し、音楽を生成するまでを試しました。
以前は導入に1時間程度かかっていたことを考えると、驚異的な進歩です。

いろいろと試したり、バッチ処理を行うにはComfyUIは最適なツールです。
次回はPythonからComfy UIをAPIで呼び出す方法を試し、音楽生成の自動化を試します。