こんにちは、パレイド技術部です。
Stability AI から Stable Audio 3 Small-Music が公開されました。433M パラメータ、ステレオ 44.1kHz、最大 120 秒のインストゥルメンタル特化モデルで、Mac でも現実的な速度で動くサイズに収まっています。MacBook Air M5 (32GB) で実走できたので、過去に検証した ACE-Step 1.5 / 1.5 XL の数字と並べて、「Mac ローカルで動く音楽生成 AI」の現在地を整理します。
本記事はローカル LLM による自動執筆パイプラインで生成されました。現段階ではクラウド AI(Claude 等)の補助や人間の編集が介在していますが、pareido.jp では最終的に AI が自律的にコンテンツを制作できる仕組みの構築を目指しています。
Stable Audio 3 Small-Music とは
Stable Audio 3 はモデルファミリーで、その中で Small-Music は Mac でも動かせる最軽量バリアントです。インストゥルメンタル特化で、歌詞やボーカルはありません。Medium は Flash Attention 2 が必須で Mac では事実上動かないため、Mac 勢が現実的に触れる入口は Small-Music ということになります。
主な仕様を整理します。
| 項目 | 内容 |
|---|---|
| パラメータ数 | 433M |
| 出力 | ステレオ 44.1kHz Float32 WAV |
| 最大長 | 120 秒 |
| 用途 | インストゥルメンタル (歌詞・ボーカルなし) |
| ライセンス | Stability AI Community License (年商 $1M 未満は商用利用可) |
| 配布 | Hugging Face gated repo (利用規約承認 + ログイン必須) |
ライセンスはいわゆる「個人と中小は無料・大手は要相談」型です。年商 $1M を超えるとエンタープライズ契約に切り替わる設計で、MIT の ACE-Step 1.5 XL とは性質が違う点だけは押さえておく必要があります。趣味と小規模商用には十分使える一方、企業導入の際はライセンス確認が前提になります。
ハマりどころ:huggingface-cliの改名
セットアップで一度ハマりました。Small-Music は HF の gated repo で配布されており、利用規約への同意とログインが要ります。これまで huggingface-cli login で済んでいた手順が、huggingface-hub 1.x 系で hf という新コマンドに改名されています。古い記事や Issue を見て huggingface-cli を打つと「command not found」になります。
# 新しいコマンド名
hf auth login
このあたりは「動く / 動かない」以前の罠なので、最初に Web で利用規約を承認 → hf auth login でトークンを通す、の順で進めるのが確実です。
M5 MacBook Air での実測
検証環境は MacBook Air M5 / 32GB Unified Memory、PyTorch 2.7.1、torchaudio 2.7.1、Python 3.10 (uv 管理)、Stability AI の公式 SDK v0.1.0 です。device は cuda → mps → cpu の順に自動選択され、Mac では mps が選ばれました。
プロンプトは “warm lo-fi hip hop beat, mellow Rhodes piano, vinyl crackle, 85 BPM” で 30 秒、サンプラーステップは 8 ステップという軽い設定で 2 回計測しました。
| 項目 | 1 回目 (モデル DL 込み) | 2 回目 (キャッシュ後) | 結果 |
|---|---|---|---|
| device | mps | mps | ○ |
| Load + 初期化 | 735.73s | 7.11s | ○ |
| 30s 生成 (steps=8) | 6.69s, RTF 0.223 | 2.53s, RTF 0.084 | ○ |
| Peak RSS | 5.22 GB | 5.08 GB | ○ |
| 出力 | 10.09 MB WAV / 30.000 秒 | 同左 | ○ |
RTF (Real Time Factor) は「生成時間 ÷ 楽曲長」で、1 を下回れば実時間より速い指標です。2 回目の 0.084 は、30 秒の曲を 2.5 秒で吐けていることを意味します。Peak RSS 5GB 程度なので、32GB の M5 Air なら裏で Web ブラウザや IDE を開いていても余裕があります。
公式 README には Small モデルの参考性能表が載っており、ここに我々の数字を並べると現在地が見えてきます。
| Duration | H200 | H200+TensorRT | Mac CPU* | Mac CoreML | M5 Air MPS (実測) |
|---|---|---|---|---|---|
| 5s | 0.41s | 0.017s | 0.70s | 0.23s | — |
| 30s | 0.46s | 0.022s | 1.72s | 0.63s | 2.53s |
| 120s | 0.45s | 0.044s | 5.92s | 3.09s | — |
* 公式 Mac CPU は CoreML (Diffusion Transformer) + TFLite (SAME-S decoder)
正直なところ、M5 MPS 実測の 2.53s は、公式 Mac CPU (1.72s) よりやや遅く、Mac CoreML (0.63s) には 4 倍及ばない結果です。PyTorch + MPS のままだとここが頭打ちで、CoreML 最適化バージョンを使えばさらに 4 倍前後の余地が残っているということになります。これは次回の検証ネタです。
ACE-Step 1.5 / 1.5 XL との対比
ここまでの数字を、過去に検証した同系統のモデルと並べてみます。「Mac で動く音楽生成 AI」という棲み分けで、Stable Audio 3 Small-Music がどこに位置するかを見るためです。
| モデル | パラメータ | Mac 実測 | 楽曲長 | 歌詞/ボーカル | ライセンス |
|---|---|---|---|---|---|
| ACE-Step 1.5 (M2 Air 16GB) | 非公開 | 120s 生成に 約 11 分 | 数分 | あり | Apache 2.0 |
| ACE-Step 1.5 XL (M2 Max) | 4B | 60s 生成に 26.43 秒 | 最大 10 分 | あり | MIT |
| Stable Audio 3 Small-Music (M5 Air 32GB) | 433M | 30s 生成に 2.53 秒 | 最大 120s | なし | Stability AI Community |

数字だけ見ると Stable Audio 3 Small-Music が圧倒的に速く見えますが、これは単純比較ではない点を強調しておきます。ACE-Step は歌詞対応のために 4B 級まで膨らんでおり、Stable Audio 3 Small-Music は 楽器特化で 433M に絞り込んだ設計です。用途が違うので、速度差はそのまま「優劣」にはなりません。
それでも、構造設計の視点で見ると 「歌わせない代わりに 10 倍小さく、10 倍速い」というトレードオフは重要です。歌が要らない用途——BGM、ループ素材、効果音的なトラック、ゲームや配信の差し込み——では、433M で 30 秒の曲を 2.5 秒で吐けるのは別のレイヤーの体験になります。ボーカル付きの「楽曲」を作りたいなら ACE-Step 系、楽器だけのトラックを大量に試したいなら Stable Audio 3 系、と棲み分ければよさそうです。
もう一つ、M2 Air 16GB で 11 分かかっていた 120 秒生成が、M5 Air 32GB なら Small-Music で 10 秒前後で終わるであろうことの含意は大きい。1 年半でハード側もモデル側も同時に進化したことで、「Mac の音楽生成は重い」という前提が静かに崩れ始めています。

まとめ
Stable Audio 3 Small-Music は、Mac ローカルで動く音楽生成 AI の選択肢として、ACE-Step 系とは別の軸を立ててきた印象です。歌詞・ボーカルを諦める代わりに 433M まで絞り、M5 Air で 30 秒を 2.5 秒。インストゥルメンタル素材を量産する用途には現時点でも十分実用域に入りました。
一方、PyTorch + MPS のままでは公式 Mac CoreML 値 (30 秒 0.63 秒) に 4 倍及ばないため、ここから先は CoreML 最適化版で詰める余地が大きい。次回は CoreML 版 Stable Audio 3 Small-Music を試して、Mac CoreML 公称値にどこまで寄せられるかを確認します。「1 年後にローカルで何が回るか」を読むうえで、Mac × 音楽生成は静かに面白くなってきました。