← [ TECH / 技術部 ] に戻る
OBSERVATION · 其の4249 · 2026.05.22

Stable Audio 3 Small-Music を M5 MacBook Air で動かす|ACE-Step 1.5 と対比したローカル音楽生成の現在地

Stable Audio 3 Small-Music を M5 MacBook Air で動かす|ACE-Step 1.5 と対比したローカル音楽生成の現在地 — Stable Audio, ローカル音楽生成, MacBook Air

こんにちは、パレイド技術部です。

Stability AI から Stable Audio 3 Small-Music が公開されました。433M パラメータ、ステレオ 44.1kHz、最大 120 秒のインストゥルメンタル特化モデルで、Mac でも現実的な速度で動くサイズに収まっています。MacBook Air M5 (32GB) で実走できたので、過去に検証した ACE-Step 1.5 / 1.5 XL の数字と並べて、「Mac ローカルで動く音楽生成 AI」の現在地を整理します。

Stability AI
Stable Audio 3.0, the model family built with open-weight models<br/> — Stability AI
We
stability.ai

本記事はローカル LLM による自動執筆パイプラインで生成されました。現段階ではクラウド AI(Claude 等)の補助や人間の編集が介在していますが、pareido.jp では最終的に AI が自律的にコンテンツを制作できる仕組みの構築を目指しています。

Stable Audio 3 Small-Music とは

Stable Audio 3 はモデルファミリーで、その中で Small-Music は Mac でも動かせる最軽量バリアントです。インストゥルメンタル特化で、歌詞やボーカルはありません。Medium は Flash Attention 2 が必須で Mac では事実上動かないため、Mac 勢が現実的に触れる入口は Small-Music ということになります。

主な仕様を整理します。

項目 内容
パラメータ数 433M
出力 ステレオ 44.1kHz Float32 WAV
最大長 120 秒
用途 インストゥルメンタル (歌詞・ボーカルなし)
ライセンス Stability AI Community License (年商 $1M 未満は商用利用可)
配布 Hugging Face gated repo (利用規約承認 + ログイン必須)
huggingface.co
stabilityai/stable-audio-3-small-music · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
huggingface.co

ライセンスはいわゆる「個人と中小は無料・大手は要相談」型です。年商 $1M を超えるとエンタープライズ契約に切り替わる設計で、MIT の ACE-Step 1.5 XL とは性質が違う点だけは押さえておく必要があります。趣味と小規模商用には十分使える一方、企業導入の際はライセンス確認が前提になります。

ハマりどころ:huggingface-cliの改名

セットアップで一度ハマりました。Small-Music は HF の gated repo で配布されており、利用規約への同意とログインが要ります。これまで huggingface-cli login で済んでいた手順が、huggingface-hub 1.x 系で hf という新コマンドに改名されています。古い記事や Issue を見て huggingface-cli を打つと「command not found」になります。

# 新しいコマンド名
hf auth login

このあたりは「動く / 動かない」以前の罠なので、最初に Web で利用規約を承認 → hf auth login でトークンを通す、の順で進めるのが確実です。

M5 MacBook Air での実測

検証環境は MacBook Air M5 / 32GB Unified Memory、PyTorch 2.7.1、torchaudio 2.7.1、Python 3.10 (uv 管理)、Stability AI の公式 SDK v0.1.0 です。device は cuda → mps → cpu の順に自動選択され、Mac では mps が選ばれました。

プロンプトは “warm lo-fi hip hop beat, mellow Rhodes piano, vinyl crackle, 85 BPM” で 30 秒、サンプラーステップは 8 ステップという軽い設定で 2 回計測しました。

項目 1 回目 (モデル DL 込み) 2 回目 (キャッシュ後) 結果
device mps mps
Load + 初期化 735.73s 7.11s
30s 生成 (steps=8) 6.69s, RTF 0.223 2.53s, RTF 0.084
Peak RSS 5.22 GB 5.08 GB
出力 10.09 MB WAV / 30.000 秒 同左

RTF (Real Time Factor) は「生成時間 ÷ 楽曲長」で、1 を下回れば実時間より速い指標です。2 回目の 0.084 は、30 秒の曲を 2.5 秒で吐けていることを意味します。Peak RSS 5GB 程度なので、32GB の M5 Air なら裏で Web ブラウザや IDE を開いていても余裕があります。

公式 README には Small モデルの参考性能表が載っており、ここに我々の数字を並べると現在地が見えてきます。

Duration H200 H200+TensorRT Mac CPU* Mac CoreML M5 Air MPS (実測)
5s 0.41s 0.017s 0.70s 0.23s
30s 0.46s 0.022s 1.72s 0.63s 2.53s
120s 0.45s 0.044s 5.92s 3.09s

* 公式 Mac CPU は CoreML (Diffusion Transformer) + TFLite (SAME-S decoder)

正直なところ、M5 MPS 実測の 2.53s は、公式 Mac CPU (1.72s) よりやや遅く、Mac CoreML (0.63s) には 4 倍及ばない結果です。PyTorch + MPS のままだとここが頭打ちで、CoreML 最適化バージョンを使えばさらに 4 倍前後の余地が残っているということになります。これは次回の検証ネタです。

ACE-Step 1.5 / 1.5 XL との対比

ここまでの数字を、過去に検証した同系統のモデルと並べてみます。「Mac で動く音楽生成 AI」という棲み分けで、Stable Audio 3 Small-Music がどこに位置するかを見るためです。

モデル パラメータ Mac 実測 楽曲長 歌詞/ボーカル ライセンス
ACE-Step 1.5 (M2 Air 16GB) 非公開 120s 生成に 約 11 分 数分 あり Apache 2.0
ACE-Step 1.5 XL (M2 Max) 4B 60s 生成に 26.43 秒 最大 10 分 あり MIT
Stable Audio 3 Small-Music (M5 Air 32GB) 433M 30s 生成に 2.53 秒 最大 120s なし Stability AI Community
パレイド
ACE-Step 1.5とは?1.0との違いを実測比較|軽量化・速度・音質の進化
2026年2月3日に、ACE-Step 1.5が発表されました。 https://ace-step.github.io/ace-step-v1.5.github…
パレイド
商用利用OKの音楽生成AI「ACE-Step 1.5 XL」を試してみた|Suno v5超えは本当か?
こんにちは、パレイド技術部です。 オープンソースの音楽生成 AI「ACE-Step 1.5 XL」が MIT ライセンスで公開されました。ベンチマークでは Su…

数字だけ見ると Stable Audio 3 Small-Music が圧倒的に速く見えますが、これは単純比較ではない点を強調しておきます。ACE-Step は歌詞対応のために 4B 級まで膨らんでおり、Stable Audio 3 Small-Music は 楽器特化で 433M に絞り込んだ設計です。用途が違うので、速度差はそのまま「優劣」にはなりません。

それでも、構造設計の視点で見ると 「歌わせない代わりに 10 倍小さく、10 倍速い」というトレードオフは重要です。歌が要らない用途——BGM、ループ素材、効果音的なトラック、ゲームや配信の差し込み——では、433M で 30 秒の曲を 2.5 秒で吐けるのは別のレイヤーの体験になります。ボーカル付きの「楽曲」を作りたいなら ACE-Step 系、楽器だけのトラックを大量に試したいなら Stable Audio 3 系、と棲み分ければよさそうです。

もう一つ、M2 Air 16GB で 11 分かかっていた 120 秒生成が、M5 Air 32GB なら Small-Music で 10 秒前後で終わるであろうことの含意は大きい。1 年半でハード側もモデル側も同時に進化したことで、「Mac の音楽生成は重い」という前提が静かに崩れ始めています。

GitHub
GitHub – Stability-AI/stable-audio-3
Contribute to Stability-AI/stable-audio-3 development by creating an account on GitHub.
github.com
テクノエッジ TechnoEdge
Stability AI、最大6分の音楽が生成できる「Stable Audio 3.0」発表。商用利用も可能 | テクノエッジ TechnoEdge
Stability AIは、音楽・音声生成AIモデルの新シリーズ「Stable Audio 3.0」を発表しました
www.techno-edge.net

まとめ

Stable Audio 3 Small-Music は、Mac ローカルで動く音楽生成 AI の選択肢として、ACE-Step 系とは別の軸を立ててきた印象です。歌詞・ボーカルを諦める代わりに 433M まで絞り、M5 Air で 30 秒を 2.5 秒。インストゥルメンタル素材を量産する用途には現時点でも十分実用域に入りました。

一方、PyTorch + MPS のままでは公式 Mac CoreML 値 (30 秒 0.63 秒) に 4 倍及ばないため、ここから先は CoreML 最適化版で詰める余地が大きい。次回は CoreML 版 Stable Audio 3 Small-Music を試して、Mac CoreML 公称値にどこまで寄せられるかを確認します。「1 年後にローカルで何が回るか」を読むうえで、Mac × 音楽生成は静かに面白くなってきました。

━━ 観るのを再開 ━━
次の回を読む
Anima Base v1.0 と Turbo LoRA を比べる — M5 Air で 7-8 倍、ただし同 seed でも別の画が出る
技術部を一覧で
部門アーカイブ
[NEXT] TECH · 其の4203
Anima Base v1.0 と Turbo LoRA を比べる — M5 Air で 7-8 倍、ただし同 seed でも別の画が出る
[NEXT] TECH · 其の4250
Stable Audio 3 Medium を RTX 4070 + ComfyUI で動かす|380 秒生成と VRAM 崖の現在地