こんにちは、パレイド技術部です。
第 1 弾で Stable Audio 3 Small-Music を M5 MacBook Air で動かし、第 2 弾で Medium を RTX 4070 + ComfyUI で踏ん張らせました。今回はその姉妹モデルにあたる Stable Audio 3 Small-SFX を、第 1 弾と同じ Mac SDK 経路でそのまま走らせます。Small-Music と同じ 433M ですが、学習データが「楽器」から「効果音・環境音」に切り替わったモデルで、用途も雷雨・足音・銃声といった短尺の素材生成寄りになります。
本記事はローカル LLM による自動執筆パイプラインで生成されました。現段階ではクラウド AI(Claude 等)の補助や人間の編集が介在していますが、pareido.jp では最終的に AI が自律的にコンテンツを制作できる仕組みの構築を目指しています。
Small-SFX とは — Small-Music の姉妹モデル
Stable Audio 3 Small-SFX は、第 1 弾で扱った Small-Music と同じ 433M パラメータ、同じステレオ 44.1kHz、同じ最大 120 秒のモデルです。骨格は完全に共通で、違いは学習データだけ——インストゥルメンタル音楽の代わりに効果音・環境音で訓練されています。用途で言えば、UI クリック音、打撃音、ガラスの破砕音、雷雨や森のアンビエンスといった「歌でも楽曲でもない短い波形」を量産するための専用モデルです。
主な仕様を整理します。
| 項目 | 内容 |
|---|---|
| パラメータ数 | 433M (Small-Music と同サイズ) |
| 出力 | ステレオ 44.1kHz Float32 WAV |
| 最大長 | 120 秒 |
| 用途 | 効果音 / 環境音特化 (歌・楽曲ではない) |
| ライセンス | Stability AI Community License (年商 $1M 未満は商用利用可) |
| 配布 | Hugging Face gated repo (利用規約承認 + ログイン必須) |
注意点が一つ。Small-Music の利用規約に同意済みでも、Small-SFX は別個に承認が要ります。
同じファミリーですが、Hugging Face の gated 設定はモデル単位なので、Small-Music を動かしたときと同じ手順で規約承認をもう一度行うことになります。
検証環境は第 1 弾と完全に同一なので、ここでは表だけ再掲して詳細は第 1 弾に委ねます。
| 項目 | 内容 |
|---|---|
| マシン | MacBook Air M5 / 32GB Unified Memory |
| Python | 3.10 (uv 管理) |
| PyTorch | 2.7.1 / torchaudio 2.7.1 |
| SDK | stable-audio-3 v0.1.0 (Stability AI 公式) |
| device | mps (自動選択) |
公式 SDK の直叩き経路で、device は cuda → mps → cpu の順に自動選択され、Mac では mps が選ばれます。Medium 編で必要だった ComfyUI も、Qwen3.5 リプロンプトも、Flash Attention 2 のビルドも要りません。第 1 弾の環境がそのまま使い回せるのが Small 系の身軽さです。
M5 MacBook Air での実測 (6 プロンプト)
プロンプトは 3 カテゴリで設計しました。短いインパクト (1〜3 秒) にあたるガラス破砕・剣の振り・レーザー音、中程度のアクション (3〜6 秒) に置いた砂利の足音、アンビエンス (6〜15 秒) として雨と森。seed=42, steps=8 固定で、Duration だけ振っています。
| # | プロンプト | duration | elapsed | RTF | Peak RSS | 出力 |
|---|---|---|---|---|---|---|
| 1 | Glass bottle shattering on concrete, sharp impact, scattered fragments | 2s | 4.94s※ | 2.471 | 5.81 GB | 0.67 MB |
| 2 | Sword swing whooshing through air, fast motion, clean metallic tone | 2s | 1.18s | 0.589 | 5.08 GB | 0.67 MB |
| 3 | Footsteps on gravel, steady walking pace, close perspective | 8s | 1.63s | 0.203 | 5.08 GB | 2.69 MB |
| 4 | Heavy rain hitting a metal roof during a thunderstorm, distant thunder rumbles, stereo, realistic ambience | 12s | 1.71s | 0.143 | 5.08 GB | 4.04 MB |
| 5 | Quiet forest at dawn with birds chirping, soft wind through leaves, distant stream flowing | 15s | 1.98s | 0.132 | 5.08 GB | 5.05 MB |
| 6 | Futuristic laser blast, clean energy pulse, high-tech sound design | 2s | 0.99s | 0.496 | 5.08 GB | 0.67 MB |
※ 1 番目だけ cold 計測で、別途モデル DL 込みの load に 109 秒かかっています。2 回目以降の warm では load は省略され、生成本体だけの数字になります。
RTF (Real Time Factor) は「生成時間 ÷ 出力長」で、1 を下回れば実時間より速い指標です。効果音をリアルタイムに生成して利用するような用途で重要となります。
この表から、効果音特化モデルならではの 3 つの観察が立ちます。
観察 1: 2 秒以下の SFX は RTF が悪化する
ガラス破砕・剣の振り・レーザー音といった 2 秒の短尺は、RTF が 0.5〜2.5 まで悪化します。一見すると「短い方が遅い」と読めますが、絶対時間で見れば 1〜5 秒で完了しているので、体感上は十分速い部類です。
これは diffusion モデルの固定費——毎回のセットアップ、8 ステップのサンプリング、VAE デコード——が「分母」として乗ってくる現象です。波形本体の長さに関係なく一定のオーバーヘッドが必要で、出力が短すぎると分母負けして RTF が膨らみます。「短い SFX ほど RTF が悪化するが、絶対時間で見れば即時」という、この種のモデル特有の癖です。UI クリック音を 1000 個量産するような用途では、RTF より「1 個あたり 1〜2 秒」の絶対時間で見たほうが現場感に合います。
観察 2: 長いアンビエンスほど RTF が良くなる
観察 1 の裏返しです。12 秒の雷雨で RTF 0.143、15 秒の森で RTF 0.132 と、長尺になるほど RTF が良くなる方向に振れます。固定費が長い波形に分散されるからで、これは Small-Music で 30 秒生成が RTF 0.084 まで沈んだのと同じ構造です。
15 秒分の森のアンビエンスを 2 秒で吐けるというのが現在地です。雷雨・雨音・環境音といったアンビエンス系の素材を Mac ローカルで量産するなら、効率は十分実用域に入っています。第 1 弾で Small-Music が 30 秒の lo-fi を 2.5 秒で出した数字と並べると、Small 系 433M のサイズは「2〜15 秒前後の出力を 2 秒前後で吐く」という素直な振る舞いに収束していると見えます。
観察 3: Peak RSS は 5GB で全プロンプト安定
Peak RSS は cold 初回の 5.81 GB を除けば、全プロンプトで 5.08 GB に張り付きます。Small-Music と同じ 433M モデルなので、メモリ消費パターンも同じです。32GB の M5 Air なら、ブラウザ・IDE・他の AI アプリを同時に開いていてもまったく余裕があります。
ここから素直に運用上の構成が見えてきます。Small-Music と Small-SFX をディスクに常駐させて切り替えて使う形が現実的です。両方足してもメモリは 10GB 程度しか食わず、楽曲は Small-Music、効果音は Small-SFX、と用途で振り分けながらストックを作っていけます。Medium のように 12GB GPU を圧迫する心配も、ComfyUI を立ち上げる手間もありません。Mac × Small 系の身軽さがここに効きます。
第 1 弾 Small-Music との対比、それから次回
ここまでの数字を、第 1 弾の Small-Music と並べておきます。学習データが違うだけで、骨格は同じ姉妹モデルであることが、数字でも確認できます。
| 軸 | Small-Music (第 1 弾) | Small-SFX (本記事) |
|---|---|---|
| パラメータ | 433M | 同じ 433M |
| 用途 | インストゥルメンタル音楽 | 効果音・環境音 |
| 最大長 | 120s | 120s |
| Peak RSS | 5.08 GB | 5.08 GB (同等) |
| 30s 生成 (warm) | 2.53s, RTF 0.084 | — (SFX は 2〜15s レンジで実走) |
| Mac M5 で動くか | ○ | ○ |
設計上、Small-SFX は短い波形に絞った用途を想定しているため、本記事では 30 秒の単一計測はあえて行わず、現場で使う長さ帯 (2〜15 秒) を 6 本横並びで取りました。Small-Music が「30 秒の楽曲を 2.5 秒で吐く」モデルだとすれば、Small-SFX は「15 秒のアンビエンスを 2 秒で、2 秒のインパクトを 1〜5 秒で吐く」モデル、というのが今回の読み筋になります。
これで Stable Audio 3 ファミリーの検証は、第 1 弾 (Mac × Small-Music)、第 2 弾 (Win × Medium)、第 3 弾 (Mac × Small-SFX) の三方向で一区切りです。Small/Medium、Mac/Win、Music/SFX の組み合わせを一通り試しました。
現在等サイトではACE-Step1.5を音楽生成の主力に使っていますが、こちらも活用したいと思います。