こんにちは、パレイド技術部です。
前回、Stable Audio 3 Small-Music を M5 MacBook Air で動かして「30 秒を 2.5 秒、RTF 0.084」という数字を出しました。今回はその続編として、同じファミリーの本命である Stable Audio 3 Medium (2B) を、Windows + ComfyUI + RTX 4070 (12GB) で実走させた記録を残します。「最軽量を Apple Silicon で」から「本命を消費 GPU で」への、上り階段の一段目です。
本記事はローカル LLM による自動執筆パイプラインで生成されました。現段階ではクラウド AI(Claude 等)の補助や人間の編集が介在していますが、pareido.jp では最終的に AI が自律的にコンテンツを制作できる仕組みの構築を目指しています。
ComfyUI 公式テンプレで動かすセットアップ
Stable Audio 3 Medium は 2B パラメータ、ステレオ 44.1kHz、最大 380 秒、出力は MP3 V0 という仕様です。Small-Music が 433M で 120 秒までだったのに対し、約 5 倍のパラメータで 3 倍以上の長さを扱えるようになっています。ライセンスは Small-Music と共通の Stability AI Community License で、年商 $1M 未満なら商用利用も可。今回は ComfyUI v0.22.0 の Day-0 サポートに乗って、StabilityMatrix 管理下の環境で動かしました。

検証環境を整理しておきます。前回の Mac とは別系統で、Windows ホスト名 himorogi の自作デスクトップを使いました。
| 項目 | 内容 |
|---|---|
| OS | Windows 11 |
| GPU | NVIDIA GeForce RTX 4070 (VRAM 12GB) |
| システム RAM | 32GB |
| ComfyUI | v0.22.0 (Stable Audio 3 Day-0 サポート版) |
| 管理 | StabilityMatrix |
| 起動引数 | --use-pytorch-cross-attention |
| PyTorch | 2.12.0+cu130 / Python 3.10.11 |
セットアップで知っておくべきことが 3 つあります。
(1) ComfyUI v0.22 以降が必須で、Day-0 サポートはこのバージョンから入っています。
(2) 起動引数に --use-pytorch-cross-attention を付ければ Flash Attention 2 のビルドが不要になります。Mac 編で Medium が事実上動かなかったのは FA2 依存が理由でしたが、Windows でも FA2 のビルドは骨が折れる作業で、SDPA (Scaled Dot-Product Attention) 経路で逃げられるのは助かります。
(3) 公式テンプレに Qwen3.5 2B が同梱されていることです。ComfyUI のテンプレ audio_stable_audio_3_medium.json は「Qwen3.5 2B でプロンプトを詳細英語に書き換え → t5gemma でエンコード → Stable Audio 3 で生成」という 2 段パイプライン構造で、Music / Instrument / SFX / One-shot の 4 カテゴリごとに専用 system prompt を持ちます。Mac 編で使った公式 SDK の直叩き経路には存在しなかった機能で、Enable_Reprompt トグルで ON/OFF できます。
サンプラー設定は post-trained モデルの通称「速いモード」、steps=8, cfg=1, sampler=lcm, scheduler=simple を使いました。base モデル版テンプレ (*_medium_base.json) は steps=50, cfg=7 でかなり重く、今回は計測対象外です。
RTX 4070 での実測と 3 つの観察
プロンプトは Mac 編と同じ “warm lo-fi hip hop beat, mellow Rhodes piano, vinyl crackle, 85 BPM”、seed=42 固定で、Duration を振りつつ Reprompt の ON/OFF も比較しました。
| Duration | Reprompt | Elapsed | RTF | Peak VRAM | 出力 | 結果 |
|---|---|---|---|---|---|---|
| 5s | OFF | 3.16s | 0.631 | 6.24 GB | 0.15 MB | ○ |
| 30s (初回・cold) | OFF | 11.01s | 0.367 | 6.21 GB | 0.87 MB | ○ |
| 60s (warm) | OFF | 5.81s | 0.097 | 6.78 GB | 1.69 MB | ○ |
| 120s | OFF | 14.08s | 0.117 | 8.08 GB | 3.37 MB | ○ |
| 240s | OFF | 64.53s | 0.269 | 11.96 GB | 7.37 MB | △ |
| 380s (公式最大) | OFF | 92.28s | 0.243 | 4.84 GB | 10.36 MB | ○ |
| 30s | ON | 26.90s | 0.897 | 11.60 GB | 0.89 MB | ○ |
RTF (Real Time Factor) は「生成時間 ÷ 楽曲長」で、1 を下回れば実時間より速い指標です。これに公式 H200 ベンチを重ねると、家庭用 GPU と業務用 GPU の距離が見えてきます。
| Duration | H200 | H200+TensorRT | RTX 4070 (本記事) |
|---|---|---|---|
| 5s | 0.60s | 0.02s | 3.16s |
| 120s | 0.78s | 0.13s | 14.08s |
| 380s | 1.31s | 0.43s | 92.28s |
RTX 4070 は H200 比で 15〜70 倍遅い、というのが正直なところです。それでも、12GB VRAM の家庭用 GPU で公式最大長の 380 秒まで完走したこと自体に意義があります。ここから 3 つの観察を立てておきます。
観察 1: 240 秒付近に VRAM の崖がある
Duration を 120s → 240s に上げると、Peak VRAM が 8.08GB から 11.96GB に跳ね上がります。12GB GPU の 97% に張り付いている数字で、ここから少し条件が悪い——別のモデルが乗ったまま、ブラウザで重いタブを開いている、他のアプリが背景で GPU を使っている——だけで OOM (Out of Memory) に倒れる余地があります。実用上の上限は 200 秒前後と見るのが安全でしょう。
観察 2: 380 秒で VRAM が逆に下がる
ところが Duration を 380s まで伸ばすと、Peak VRAM は 4.84GB に逆に落ちるという、カウンターインテュイティブな結果が出ました。これは ComfyUI 側が長尺で chunked decode (分割デコード) に自動切り替えしていると考えると辻褄が合います。公式 README にも「Medium の 120s が unchunked 6.49GB から chunked 5.14GB に落ちる」旨が書かれており、似た仕組みが 380s では強制的に効いている可能性があります。長尺の方がメモリに余裕があるという、運用上は知っておきたい挙動です。240s が一番危ない、というのが現場感です。
観察 3: Reprompt ON はコストが小さくない
Qwen3.5 2B の Reprompt を ON にすると、30s のケースで Elapsed が 11.01s → 26.90s (+16s)、Peak VRAM も 6.21GB → 11.60GB (+5.4GB) とほぼ倍増します。プロンプトを LLM で膨らませる分、別の重いモデルが裏で動くからで、これはそのまま VRAM と時間に乗ってきます。「英語が苦手だけど長い指示を入れたい」読者には便利ですが、短い英語プロンプトを自分で書ければ書けるほど活きる機能で、無条件に ON にする性格のスイッチではありません。Mac 編の SDK 直叩き経路にはなかったオーバーヘッドである、と認識しておくのが正確です。
Mac Small-Music との対比、それから次回
ここまでの数字を、第 1 弾の Mac Small-Music と並べてみます。
| 項目 | 第 1 弾 (Mac) | 第 2 弾 (Win, 本記事) |
|---|---|---|
| マシン | MacBook Air M5 / 32GB UMA | RTX 4070 12GB / 32GB RAM |
| パラメータ | Small-Music 433M | Medium 2B |
| 経路 | 公式 SDK (PyTorch + MPS) | ComfyUI v0.22 (PyTorch SDPA) |
| 最大長 | 120s | 380s |
| Reprompt | なし | Qwen3.5 2B 内蔵 (ON/OFF 可) |
| 出力 | WAV 44.1kHz Float32 | MP3 V0 |
| 30s RTF | 0.084 | 0.097 (60s warm 換算) |
30 秒換算の RTF は 0.084 vs 0.097 でほぼ拮抗しています。Mac の Small-Music は 433M、Win の Medium は 2B で 約 5 倍のパラメータ差があるのに、この僅差で並ぶのが面白いところです。読み方としては、Apple Silicon (MPS) のメモリ帯域と RTX 4070 (CUDA) のスループットが、おおよそ釣り合うサイズ感に収まっている、ということになります。Mac は小さなモデルで楽に、Win は大きなモデルで踏ん張って、結果として「30 秒の曲を 3 秒以下で出す」という同じ地点に着地している、という構図です。
結論としては、「Mac でも Win でも、Stable Audio 3 系は実時間より十分速い」で揃いました。歌わない代わりに 2B まで増やせる Medium のほうが、音色の厚みと最大長 (380 秒) で有利ですし、Reprompt 付きの 2 段パイプラインを試したいなら Win + ComfyUI 一択です。Mac 側は最軽量で気軽に試せる入口として、Small-Music が引き続き有力——という棲み分けが見えてきました。

次回は、この Mac Small-Music と Win Medium の数字を 同じ Duration グリッド (5s / 30s / 60s / 120s) で横断比較します。出力フォーマット (WAV vs MP3) の違いを揃え、同じプロンプト・同じ seed で、Mac と Win のどちらが「どの長さ帯で得か」をはっきり言語化するつもりです。1 年後にローカルで何が回るかを読むうえで、音楽生成の Mac/Win 対称表は基礎資料になりそうです。