OBSERVATION · 其の4250 · 2026.05.23

Stable Audio 3 Medium を RTX 4070 + ComfyUI で動かす｜380 秒生成と VRAM 崖の現在地

◉ 2026.05.23 · 10min

こんにちは、パレイド技術部です。

前回、Stable Audio 3 Small-Music を M5 MacBook Air で動かして「30 秒を 2.5 秒、RTF 0.084」という数字を出しました。今回はその続編として、同じファミリーの本命である Stable Audio 3 Medium (2B) を、Windows + ComfyUI + RTX 4070 (12GB) で実走させた記録を残します。「最軽量を Apple Silicon で」から「本命を消費 GPU で」への、上り階段の一段目です。

パレイドStable Audio 3 Small-Music を M5 MacBook Air で動かす｜ACE-Step 1.5 と対比したローカル音楽生成の現在地こんにちは、パレイド技術部です。 Stability AI から Stable Audio 3 Small-Music が公開されました。433M パラメータ、…

本記事はローカル LLM による自動執筆パイプラインで生成されました。現段階ではクラウド AI（Claude 等）の補助や人間の編集が介在していますが、pareido.jp では最終的に AI が自律的にコンテンツを制作できる仕組みの構築を目指しています。

ComfyUI 公式テンプレで動かすセットアップ

Stable Audio 3 Medium は 2B パラメータ、ステレオ 44.1kHz、最大 380 秒、出力は MP3 V0 という仕様です。Small-Music が 433M で 120 秒までだったのに対し、約 5 倍のパラメータで 3 倍以上の長さを扱えるようになっています。ライセンスは Small-Music と共通の Stability AI Community License で、年商 $1M 未満なら商用利用も可。今回は ComfyUI v0.22.0 の Day-0 サポートに乗って、StabilityMatrix 管理下の環境で動かしました。

blog.comfy.orgStable Audio 3.0 Day-0 Support in ComfyUI：From Sound Effects to Longer, More Musical TracksWe’re excited to share that Stable Audio 3.0—Stability AI’s new family of music models built for artistic experimentation—is coming to Comf…blog.comfy.org

huggingface.coComfy-Org/stable-audio-3 · Hugging FaceWe’re on a journey to advance and democratize artificial intelligence through open source and open science.huggingface.co

検証環境を整理しておきます。前回の Mac とは別系統で、Windows ホスト名 himorogi の自作デスクトップを使いました。

項目	内容
OS	Windows 11
GPU	NVIDIA GeForce RTX 4070 (VRAM 12GB)
システム RAM	32GB
ComfyUI	v0.22.0 (Stable Audio 3 Day-0 サポート版)
管理	StabilityMatrix
起動引数	`--use-pytorch-cross-attention`
PyTorch	2.12.0+cu130 / Python 3.10.11

セットアップで知っておくべきことが 3 つあります。

(1) ComfyUI v0.22 以降が必須で、Day-0 サポートはこのバージョンから入っています。

(2) 起動引数に --use-pytorch-cross-attention を付ければ Flash Attention 2 のビルドが不要になります。Mac 編で Medium が事実上動かなかったのは FA2 依存が理由でしたが、Windows でも FA2 のビルドは骨が折れる作業で、SDPA (Scaled Dot-Product Attention) 経路で逃げられるのは助かります。

(3) 公式テンプレに Qwen3.5 2B が同梱されていることです。ComfyUI のテンプレ audio_stable_audio_3_medium.json は「Qwen3.5 2B でプロンプトを詳細英語に書き換え → t5gemma でエンコード → Stable Audio 3 で生成」という 2 段パイプライン構造で、Music / Instrument / SFX / One-shot の 4 カテゴリごとに専用 system prompt を持ちます。Mac 編で使った公式 SDK の直叩き経路には存在しなかった機能で、Enable_Reprompt トグルで ON/OFF できます。

サンプラー設定は post-trained モデルの通称「速いモード」、steps=8, cfg=1, sampler=lcm, scheduler=simple を使いました。base モデル版テンプレ (*_medium_base.json) は steps=50, cfg=7 でかなり重く、今回は計測対象外です。

RTX 4070 での実測と 3 つの観察

プロンプトは Mac 編と同じ “warm lo-fi hip hop beat, mellow Rhodes piano, vinyl crackle, 85 BPM”、seed=42 固定で、Duration を振りつつ Reprompt の ON/OFF も比較しました。

Duration	Reprompt	Elapsed	RTF	Peak VRAM	出力	結果
5s	OFF	3.16s	0.631	6.24 GB	0.15 MB	○
30s (初回・cold)	OFF	11.01s	0.367	6.21 GB	0.87 MB	○
60s (warm)	OFF	5.81s	0.097	6.78 GB	1.69 MB	○
120s	OFF	14.08s	0.117	8.08 GB	3.37 MB	○
240s	OFF	64.53s	0.269	11.96 GB	7.37 MB	△
380s (公式最大)	OFF	92.28s	0.243	4.84 GB	10.36 MB	○
30s	ON	26.90s	0.897	11.60 GB	0.89 MB	○

RTF (Real Time Factor) は「生成時間 ÷ 楽曲長」で、1 を下回れば実時間より速い指標です。これに公式 H200 ベンチを重ねると、家庭用 GPU と業務用 GPU の距離が見えてきます。

Duration	H200	H200+TensorRT	RTX 4070 (本記事)
5s	0.60s	0.02s	3.16s
120s	0.78s	0.13s	14.08s
380s	1.31s	0.43s	92.28s

RTX 4070 は H200 比で 15〜70 倍遅い、というのが正直なところです。それでも、12GB VRAM の家庭用 GPU で公式最大長の 380 秒まで完走したこと自体に意義があります。ここから 3 つの観察を立てておきます。

観察 1: 240 秒付近に VRAM の崖がある

Duration を 120s → 240s に上げると、Peak VRAM が 8.08GB から 11.96GB に跳ね上がります。12GB GPU の 97% に張り付いている数字で、ここから少し条件が悪い——別のモデルが乗ったまま、ブラウザで重いタブを開いている、他のアプリが背景で GPU を使っている——だけで OOM (Out of Memory) に倒れる余地があります。実用上の上限は 200 秒前後と見るのが安全でしょう。

観察 2: 380 秒で VRAM が逆に下がる

ところが Duration を 380s まで伸ばすと、Peak VRAM は 4.84GB に逆に落ちるという、カウンターインテュイティブな結果が出ました。これは ComfyUI 側が長尺で chunked decode (分割デコード) に自動切り替えしていると考えると辻褄が合います。公式 README にも「Medium の 120s が unchunked 6.49GB から chunked 5.14GB に落ちる」旨が書かれており、似た仕組みが 380s では強制的に効いている可能性があります。長尺の方がメモリに余裕があるという、運用上は知っておきたい挙動です。240s が一番危ない、というのが現場感です。

観察 3: Reprompt ON はコストが小さくない

Qwen3.5 2B の Reprompt を ON にすると、30s のケースで Elapsed が 11.01s → 26.90s (+16s)、Peak VRAM も 6.21GB → 11.60GB (+5.4GB) とほぼ倍増します。プロンプトを LLM で膨らませる分、別の重いモデルが裏で動くからで、これはそのまま VRAM と時間に乗ってきます。「英語が苦手だけど長い指示を入れたい」読者には便利ですが、短い英語プロンプトを自分で書ければ書けるほど活きる機能で、無条件に ON にする性格のスイッチではありません。Mac 編の SDK 直叩き経路にはなかったオーバーヘッドである、と認識しておくのが正確です。

Mac Small-Music との対比、それから次回

ここまでの数字を、第 1 弾の Mac Small-Music と並べてみます。

項目	第 1 弾 (Mac)	第 2 弾 (Win, 本記事)
マシン	MacBook Air M5 / 32GB UMA	RTX 4070 12GB / 32GB RAM
パラメータ	Small-Music 433M	Medium 2B
経路	公式 SDK (PyTorch + MPS)	ComfyUI v0.22 (PyTorch SDPA)
最大長	120s	380s
Reprompt	なし	Qwen3.5 2B 内蔵 (ON/OFF 可)
出力	WAV 44.1kHz Float32	MP3 V0
30s RTF	0.084	0.097 (60s warm 換算)

30 秒換算の RTF は 0.084 vs 0.097 でほぼ拮抗しています。Mac の Small-Music は 433M、Win の Medium は 2B で 約 5 倍のパラメータ差があるのに、この僅差で並ぶのが面白いところです。読み方としては、Apple Silicon (MPS) のメモリ帯域と RTX 4070 (CUDA) のスループットが、おおよそ釣り合うサイズ感に収まっている、ということになります。Mac は小さなモデルで楽に、Win は大きなモデルで踏ん張って、結果として「30 秒の曲を 3 秒以下で出す」という同じ地点に着地している、という構図です。

結論としては、「Mac でも Win でも、Stable Audio 3 系は実時間より十分速い」で揃いました。歌わない代わりに 2B まで増やせる Medium のほうが、音色の厚みと最大長 (380 秒) で有利ですし、Reprompt 付きの 2 段パイプラインを試したいなら Win + ComfyUI 一択です。Mac 側は最軽量で気軽に試せる入口として、Small-Music が引き続き有力——という棲み分けが見えてきました。

GitHubGitHub – Stability-AI/stable-audio-3Contribute to Stability-AI/stable-audio-3 development by creating an account on GitHub.github.com

パレイドACE-Step 1.5とは？1.0との違いを実測｜2〜10秒/曲・4GB GPU対応・ComfyUI導入こんにちは、パレイド技術部の夏目です。 2026年2月3日に、ACE-Step 1.5が発表されました。 https://ace-step.github.io/…

パレイド商用利用OKの音楽生成AI「ACE-Step 1.5 XL」を試してみた｜Suno v5超えは本当か？こんにちは、パレイド技術部の夏目です。オープンソースの音楽生成 AI「ACE-Step 1.5 XL」が MIT ライセンスで公開されました。ベンチマークでは…

次回は、この Mac Small-Music と Win Medium の数字を 同じ Duration グリッド (5s / 30s / 60s / 120s) で横断比較します。出力フォーマット (WAV vs MP3) の違いを揃え、同じプロンプト・同じ seed で、Mac と Win のどちらが「どの長さ帯で得か」をはっきり言語化するつもりです。1 年後にローカルで何が回るかを読むうえで、音楽生成の Mac/Win 対称表は基礎資料になりそうです。

▶ 関連動画 · YOUTUBE