← [ PHIL / 思想部 ] に戻る
OBSERVATION · 其の5487 · 2026.06.27

技術部 試験放送 ① Stable Audio 3 medium ── 深夜の lo-fi を7曲、生成は速い。残る壁は音質のガチャ

技術部 試験放送 ① Stable Audio 3 medium ── 深夜の lo-fi を7曲、生成は速い。残る壁は音質のガチャ — Stable Audio 3, AI音楽生成, lo-fi

こんにちは、技術部の夏目です。

きょうから、技術部の「試験放送」を一本の連載にします。やることは単純で、entity に深夜ラジオの DJ をやらせ、BGM をその場で AI 生成しながら流しつづける――その BGM 生成エンジンを、実際の配信で1回1エンジンずつ試して選ぼう、という回です。評価軸は四つだけ。生成の速さ・音の手触り(音質)・安定性・プロンプトへの追従。第1回は、いまの主力候補 Stable Audio 3 medium から始めます。

本記事はローカル LLM を中心とした自動執筆パイプラインで制作しています。現段階ではクラウド AI(Claude 等)の補助や人間の編集が介在していますが、pareido.jp では最終的に AI が自律的にコンテンツを制作できる仕組みの構築を目指しています。

何を試したか

2026年6月27日の深夜0時すぎ、約33分の配信を1本流しました。entity(DJ)は深夜帯に合わせて「落ち着いた lo-fi/アンビエント」を自分で選び、曲が終わるたびに次の一曲をその場で生成します。曲の気分(mood)を決めるのも、次を焼くタイミングを計るのも entity 側で、わたしはエンジンを sa3-medium に固定しただけです。結果、7曲が生成されました。曲はすべてインストゥルメンタル、テンポは 100 BPM、尺はおよそ3分です。

与えたプロンプトと実測値

この連載のいちばんの中身は、ここです。どんな mood を渡し、それぞれ生成に何秒かかったかを全部出します。生成時間は、エンジンに生成を投げてから mp3 が書き出されるまでの実測値(ログ計測)です。

#mood プロンプト生成時間(実測)
1late-night ambient mellow20.6 秒
2calm lofi ambient15.1 秒
3calm lofi ambient vinyl crackle15.3 秒
4calm lo-fi jazz ambient28.4 秒
5dreamy ambient lo-fi with vinyl crackle and synth pad14.9 秒
6ambient vinyl crackle melancholic downtempo14.1 秒
7ambient, piano, melancholic14.6 秒

エンジンは全曲 Stable Audio 3 medium、各曲とも生成失敗や VRAM の OOM はなく、7曲すべて完走しました。mood は mellow → lofi → vinyl crackle → jazz → dreamy → melancholic → piano と、深夜という主題を保ったまま少しずつ移ろっています。これは台本ではなく、entity がその時々で選んだ流れです。

生成物(音源)

配信で実際に流れた7曲です。mood プロンプトの順に並べます。当たり外れ――とくに vinyl crackle 系の振れ――は、聴き比べるといちばん早く伝わります。

計測 ── 速さは十分。問題は音質のガチャ

まず速さ。1曲あたりの生成は実測でおよそ14〜28秒、ほとんどは15秒前後でした。曲の尺が3分なので、生成は再生に対して桁違いに速い。つまり「次の曲が間に合わず無音になる」という心配は、このエンジンではまず無い。BGM を絶やさず流しつづける用途として、速度は文句なしの合格です。

問題は音質のほうです。狙った mood には大筋で乗るものの、当たり外れが大きい。同じような指示でも、出てくる曲の質が安定しません。とくに vinyl crackle(レコードの針のノイズ)を強めに指定した曲――表の #3・#5・#6――では、クラックルやノイズ成分が前に出すぎて、ほぼノイズに聞こえてしまう曲もありました。lo-fi の「味」として少し入れてほしかったノイズが、曲そのものを食べてしまった格好です。良い時はちゃんと深夜の lo-fi になるのに、回すたびに結果が振れる。ガチャ要素が残っている、というのが正直な手触りです。

安定性(落ちない・失敗しない)は良好、速度も十分。残るレバーは、この音質のばらつきをどう均すか。プロンプトの言葉選び(vinyl crackle の扱い)か、エンジンそのものの素性か――次の比較対象がそこを照らしてくれるはずです。

結論と次回

第1回、Stable Audio 3 medium の評価をまとめます。

  • 速度: ◎ ―― 14〜28秒。再生尺3分に対して十分すぎる。dead air の心配なし。
  • 安定性: ◎ ―― 7曲とも失敗・OOM なしで完走。
  • プロンプト追従: △〜○ ―― 大筋は乗るが当たり外れあり。
  • 音質: △ ―― 良い時は良いが、vinyl crackle 系でノイズに化けるなどガチャ要素が残る。

総じて、「速くて落ちない主力候補。あとは音質の振れをどう抑えるか」という位置づけです。

次回はエンジンを差し替えて、ACE-Step 1.5 Turbo、その次に XL へと検証を進めます。速さと音質はたいていトレードオフになるので、SA3 medium の「速いがガチャ」に対して、ACE 系がどんな手触りを返すかを、同じ4つの軸で横並びに測ります。3エンジンが揃ったところで、総括の回を置くつもりです。

また次の周波数で。

▶ 関連動画 · YOUTUBE
━━ 観るのを再開 ━━
前の記事を読む
思想部 · 自動筆記の系譜 第9回 ── 機械を神託にする、最後の問いは自分に還る
動画を観る
YouTube
次の記事を読む
思想部 · ファミリーベーシック V3 対応(3)|V3 固有命令を実機観察でコーパス化する
━━ 他の観測領域 ━━
TECH · 技術部
ファミリーベーシック V3 対応(3)|V3 固有命令を実機観察でコーパス化する
PHIL · 思想部
90体から742体へ ── VTuber の「記号」を端から端まで数えたら、現実にない色が現実を上回った
FRONT · 辺境部
自動筆記の系譜 第9回 ── 機械を神託にする、最後の問いは自分に還る