AudioGen入門：サンプル・Gradioデモ・設定まとめ

AudioGenはMetaが公開したテキストから効果音を生成するモデルで、短いSEを素早く作る用途に向いています。この記事では、最短ルートで「動かす」「理解する」「実務で使う」の流れをまとめます。

AudioGenとは何か
すぐ使える最小サンプル
GradioでWebアプリとして動かす
AudioGenの音質・音量・durationの基本仕様
実用でよく使うAudioGenオプション
AudioGenの評判と使いどころ
FAQ
まとめ

AudioGenとは何か

AudioGenはBGM生成のMusicGenと異なり、効果音（環境音・短い素材）の生成に特化しています。「猫の鳴き声」「紙を破く音」「車が通り過ぎる音」など具体的な音をすぐ作れます。

商用利用が実質NGのため、個人用途が主となりますが、実験的な用途には興味深い存在です。

すぐ使える最小サンプル

from audiocraft.models import MAGNeT
import torchaudio

model = MAGNeT.get_pretrained("facebook/magnet-medium-30secs")
prompt = "A relaxing ambient synth pad with soft textures."
wav = model.generate([prompt])
torchaudio.save("magnet.wav", wav[0].cpu(), 32000)
print("magnet.wav を生成しました。")

プロンプトは英語で指定します。
日本語プロンプトでも動く場合もあるようですが、公式には案内は無いようです。

GradioでWebアプリとして動かす

GUIで試したい場合は、Gradioを使うとシンプルなWebアプリにできます。

import gradio as gr
from audiocraft.models import AudioGen

model = AudioGen.get_pretrained("facebook/audiogen-medium")

def generate_sound(prompt):
    wav = model.generate([prompt])
    return (16000, wav[0])

gr.Interface(
    fn=generate_sound,
    inputs=gr.Textbox(label="Describe the sound"),
    outputs=gr.Audio(label="Generated Audio"),
    title="AudioGen Demo"
).launch()

MusicGenは公式デモとしてGradioを利用したコードが提供されています。

AudioGenは現時点で提供されていないため、この記事では確実に動く最小構成を紹介しています。
環境によっては、gradio, gradio_client, pydantic のバージョンの組み合わせで例外が出るケースがあります。下記の組み合わせで動作を確認しました。

pydantic==2.10.6
gradio==4.16.0
gradio_client==0.8.1

AudioGenの音質・音量・durationの基本仕様

AudioGenの生成音声は 16kHz・モノラル固定 で変更できません。
効果音用途ではある程度実用性があります。

また、モデル側に音量オプションはなく、後処理で正規化や音量調整の必要があります。

wav = wav / np.max(np.abs(wav)) * 0.99

durationは「最大のおおよその値」であり、指定秒数どおりには生成されません。前後に無音が入ることもあるため、軽くトリミングして使うのが実務的です。

実用でよく使うAudioGenオプション

duration（長さの最大値）

# duration（長さの最大値）
wav = model.generate([prompt], duration=4.0)

# top_k / top_p（多様性と安定性）
wav = model.generate([prompt], top_k=250, top_p=0.95)

# cfg_coef（忠実度）
wav = model.generate([prompt], cfg_coef=2.0)