AudioGen入門:サンプル・Gradioデモ・設定まとめ

AI音楽

AudioGenはMetaが公開したテキストから効果音を生成するモデルで、短いSEを素早く作る用途に向いています。この記事では、最短ルートで「動かす」「理解する」「実務で使う」の流れをまとめます。

AudioGenとは何か

AudioGenはBGM生成のMusicGenと異なり、効果音(環境音・短い素材)の生成に特化しています。「猫の鳴き声」「紙を破く音」「車が通り過ぎる音」など具体的な音をすぐ作れます。

商用利用が実質NGのため、個人用途が主となりますが、実験的な用途には興味深い存在です。

すぐ使える最小サンプル

from audiocraft.models import MAGNeT
import torchaudio

model = MAGNeT.get_pretrained("facebook/magnet-medium-30secs")
prompt = "A relaxing ambient synth pad with soft textures."
wav = model.generate([prompt])
torchaudio.save("magnet.wav", wav[0].cpu(), 32000)
print("magnet.wav を生成しました。")

プロンプトは英語で指定します。
日本語プロンプトでも動く場合もあるようですが、公式には案内は無いようです。

GradioでWebアプリとして動かす

GUIで試したい場合は、Gradioを使うとシンプルなWebアプリにできます。

import gradio as gr
from audiocraft.models import AudioGen

model = AudioGen.get_pretrained("facebook/audiogen-medium")

def generate_sound(prompt):
    wav = model.generate([prompt])
    return (16000, wav[0])

gr.Interface(
    fn=generate_sound,
    inputs=gr.Textbox(label="Describe the sound"),
    outputs=gr.Audio(label="Generated Audio"),
    title="AudioGen Demo"
).launch()

MusicGenは公式デモとしてGradioを利用したコードが提供されています。

AudioGenは現時点で提供されていないため、この記事では確実に動く最小構成を紹介しています。
環境によっては、gradio, gradio_client, pydantic のバージョンの組み合わせで例外が出るケースがあります。下記の組み合わせで動作を確認しました。

pydantic==2.10.6
gradio==4.16.0
gradio_client==0.8.1

AudioGenの音質・音量・durationの基本仕様

AudioGenの生成音声は 16kHz・モノラル固定 で変更できません。
効果音用途ではある程度実用性があります。

また、モデル側に音量オプションはなく、後処理で正規化や音量調整の必要があります。

wav = wav / np.max(np.abs(wav)) * 0.99

durationは「最大のおおよその値」であり、指定秒数どおりには生成されません。前後に無音が入ることもあるため、軽くトリミングして使うのが実務的です。

実用でよく使うAudioGenオプション

duration(長さの最大値)

# duration(長さの最大値)
wav = model.generate([prompt], duration=4.0)

# top_k / top_p(多様性と安定性)
wav = model.generate([prompt], top_k=250, top_p=0.95)

# cfg_coef(忠実度)
wav = model.generate([prompt], cfg_coef=2.0)

AudioGenの評判と使いどころ

AudioGenは短いSE制作向きで、動画編集、ゲーム制作、アプリUI音など「仮素材がすぐ必要」な場面ではプロンプトを変えるだけで利用できる便利さがあります。一方、長尺や複雑な音には不向きで、AudioGen単体での利用は難しいでしょう。

利用にはPythonの知識が必要で、導入にも依存関係で相当の苦労が必要となります。
腕に自身があり、時間に余裕があって、無料のローカル環境にこだわる方には選択肢の一つと言えます。

FAQ

音楽生成には使えますか?
いいえ、効果音生成のみで、音楽には同梱のMusicGenやMAGNeTが利用できます。

高音質(44.1kHz / 48kHz)で出力できますか?
出力は16kHz固定です。編集上の必要に応じて後処理で変換します。

商用利用できますか?
モデル重みはCC-BY-NC 4.0のため、生成された音源を含め商用利用はできません。

まとめ

AudioGenは、ローカルで短い効果音生成素早く試せる無料モデルです。本記事の最小構成だけで「どんな音が出るか」「どこまで使えるか」を短時間で確認できます。テキスト生成の強みを生かした効果音の方向性確認や仮素材づくりに位置づけた使い方が考えられます。

AI音楽を制作フローに組み込みたい場合、まずAudioGenで短尺の手触りをつかみ、必要に応じて商用サービス(Sunoなど)と組み合わせると、最小の手間で判断と比較ができます。

タイトルとURLをコピーしました