OBSERVATION · 其の4684 · 2026.06.05

しゃべるアバターをRTX4070 12GBで動かす｜LongCat-Video-Avatar 1.5は日本語で喋るのか

◉ 2026.06.05 · 8min

こんにちは、パレイド技術部の夏目です。

1枚の顔写真と音声ファイルを渡すだけで、その人物が自然に喋るアバター動画を作ってくれるAI「LongCat-Video-Avatar 1.5」が公開されました。中国のMeituanが開発したもので、ライセンスは商用利用も可能なMIT。実写でもアニメ顔でも、口の動きを音声にぴったり合わせた動画を生成できます。

meigen-ai.github.ioLongCat-Video-Avatar 1.5LongCat-Video-Avatar 1.5 is an open-source audio-driven video generation model with stronger stability, lip-sync accuracy, consistency, and…meigen-ai.github.io

ただ、手元で試そうとすると2つ引っかかりがあります。ひとつはモデルが重いこと。公開元の実行例は複数GPU前提で、48GBのプロ向けGPUでもメモリ不足で止まったという報告があります。もうひとつは、公式の品質評価が中国語と英語だけで、日本語に触れていないこと。そこで本記事では「市販のRTX4070（VRAM 12GB）で動くのか」「日本語で喋らせられるのか」を実際に確かめます。

本記事はローカル LLM による自動執筆パイプラインで生成されました。現段階ではクラウド AI（Claude 等）の補助や人間の編集が介在していますが、pareido.jp では最終的に AI が自律的にコンテンツを制作できる仕組みの構築を目指しています。

48GBでも止まるモデルを12GBに載せる

このモデルが重いのは、13.6B（130億超）パラメータという規模が理由です。フル精度（bf16という重い形式）の重みファイルは約32GBあり、そのままでは12GBのVRAM（画像処理用の高速メモリ）に到底入りません。公開元のコードはGPUを2枚束ねる前提で書かれており、48GBの単体GPUですら生成の最終段でメモリ不足になる、という報告が上がっていました。

そこで使うのが、画像・動画生成の定番ツール ComfyUI と、その拡張 WanVideoWrapper です。鍵になる工夫は2つあります。ひとつは fp8量子化（数値を8ビットに切り詰めて軽くする手法）——重みの精度を半分に落とし、ファイルを約32GBから約17GB（およそ半分）まで圧縮したモデル（コミュニティ配布版）を使います。もうひとつが ブロックスワップで、これはモデルの一部を常にメインメモリ（RAM）へ退避させ、必要なときだけVRAMに呼び出す仕組みです。13.6Bのうち一定数の層をRAMに逃がすことで、12GBの枠に収めます。

項目	構成
OS / GPU	Windows 11 / RTX 4070（VRAM 12GB）
RAM	32GB
ツール	ComfyUI（WanVideoWrapper 拡張）
モデル	LongCat-Video-Avatar 1.5（fp8量子化版・約17GB）
ブロックスワップ	40層中30層をRAMへ退避

この設定で実際に動かしたところ、VRAMのピークは11.6GB。12GBの枠にぎりぎり収まりました。13.6Bの商用級アバター生成が、量子化とブロックスワップの合わせ技で市販GPUに乗ったことになります。

12GBで「動く」が「速くはない」

載ることは確認できました。ただし速度には正直に向き合う必要があります。5.8秒・480×480の動画1本の生成に、約750秒（12分半）。言語を変えて3本作ってもいずれも750秒前後で安定しており、初回ダウンロードのせいではありません。理由は構成そのものにあります。

生成中のマシンを覗くと、32GBのメインメモリは空きが2GBを切り、VRAMは11GB前後が埋まりっぱなしでした。約17GBのモデルのうちVRAMに載っているのは4分の1ほどで、残りの大半はメインメモリに置かれ、毎ステップGPUへ運ばれています。ブロックスワップとは要するに「モデルの大半をRAMに住まわせ、GPUは薄く使う」設定です。VRAMを節約する代わりに、RAMとVRAMの間の往復が処理の足を引っぱる——これが「動くが速くない」の正体でした。

解像度を上げて上限も探りました（○＝実用的／△＝メモリは収まるが時間が非現実的／×＝破綻）。

解像度	フレーム/長さ	peak VRAM	メインメモリ	生成時間	結果
480×480	93f / 5.8秒	11.6GB	収まる	約750秒（12分半）	○ 実用的
640×480	93f / 5.8秒	11.7GB	天井に張り付き	12分半を大きく超過	△ 待てない
720×480	93f / 5.8秒	11.7GB	天井に張り付き	12分半を大きく超過	△ 待てない

注目すべきは、解像度を上げてもVRAMのピークがほとんど動かないことです。ブロックスワップが「RAMへ逃がす層の量」で上限を決めているので、メモリ側（VRAM）は頭打ちになります。代わりに効いてくるのがメインメモリで、640×480以上では1コマあたりの計算が増えてRAMが32GBの天井に達します。するとメモリ不足になったOSがデータをディスク（SSD）に逃がし始め、ディスクは桁違いに遅いため生成時間が一気に膨らみました（ページングと呼ばれる現象です）。つまり12GBでこのモデルを回すときの本当の壁は、VRAMではなくシステムRAM。実用上限は480×480前後で、「VRAMに収めること」より「RAMを溢れさせないこと」が鍵になります。

ここから先は、解像度そのものを上げるのではなく、生成は480×480に固定したまま、足りない画質を後段のアップスケールで補うのが現実的でしょう。ESRGANやRealESRGANのような拡大専用モデルは1フレームずつ処理する軽い仕組みで、RAMを飽和させるブロックスワップとは無関係に動きます。重い生成を太らせずに見栄えだけ底上げできる可能性があり、これは次回の検証テーマにします。

日本語でも喋るのか

本題です。このモデルは音声を解析して口の形を決めるのに、中国語で学習された音声認識モデル（wav2vec2 という公開モデル）を使っています。公式の品質評価も中国語と英語だけ。日本語は学習にも評価にも明示されていません。とはいえ、リップシンク（口と音の同期）は文字ではなく音の特徴から動くため、言語の壁は比較的低いはずです。実際に試しました。

同じ1枚の顔画像に対し、内容をそろえた日本語・英語・中国語の音声を順に当てて生成し、口の動きを比べます。結論から言うと、日本語でも口は自然に動きました。「あ」で大きく開き、「ん」「っ」でしっかり閉じ、母音ごとに口の形が変わる——中国語学習のモデルにもかかわらず、日本語特有の発音でも破綻なく追従します。

正直な比較として、最も口の動きが豊かなのは学習言語である中国語でした。英語はやや控えめ、日本語はその中間で、3つを並べても日本語が明確に劣るという印象はありません。顎が外れたり口が溶けたりといった破綻も、日本語だからといって増えませんでした。元記事が触れていない「日本語で喋るのか」という問いには、実用レベルで喋ると答えられます。

音声はsayコマンドで作成

今回は言語ごとの正確性を求めて、macOS 標準の読み上げコマンド say（内蔵 TTS）でサンプル音声を作りました。キャラクター映像と合ってないので気になりますが、外部サービスもAPIも使わず、Mac だけで完結しています。

3言語それぞれ別の内蔵音声を指定し、同じ内容を読ませた WAV を生成しました：

# 日本語（音声: Kyoko）
say -v Kyoko -o audio_ja.wav --file-format=WAVE --data-format=LEI16@24000 \
  "こんにちは。パレイド技術部です。ローカルエーアイでアバターを喋らせています。"

# 英語（音声: Samantha）
say -v Samantha -o audio_en.wav --file-format=WAVE --data-format=LEI16@24000 \
  "Hello. This is the Pareido tech team. We are making an avatar talk with local A I."

# 中国語（音声: Tingting）
say -v Tingting -o audio_zh.wav --file-format=WAVE --data-format=LEI16@24000 \
  "你好。这里是 Pareido 技术部。我们用本地 A I 让虚拟形象说话。"

まとめ

13.6Bの商用級しゃべるアバターが、RTX4070（12GB）で動く——fp8量子化＋ブロックスワップでVRAMピーク11.6GB
ただし速度は課題。5.8秒の動画に12分半。しかも本当の壁はVRAMではなくシステムRAMで、解像度を上げるとメインメモリが飽和して時間が膨らむ。実用上限は480×480前後
日本語のリップシンクは英語・中国語と同等。音声エンコーダが中国語版でも、日本語で自然に口が動く

「重みがMITで配られ、市販GPUで商用級アバターが回る」段階に来ています。残る壁は速度とメインメモリ。次回は、480×480で生成してから後段でアップスケールする分業がどこまで通用するか、RAMを増やす（64GB化）と上限が伸びるか、より軽い量子化で速度を取れるかを詰めていきます。

▶ 関連動画 · YOUTUBE