こんにちは、パレイド技術部の夏目です。
RealVisXL V5.0 は、SG161222(Mage.Space スポンサー)が公開する SDXL 1.0 ベースの写実(photorealism)特化 merge モデルです。肌の質感や自然光のポートレートを「素の写真」に近い質感で出せるチェックポイントで、商用利用も認められています。この記事では、入手先・ファイルの選び方・ComfyUI への導入・推奨設定・つまずきどころ(VAE の砂嵐)までを、わたしが手元で再現できた手順として一本にまとめます。
本記事はローカル LLM による自動執筆パイプラインで生成されました。現段階ではクラウド AI(Claude 等)の補助や人間の編集が介在していますが、pareido.jp では最終的に AI が自律的にコンテンツを制作できる仕組みの構築を目指しています。
どこで入手するか(配布元とファイルの選び方)
配布元は HuggingFace と CivitAI の 2 つです。HuggingFace の SG161222/RealVisXL_V5.0 は公開リポジトリで、ログイン token なしに curl で直接ダウンロードできます。CivitAI 側は models/139562 で、こちらは VAE を内蔵した BakedVAE 版が手に入ります。
ファイルは大きく 3 種類あり、用途で選びます。迷ったら fp16 単一ファイルから始めるのが軽くて確実です。token も追加の VAE ファイルも要らず、置くだけで動きます。
| ファイル | サイズ | 入手先 | 向いている人 |
|---|---|---|---|
RealVisXL_V5.0_fp16.safetensors |
約 6.94 GB | HuggingFace | まず試したい人。軽く、token 不要、置くだけ |
RealVisXL_V5.0_fp32.safetensors |
約 13.9 GB | HuggingFace | 精度優先・VRAM に余裕がある人 |
| BakedVAE 版 | fp16 とほぼ同じ(約 7 GB) | CivitAI | VAE を別途用意せず、砂嵐(後述)を確実に避けたい人 |
fp16 と fp32 は推論結果の傾向自体は同じで、fp32 は計算精度が高いぶん VRAM 使用量と読み込みが重くなります。12GB クラスの GPU なら fp16 で十分、というのがわたしの判断です。BakedVAE 版は VAE がモデルに焼き込まれているため、後述の「VAE NaN 砂嵐」を初手から踏みにくいのが利点です。
ComfyUI への導入手順
HuggingFace の公開リポジトリなので、token なしで直接ダウンロードできます。fp16 単一ファイルを取得する例は次のとおりです。
# ComfyUI の checkpoints フォルダへ移動
cd ComfyUI/models/checkpoints
# fp16 単一ファイル(約 6.94 GB)を直接ダウンロード
curl -L -O https://huggingface.co/SG161222/RealVisXL_V5.0/resolve/main/RealVisXL_V5.0_fp16.safetensors
ダウンロードしたファイルを ComfyUI の models/checkpoints/ に置くと、Load Checkpoint ノードの一覧に RealVisXL_V5.0_fp16.safetensors が現れます。これだけで読み込めるので、追加のカスタムノードは不要です。
Forge(Stable Diffusion WebUI Forge)や A1111(AUTOMATIC1111)でも、同じ .safetensors を各環境の models/Stable-diffusion/ に置けばそのまま使えます。Forge 系の導入と、後述の VAE NaN への具体的な対処手順は、別記事にまとめてあります。
パレイドStable Diffusion Forge Neo の導入|Stability Matrixで現行版を入れる手順とつまずき(Windows/Mac)Stability Matrixに頼らず、Stable Diffusion ForgeをWindowsとMacに手動インストールする手順を、環境準備から更新方法・トラブルシュートまでまと…
推奨設定(リファレンス)
作者(SG161222)が CivitAI で示している推奨は、DPM++ SDE Karras で 30 ステップ以上、または DPM++ 2M Karras で 50 ステップ以上です。cfg はやや低めの 4 前後、解像度は SDXL 標準の 1024 系(例: 1264×848 や 1024×1024)が目安になります。これを 1 枚の表にしておきます。
| 項目 | 推奨値 | 補足 |
|---|---|---|
| サンプラー | DPM++ SDE Karras / DPM++ 2M Karras | 作者推奨。手元の比較検証は dpmpp_2m / karras で統一 |
| ステップ | SDE で 30+ / 2M で 50+ | 写実の細部はステップ数で伸びる |
| cfg | 4 前後 | 高すぎると不自然にコントラストが立つ |
| 解像度 | 1024 系(例 1264×848) | SDXL の学習解像度に合わせる |
| VAE | 外部 sdxl_vae を明示ロード |
空欄にしないこと(次節) |
数値はあくまで起点で、ここから被写体や好みに合わせて調整します。とくに VAE を空欄のままにしないことだけは、設定として固定しておくのが安全です。
つまずきどころ — VAE NaN の「砂嵐」
RealVisXL に限らず SDXL モデル共通の罠として、VAE を空欄のまま生成すると、薄い砂嵐のようなノイズ画像になることがあります。これはプロンプトの問題ではなく、SDXL の VAE が fp16 で NaN(数値破綻、Not a Number) を起こす有名な不具合です。プロンプトをいくら直しても直らないため、検索でこの記事に来た方も一度は踏みやすい地雷です。
回避策は 3 つあり、どれか 1 つで解決します。
- 外部 VAE を明示ロードする:
sdxl_vae(SDXL 用の標準 VAE)を別途読み込む。ComfyUI ならLoad VAEノードを挿す。最も汎用的で、わたしはこれを既定にしています。 - BakedVAE 版を使う: CivitAI の BakedVAE 版は VAE がモデルに焼き込まれているため、別途のロードなしで砂嵐を踏みません。
- fp32 を使う: 数値破綻が起きにくくなりますが、VRAM と読み込みのコストは上がります。
Forge 系での具体的な手順(どこに VAE を置き、どう選択するか)は、導入記事側にスクリーンショット付きでまとめています。
パレイドStable Diffusion Forge Neo の導入|Stability Matrixで現行版を入れる手順とつまずき(Windows/Mac)Stability Matrixに頼らず、Stable Diffusion ForgeをWindowsとMacに手動インストールする手順を、環境準備から更新方法・トラブルシュートまでまと…
得意・不得意
得意なのは、名前のとおり 写実(Real Vision) です。肌の毛穴・産毛・そばかすまで拾うような、ドキュメンタリー寄りの素の写真の質感が出ます。ポートレートや環境光のシーンで強く、推論も速い部類で、RTX 4070 / 12GB の fp16 で 1 枚あたり 11〜14 秒級(同一セッションの 2 枚目以降、steps=30 / cfg=4.0 / dpmpp_2m / karras 条件)です。



不得意なのは 文字の描画です。日本語も英字もプロンプト指定どおりには出ず、タイトル入りのポスターやマンガ調の吹き出しは崩れます。これは SDXL 全体の制約で、文字を載せたい場合は後処理で重ねるのが現実的です。アニメ調やアイソメトリックの細部も、写実専用モデルだけあって他系統より弱めです。
同じ写実系の Juggernaut XL との ○△× ベンチマーク(共通プロンプトでの実走比較) は別記事で詳しく扱っているので、描写力の差を数字と作例で見たい方はそちらをどうぞ。
速度を優先したい場合は、同系統で 4 ステップまで蒸留した RealVisXL V5.0 Lightning という派生もあります。写実の質感がどこまで残るかを検証した回です。
ライセンス(商用可否)
HuggingFace README の license フィールドは openrail++(CreativeML Open RAIL++-M) です。RAIL の Use-based Restrictions(用途ベースの禁止事項)の範囲内であれば、商用利用・生成物の販売・モデルの再配布(帰属表示推奨)・派生(merge / LoRA)のいずれも認められています。SG161222 の README にも追加の制限は書かれていないため、安心して使える部類です。学習データの詳細は merge ベースで非開示なので、その点だけ承知しておけば十分でしょう。
まとめ
写実をそのまま画面に乗せたいときの第一候補が RealVisXL V5.0 です。導入自体は、HuggingFace の fp16 単一ファイルを models/checkpoints/ に置き、外部 VAE を挿すだけで完了します。設定は DPM++ 系・30 ステップ前後・cfg 4・1024 系解像度を起点に、VAE だけは空欄にしない——この一点を守れば、砂嵐に悩まされることなく写実描写を引き出せます。文字描画が要る用途だけは別モデルや後処理に回す、という割り切りが現実的です。