チェックポイントチェリーピック (9)|Pony Diffusion V6 XL — score_X タグ必須の特殊モデル、連載 4 月初動の最終回

チェックポイントチェリーピック (9)|Pony Diffusion V6 XL — score_X タグ必須の特殊モデル、連載 4 月初動の最終回 — Pony Diffusion V6 XL, score_X タグ, Animagine AI画像

こんにちは、パレイド技術部です。

前回 4/27Animagine XL 4.0 を取り上げ、「Booru タグで本領発揮、自然言語でも一応動く」という標準アニメ系チェックポイントの典型を確認しました。

連載 4 月初動の最終回となる本記事は、もう一つのアニメ系大柱、Pony Diffusion V6 XL です。Animagine と同じく Booru タグ系ですが、プロンプト構造をさらに振り切ったという個性的なモデルです。本記事では「score_X タグが必須」という運用上の特性を明らかにします。

本記事はローカル LLM による自動執筆パイプラインで生成されました。現段階ではクラウド AI(Claude 等)の補助や人間の編集が介在していますが、pareido.jp では最終的に AI が自律的にコンテンツを制作できる仕組みの構築を目指しています。

出自と系統

Pony Diffusion は PurpleSmartAI / AstraliteHeart が公開する、独自路線のアニメ + ファーリー系 SDXL fine-tune シリーズです。

SD 1.5 時代の v1 – v4 を経て、SDXL 1.0 ベースの V6 XL として 2024 初頭に公開されました。Animagine が “標準アニメ” を狙うのに対し、Pony は アニメ + ファーリー (擬人化動物) + anthro + 多様体を一括で扱う独自コミュニティのモデルです。

リリースベース特徴
Pony Diffusion v1 – v42022 – 2023SD 1.5初期、ポニー文化発祥
Pony Diffusion v5 (PD5)2023 中盤SD 1.5 改良SD 1.5 系の到達点
V6 XL (本記事、”start with this one”)2024 初頭SDXL 1.0score-based 学習で品質制御
V6 Turbo DPO merge2024SDXL Turbo + DPO高速派生 (※ Turbo 継承で商用 NG の可能性、本連載では扱わず)

V6 XL の最大の特徴は score-based プロンプト構造です。学習時に画像を score_4 から score_9 までの 6 段階で品質ラベルし、生成時にこのラベルを明示することで品質制御する仕組みになっています。

入手先:

本記事の検証では HF ミラーから入手しました。

ライセンスと商用利用

CivitAI 表示は allowCommercialUse=Image, RentCivit生成画像の商用利用は OK、CivitAI 上でのレンタル運用も OK。モデル本体の再配布・派生学習は PurpleSmartAI のページで個別の規約 (fair-AI-public-license の継承) に基づく方向で、merge / LoRA を配布する場合は同ライセンスで公開する義務があります。生成物のみの利用・モデル単体利用に関しては問題なく商用 OK です。

判定根拠条項 / 解釈
商用利用 (生成物販売)CivitAI allowCommercialUse=Image
生成物の販売同上
モデル再配布Fair AI Public License 継承、配布時は同ライセンス義務
派生 (merge / LoRA)派生の配布時に Fair AI Public License 公開義務
学習データ透明性merge / fine-tune ベース、詳細非開示

判定: 安心して使える ○ — ただし merge / LoRA を配布する場合は Fair AI Public License を継承する必要がある。生成画像の利用なら制約なし。

環境とセットアップ

項目
GPURTX 4070 12GB
ComfyUI0.19.3 / PyTorch 2.11.0+cu130
ファイルponyDiffusionV6XL_v6StartWithThisOne.safetensors (約 6.62 GB)
入手先HuggingFace LyliaEngine/Pony_Diffusion_V6_XL (token 不要)
CLIP skip2 (-2 in some software) ※ Pony 公式が「これでロードしないと low quality blobs が出る」と明記
VAE外部 ponyDiffusionV6XL_vae.safetensors (実体は標準 SDXL VAE) ※ 公式が同一 modelVersion で sdxl_vae.safetensors を別ファイル同梱、fp16 BakedVAE の NaN 回避用

ComfyUI ワークフロー上は CheckpointLoaderSimple の出力 CLIP に CLIPSetLastLayer (stop_at_clip_layer=-2) を挟み、VAEDecode の VAE 入力には VAELoader (vae_name=ponyDiffusionV6XL_vae.safetensors) を接続します (experiments/image_checkpoint_tour/workflows/pony_v6_xl_recommended.json)。

ベンチマーク (1) — 一般的なプロンプトでは動かない

公式推奨の CLIP skip 2 + 外部 VAE をロードした上で、本連載で他 7 ファミリー (Juggernaut / RealVisXL / DreamShaper / Animagine) と統一比較するため、共通 6 プロンプトを dpmpp_2m / karras / 30 step / cfg 4.0 / seed 42 で実走しました。当然と言えば当然ですが、結果は全 6 枚破綻でした。

ネガティブのみ Pony 公式推奨を採用 (score_6, score_5, score_4, source_furry, source_pony, worst quality, low quality, ... 等)。ポジ側には score_X タグを入れず、連載統一の自然言語プロンプトをそのまま投入しました。

判定軸: 安定 / ばらつき or 品質懸念 / × 破綻・OOM

プロンプトGPU 占有生成秒結果所見
01_workspace_en (英語写実)~5.1 GB27.2 s ※×※ session 初回。workspace は完全に消失、ぼんやりした女性顔の二重露光ドローイングが出力。プロンプトの主題が一切捕まえられていない
02_workspace_ja_title (日本語タイトル)~7.9 GB14.4 s×ベージュの背景に立つドレス姿の女性スケッチ、workspace もポスターも日本語も無視。”何でも人物に置き換える” 振る舞い
03_abstract_neural (抽象 + 中央空け)~7.9 GB11.1 s×茶色い紙の上に紫の円が一つ、下部に読めない署名らしき線だけ。完全に抽象画として崩壊
04_comic_panel (マンガ調 + 「実測!」)~7.9 GB11.2 s×薄い鉛筆スケッチ風の workspace 風景、品質コントロールが効かず “下書き” レベル。アニメも吹き出しも出ない
05_iso_cityscape (アイソメ)~5.2 GB11.3 s×パステル虹色のノイズ縦線パターン、画像として破綻
06_poster_mixed (日英混在ポスター)~7.9 GB12.1 s×マゼンタ + シアン + 緑 + オレンジの市松格子グリッチ、完全なノイズ画像

実際の出力 (連載統一条件、score_X タグなし)

01 workspace_en
02 workspace_ja_title
03 abstract_neural
04 comic_panel
05 iso_cityscape
06 poster_mixed

結果のサマリ — 念のための再確認

判定の比率は × 6 (完全破綻)。本連載の他 7 ファミリーが最低でも ○ 1 – 2 以上を出していたのに対し、Pony は連載統一条件では一枚も成立しないという極端な結果になりました。これは Pony が特有のプロンプト「のみ」の専用設計モデルに振り切っていると理解すべきでしょう。

  • Pony V6 XL は学習時に画像を score_4 〜 score_9 の 6 段階でラベル付けし、生成時に score_9, score_8_up, score_7_up 等をポジ側に明示することで品質をロックする設計
  • ポジに score_X が無い場合、モデルは「品質指定がない = どの品質帯でも自由」と解釈し、学習中に score_4 以下に存在した低品質画像 (落書き / ノイズ / 低解像度) も等しく出力候補に含める
  • ネガに低 score を入れても “ポジで上限を指定しない限り” 全体は最低保証ラインまで落ちる
  • 結果として「ポジに score_X 無し」では学習データの低品質側成分が露呈し、本記事のような完全破綻に至る

つまり Pony V6 XL は score_X タグが optional ではなく mandatory という、本連載で扱った中で最も特殊なプロンプト要求を持つモデルです。Animagine が「Booru タグで本領発揮、自然言語でも一応動く」だったのに対し、Pony は「正しく score_X を入れないと出力が崩壊する」。これは欠点ではなく仕様です。

steady-state は 1 枚 11-14 秒で速度面は他 SDXL ファミリーと同等、cold-start 27.2 秒。VRAM 5-8 GB (RealVisXL V5.0 通常版に近い帯)。

補足検証 — CLIP skip 2 / 外部 VAE は score_X 不在時のブロブを救えない

公式推奨の CLIP skip 2外部 VAE は本ベンチで適用済みですが、この 2 つの設定の実質効果を切り分けるため、同 seed・同 prompt で「CLIP skip 1 / BakedVAE 既定」「CLIP skip 2 / 外部 VAE」の 2 組をそれぞれ実走して対比しました。結果は 6 枚すべて pixel-identical (顔の二重露光・落書き・市松格子グリッチも含めて寸分違わず一致) で、CLIP skip 設定や VAE 切替は score_X 不在時のブロブ現象を一切救わないことが実証されました。

公式の「CLIP skip 2 でロードしないと low quality blobs が出る」という警告は、ポジ側に score_X が正しく入っているという暗黙の前提の上での話で、ブロブの直接の原因は score_X 不在である、というのが本記事の経験的な発見です。CLIP skip 2 と外部 VAE は正しく score_X を入れた上での “微調整” として推奨であり、score_X 不在時には何の効き目もない、という構造になっています。

ベンチマーク (2) — 公式推奨プロンプト構造で本領発揮

次に、Pony 公式推奨の score_9, score_8_up, score_7_up, rating_safe, source_anime プレフィックス + 内容プロンプトの構造で extras 3 種を実走しました (steps=30 / cfg=4.0 / seed=42、本記事 extras 用に新設したプロンプトセット)。

プロンプト生成秒結果所見
07 アニメ系少女 (魔法少女 + 銀髪 + 杖)23.3 sコンセプトアート級の銀髪魔法少女、金色の杖と鎧、光のフレア。Animagine と直接比較できる構図で品質は同等以上、より絵画的な仕上がり
08 anthro 系狐キャラ (デニム + 都市)12.1 sアンソロ狐 + デニムジャケット + サングラス + 都市背景、Pony の代名詞領域が綺麗に出る。Animagine では絶対に出ないファーリー / anthro の中心
09 ファンタジー氷竜 (no humans)12.0 s氷の鱗を持つ青と橙のドラゴン、コンセプトアート品質。Animagine 09 の “新海誠風都市風景” とは完全に別ベクトルの “ファンタジー生物” 領域
07 pony_anime_girl
08 pony_furry_character
09 pony_concept_dragon

3 枚すべて ○。書き込みがあっさりしていますが、ここはプロンプトやパラメータのチューニングが浅いためでしょう。

  • 07: Animagine の 07 (黒髪学園 1girl) と直接比較可能。Animagine が「標準的アニメの綺麗さ」だったのに対し、Pony は「やや絵画的・コンセプトアート寄りで密度が高い」絵柄
  • 08: Pony だけが安定して出せるファーリー / anthro 領域anthro, 1boy, anthro fox character と書くだけで普通のアニメと同じ品質の anthro が出る。これは Animagine では完全に不可
  • 09: Pony の汎用性 — no humans を入れて非人物ファンタジー生物を出すパターン。コンセプトアート的な “生物画” としての密度が高い

要点: Pony V6 XL は正しいプロンプト構造を入れれば Animagine 同等以上の品質。ただし独自のプロンプト構造に関する学習コストやチューニングが必須、というモデルです。

Animagine vs Pony — アニメ系内の棲み分け

場面Animagine XL 4.0Pony V6 XL
標準アニメ少女 / 少年○ (素直に綺麗)○ (絵画寄りでやや密)
学園 / 日常アニメ (新海誠風 + 学園)
ファンタジー人物 / 動物 (絵画的な密度)
ファーリー / anthro / 擬人化動物× (出ない)○ (本領)
自然言語プロンプトでも動くか△ (アニメ化するが動く)× (完全破綻)
Booru タグ要求度推奨必須
プロンプト学習コスト高 (score_X / source_X / rating_X / 内容タグの複合)

Pony を採用するときは、チームに score_X タグの運用ルール (Civitai – Pony Cheatsheet 等) を共有する必要があります。「Booru タグだから Animagine と同じ感覚で書ける」と思って投入するとプロジェクト初日に “全画像が破綻する” 事故が起きます。本記事の共通 6 がまさにその事故を再現した形です。

pareido.jp の現行運用は写実中心なのでアニメ系全般の出番は少ないですが、「ファーリー / anthro が必要なアイキャッチ」「コンセプトアート寄りのファンタジー生物画」が必要な場面では、Pony が唯一の選択肢になります。Animagine と Pony はアニメ系棚で同居しつつ、明確に異なる引き出しとして置くのが自然です。

連載 4 月初動 9 記事の総括

本記事で連載「チェックポイントチェリーピック」の 4 月初動 9 記事が完走しました。連載横断で見えてきた主な知見を 1 ページにまとめておきます。

#公開チェックポイント棚での位置づけ
14/15Juggernaut XL RagnarokSDXL 万能写実の “完成形” / farewell
24/16Juggernaut XL Jugg_XILightning 派生のある “1 つ前世代”
34/17Juggernaut XL Jugg_XI Lightning通常版とほぼ等価、Lightning でも問題なし
44/19RealVisXL V5.0 通常版写実専門、pareido.jp 現行アイキャッチの源流
54/20RealVisXL V5.0 Lightning売り (肌の毛穴) が落ちる、構図ガチャ専用
64/23DreamShaper XL Lightning通常版なし例外、最初から Lightning 設計
74/24DreamShaper XL Turbo⚠️ 商用 NG 警告記事、Lightning 系 vs Turbo 系の対比
84/27Animagine XL 4.0アニメ系標準、Booru タグ推奨
94/28 (本記事)Pony Diffusion V6 XLアニメ + ファーリー、score_X タグ必須

連載横断で固まった主な知見:

  • 「Lightning 系 = 派生も商用 ○、Turbo 系 = 派生も商用 ×」 (4/24 警告記事)
  • 「通常版前提を蒸留した Lightning (RealVisXL) と最初から Lightning 設計のモデル (DreamShaper) では 4-step での挙動が構造的に違う」 (4/23)
  • 「写実専用モデルを 4-step に蒸留すると売りが落ちる」 (4/20)
  • 「Lightning 派生条件 Euler / sgm_uniform / cfg=1.0 / 4 step は連載統一条件として安定」 (4/17 で確定)
  • 「Booru タグ系モデル (Animagine / Pony) はプロンプト構造の要求度に大きな差がある」 (4/27 + 本記事)
  • 「Lightning 蒸留派生は通常版同等の品質を保証しない、写実モデルでは特に。最終 1 枚は通常版に戻る運用が現実解」 (4/20)

5 月以降は監視中の Tier 1 (Illustrious XL / CyberRealistic XL / EpicRealism XL) を順次取り上げる予定です。

次回予告

連載 4 月初動 9 記事はこの Pony V6 XL で完結しました。次回からは不定期更新に移行し、5 月以降の Tier 1 候補から順次取り上げます。

Pony V6 XL は score_X タグを正しく入れる前提で、ファーリー / anthro / 多様体アニメの第一候補として棚に置く、というのが本記事の判定です。連載「チェックポイントチェリーピック」、4 月初動の連投はここでひと区切りとなります。お付き合いいただきありがとうございました。

タイトルとURLをコピーしました