こんにちは、パレイド思想部です。
前回は StabilityMatrix + ComfyUI の環境構築を行いました。
今回は、アバター生成に使うチェックポイント(モデル)の選定です。同一プロンプト・同一 seed で複数モデルの出力を比較し、どのモデルがアバター用途に適しているかを評価します。
本記事はローカル LLM による自動執筆パイプラインで生成されました。現段階ではクラウド AI(Claude 等)の補助や人間の編集が介在していますが、pareido.jp では最終的に AI が自律的にコンテンツを制作できる仕組みの構築を目指しています。
モデル選びの迷宮と地雷原
前回「選べない問題」を挙げましたが、チェックポイント選びはその最たるものです。Civitai には SDXL 系だけで数百のモデルが並んでおり、サムネイルを眺めるだけで1日が終わります。
さらに複雑なのが、NSFW(Not Safe For Work) とライセンスの問題です。
- NSFW 混入: Civitai のモデルの多くは NSFW 画像を含むデータセットで学習されている。SFW 用途のつもりでも、プロンプト次第で不適切な出力が生成されるリスクがある
- ライセンスの多様性: CreativeML Open RAIL-M、SDXL License、独自ライセンスなど、モデルごとにライセンスが異なる。商用利用の可否、派生物の扱い、クレジット表示の要否がまちまち
- 学習データの出自: 著作権のある画像を無断で学習に使ったモデルも存在する。特にリアル調モデルでは、実在の人物の画像が学習データに含まれている可能性がある
「アバターを作りたいだけ」のユーザーにとって、これらを自分で精査するのは酷です。
CivitAI と StabilityMatrix による改善
幸い、CivitAI と StabilityMatrix の組み合わせがこの問題を大きく緩和してくれます。
CivitAI 側の支援: – コンテンツレーティング(SFW / NSFW)によるフィルタリング – ライセンス種別の明示(商用可否、派生物の扱い) – ユーザーレビューとダウンロード数による品質の目安 – 用途別タグ(portrait、anime、character 等)による絞り込み
StabilityMatrix 側の支援: – CivitAI との連携によるモデルの直接ダウンロード・更新 – モデルのメタデータ(ライセンス、説明、バージョン)の一元管理 – 不要なモデルの整理と、複数 UI 間でのモデル共有
つまり、CivitAI でライセンスとコンテンツレーティングを確認して選び、StabilityMatrix で一元管理するというフローが、モデル選びの複雑さを実用的なレベルまで下げてくれます。
とはいえ、数百モデルから候補を絞ったとしても、最終的な「アバター用途に適しているか」は実際に生成して比較するしかありません。ここからは実際の比較評価に入ります。
比較の方針
アバター用途では、以下の要件が重要です。
- 顔が正面向きで安定して生成される
- 表情のインペイントがしやすい(顔パーツが明瞭)
- 背景が単純(背景除去しやすい)
- スタイルの一貫性(同一モデルで表情差分を作るため)
- ライセンスが明確で商用利用可能であること
これを踏まえ、ライセンスを確認した上で SDXL 系モデルを3スタイル(anime / illustration / realistic)から数種類ずつ選び、同じプロンプトで生成比較します。
テスト条件
prompt: "1girl, portrait, front view, simple background, upper body"
negative: "multiple people, side view, complex background, blurry"
size: 1024x1024
steps: 30
cfg_scale: 7.0
sampler: euler_ancestral
seeds: [12345, 23456, 34567, 45678] # 4候補ずつ
各モデルに対して4つの seed で生成し、顔の安定性・スタイルの一貫性を目視で評価します。

anime スタイル
アニメ調はアバター用途で最も人気のあるスタイルです。線画がはっきりしており、表情パーツ(目・口)が大きく描かれるため、インペイントで差分を作りやすいメリットがあります。
一方で、モデルによっては目の描き方が極端に大きかったり、正面向きが安定しなかったりする問題もあります。
illustration スタイル
イラスト調は anime と realistic の中間に位置します。線画は残しつつ、塗りがより繊細。アバターの表現力は高いですが、モデルごとの個性が強く出やすいスタイルです。
realistic スタイル
リアル調は、顔のランドマーク検出(MediaPipe)との相性が最も良いスタイルです。実写に近い顔構造のため、目・鼻・口の位置が安定しており、マスク生成の精度が上がります。
ただし、リアル調のアバターは不気味の谷に落ちやすいリスクがあります。
評価結果と選定基準
モデル選定で最も重視したのは「インペイントとの相性」です。ベース画像がいくら綺麗でも、表情差分を作る段階で破綻するモデルは使えません。
具体的には、表情マスク領域(目・口周辺)の denoise 0.4〜0.5 でインペイントした際に、周辺との色味・タッチが自然に馴染むかどうかを確認しました。
LoRA の効果
チェックポイント単体では理想の出力に届かない場合、LoRA(Low-Rank Adaptation)で微調整できます。アバター用途では、以下の LoRA が効果的でした。
- 表情LoRA — 感情表現のバリエーションを広げる
- 正面固定LoRA — 正面向きの安定性を高める
LoRA の強度は 0.3〜0.7 が目安です。強すぎるとスタイルが崩れ、弱すぎると効果がありません。
次回予告
モデルが決まったところで、次回は「ガチャ」の仕組みを作ります。seed を変えて複数候補を一括生成し、MediaPipe の顔検出で自動スコアリングして最良の1枚を選ぶシステムです。



