こんにちは、パレイド思想部です。
今回から新連載「アバター自動生成に挑む」をスタートします。いわゆる「PNGTuber」やバーチャルキャラクター向けのアバター画像を、画像生成 AI で自動的に作れるパイプラインを構築する過程を記録していきます。
本記事はローカル LLM による自動執筆パイプラインで生成されました。現段階ではクラウド AI(Claude 等)の補助や人間の編集が介在していますが、pareido.jp では最終的に AI が自律的にコンテンツを制作できる仕組みの構築を目指しています。
画像生成 AI の「選べない問題」
画像生成 AI はここ数年で劇的に進化しました。Stable Diffusion をはじめとするオープンモデルの登場で、誰でもローカル環境で高品質な画像を生成できるようになっています。
ところが、いざ始めようとすると壁にぶつかります。選択肢が多すぎるのです。
- ツール: ComfyUI、A1111、Forge、SD.Next… どれを使えばいいのか
- モデル: Civitai に SDXL 系だけで数百種類。どれを選べばいいのか
- プロンプト: 英語で何を書けばいいのか。ネガティブプロンプトとは何か
- パラメータ: steps、CFG scale、sampler、VAE… 調整項目が多すぎる
さらに厄介なのが NSFW とライセンスの問題です。Civitai のモデルには NSFW コンテンツに最適化されたものが多数あり、一見すると区別がつきません。学習データの出自が不明なモデル、商用利用を禁止するライセンスのモデルも混在しています。「アバターを作りたいだけ」なのに、知らずにコンプライアンス上の地雷を踏むリスクがあります。
「VTuber やるからアバターが欲しい」「SNS のアイコンを自分で作りたい」——こうしたシンプルな欲求に対して、現状の画像生成 AI は手段が複雑すぎます。
この問題に対するサービスはすでにいくつか存在します。
- PNGTuber Maker — テキストで説明するだけで表情パック付きの PNGTuber アバターを生成
- Fotor / AI Ease — 同様の Web ベース AI アバター生成
- Live3D — リアルタイム口パク対応の PNGTuber ツール
- DomoAI — テキストや画像からアバターを生成し、アニメーション化まで対応
「手軽にアバターが欲しいだけ」なら、これらのサービスで十分なケースも多いでしょう。
では、なぜ自前でパイプラインを組むのか
既存サービスとこの連載のアプローチは、目的が異なります。
| 既存サービス | この連載のパイプライン | |
|---|---|---|
| 画風の自由度 | サービス側が用意したスタイルから選択 | Civitai の任意のチェックポイントを使える。好みの絵柄を自分で選べる |
| プログラムとの連携 | Web UI での手作業が前提 | Python コードから全工程を制御。他のツールやワークフローに組み込める |
| 実行環境 | クラウド(サービス側サーバー) | ローカル GPU。データが外部に出ない |
| ライセンス管理 | サービスの利用規約に依存 | 使用モデルのライセンスを自分で確認・選択できる |
| カスタマイズ性 | パラメータ調整は限定的 | マスク形状、denoise 値、リトライ戦略まで全て制御可能 |
要するに、「お任せで1体作りたい」なら既存サービス、「自分の好みの絵柄で、コードベースで量産・拡張したい」ならパイプラインです。この連載は後者の道を選びます。
この連載のアプローチ
本連載では、用途を 「アバター生成」 に絞りつつ、コードによる制御と拡張性を確保します。
- 用途が決まれば、ツール・モデル・パラメータの選択肢は大幅に減る
- 「良いアバターとは何か」の評価基準を定量化すれば、ガチャの判断を機械に任せられる
- 表情差分やレイヤー分解など、アバター特有の加工はパイプラインが自動処理する
- 好みのチェックポイントを使えるため、絵柄の自由度はサービスに縛られない
最終的には、複雑な設定や画像加工の知識がなくても、パイプラインを実行すれば PNGTuber 用のアバターデータ一式が手に入る状態を目指します。
なぜアバター生成を自動化するのか
アバターを1体作るのに必要な画像は、表情差分・口パク・瞬きを含めると数十枚に及びます。これを手作業で描くのは大変ですが、画像生成 AI のインペイント機能を使えば、ベース画像から表情バリエーションを自動生成できます。
ただし、画像生成 AI は「ガチャ」です。同じプロンプトでも seed が違えば全く違う絵が出る。品質のばらつきも大きい。そこで、生成→評価→リトライのループを自動化し、一定品質のアバターを安定して量産できるパイプラインを目指します。
StabilityMatrix でモデル管理
画像生成 AI のモデル(チェックポイント)は無数にあります。Civitai だけでも SDXL 系で数百種類。これを手動で管理するのは現実的ではありません。
StabilityMatrix は、Stable Diffusion 系の UI(ComfyUI, A1111, Forge 等)とモデルを一元管理できるツールです。
- チェックポイント、LoRA、VAE をカテゴリ別に整理
- ComfyUI / A1111 / Forge を同一環境から起動
- モデルの共有ディレクトリにより、UI 間でモデルを使い回し可能
ComfyUI の起動と基本操作
ComfyUI はノードベースの画像生成ツールです。A1111 のような UI と違い、処理フローをノードグラフとして視覚的に組めるのが特徴です。
アバター生成パイプラインでは、ComfyUI をバックエンドとして使います。Python から API 経由でワークフローを投入し、結果画像を受け取る構成です。
Python スクリプト → ComfyUI API (localhost:8188) → 画像生成 → 結果取得
ComfyUI の API は REST ベースで、ワークフロー JSON をそのまま POST すれば実行できます。これにより、GUI を開かずにバッチ生成が可能になります。
次回予告
環境が整ったところで、次回は複数のチェックポイント(SDXL 系モデル)を同一プロンプトで比較評価する方法を整理します。




