1月に Windows + RTX 4070 で組み、3月には MacBook Air + diffusers に一本化したサムネイル自動生成パイプライン。 今回は Baidu が 2026-04-15 に公開した ERNIE-Image を試すため、一時的に RTX 4070 側へ戻って ComfyUI で実測しました。
なぜ ERNIE-Image を試したいか
3月の diffusers 移行で採用した RealVisXL V5.0 は背景画像としては十分で、pareido.jp の現行ラインを問題なく回せています。ただし「日本語テキストをきれいに描画できない」という SDXL 共通の制約も引き継いだままで、タイトル入りポスターやマンガ風サムネは Pillow で後から文字を載せる前提になっていました。
ERNIE-Image はこの点を明確に売りにしています。
- DiT ベース 8B パラメータ、Apache-2.0
- 日本語を含む多言語テキスト描画に強い
- ComfyUI は day-0 対応、公式テンプレートあり
- Turbo 版は 8 ステップで生成完了
素の ERNIE-Image は 24GB VRAM 推奨(RTX 5090 級)ですが、蒸留された Turbo 版であれば RTX 4070 の 12GB にも乗ることが実測でわかりました。
検証環境
| 項目 | 値 |
|---|---|
| GPU | RTX 4070 (VRAM 12GB) |
| OS / Python | Windows 11 / Python 3.10.11 |
| ComfyUI | 0.19.3(StabilityMatrix 経由) |
| PyTorch | 2.11.0+cu130 |
| モデル | ernie-image-turbo.safetensors (bf16) |
モデル一式の配置は ComfyUI 側で下記の 4 ファイル。
ComfyUI/models/
├── diffusion_models/ernie-image-turbo.safetensors
├── text_encoders/ministral-3-3b.safetensors
├── text_encoders/ernie-image-prompt-enhancer.safetensors
└── vae/flux2-vae.safetensors
ワークフローは Comfy-Org/ERNIE-Image の公式テンプレートをそのまま使用しました。標準の SD 系と違って、プロンプト文字列は PrimitiveStringMultiline に書き込み、CLIPTextEncode へはスイッチ経由で渡る形です。プロンプト強化 (PE) をトグルすると ministral-3-3b が原文を拡張したテキストに差し替えてくれる仕組みになっています。
実行スクリプト
ComfyUI のAPIを直接叩けるよう、シンプルな Python ランナーを書きました。
# (抜粋)
resp = requests.post(
f"http://{server}/prompt",
json={"prompt": patched_workflow, "client_id": client_id},
)
prompt_id = resp.json()["prompt_id"]
ws = websocket.WebSocket()
ws.connect(f"ws://{server}/ws?clientId={client_id}")
while True:
msg = json.loads(ws.recv())
if msg.get("type") == "executing":
data = msg.get("data") or {}
if data.get("prompt_id") == prompt_id and data.get("node") is None:
break # 完了
hist = requests.get(f"http://{server}/history/{prompt_id}").json()
patch_workflow() 側では、公式テンプレートが持つ以下のノードに対して引数を差し込みます。
PrimitiveStringMultiline(タイトルに “Prompt”) → プロンプト文字列EmptyFlux2LatentImage→ width / heightKSampler→ seed / steps / cfgPrimitiveBoolean(”prompt enhancement”) → PE の ON/OFFPreviewAny(source=1024 固定のもの)→ プロンプトテンプレ内の{width}/{height}と同期
テンプレート側は source: 1024 が文字列化されて PE 用システムプロンプトに埋め込まれるため、解像度を変えるときはここも合わせておかないと PE が「1024×1024 で生成してほしい」という指示で走ることになります。
実測結果
6 種のプロンプトで生成。解像度 1264×848(Flux 2 系の推奨比率、3:2 に近い)、steps=8、cfg=1.0、sampler=euler、scheduler=simple。
| ID | 概要 | PE | 所要時間 | VRAM 使用 |
|---|---|---|---|---|
| 01 | 開発者ワークスペース(英語) | on | 49.6 s | 8487 MB |
| 02 | 日本語タイトル入りワークスペース | on | 47.5 s | 8615 MB |
| 03 | 抽象ニューラル(中央空けレイアウト) | on | 46.9 s | 8649 MB |
| 04 | マンガ調 + 日本語セリフ「実測!」 | on | 53.2 s | 8617 MB |
| 05 | アイソメトリックのデータセンター | on | 50.9 s | 8649 MB |
| 06 | 80s ポスター + 日英混在テキスト | on | 45.9 s | 8425 MB |
| 02b | 02 と同文(PE OFF) | off | 26.2 s | 8745 MB |
| 06b | 06 と同文(PE OFF) | off | 25.0 s | 8619 MB |
- PE ON で 46〜53 秒、OFF で 25〜26 秒。PE が所要時間の半分近くを占める
- VRAM は常時 8.4〜8.7GB。RTX 4070 の 12GB で破綻なし
- fp16 NaN のようなトラブルも出なかった
日本語テキスト描画
一番気になっていた 02(日本語タイトル)と 06(日英混在ポスター)は、PE ON でも OFF でも日本語が崩れず描画されました。

PE ON の方は ministral-3-3b が構図・照明・追加装飾を広げてくれるので華やかになりますが、指示に無いテキストも足されます(02 は “Image Generation Tool” が追加される、06 は “Real-time generation / 1024px resolution / Multilingual support” のような箇条書きが自動追加)。
一方 PE OFF は原文忠実で、時間も半分。サムネイル用途のようにプロンプトを厳密にコントロールしたい場合は PE OFF の方が扱いやすいという実感です。
既存パイプラインへの差し込み
1月の構成から変わっていない Pillow レイヤーは、背景画像の生成元を差し替えるだけで完全に流用できました。
# 1) ERNIE で中央空けの背景を生成
python run_thumbnail.py \
--workflow workflows/ernie_turbo_api.json \
--prompt "abstract digital artwork, glowing neural network nodes ..." \
--width 1264 --height 848 --steps 8 --cfg 1.0 --seed 42 \
--output outputs/
# 2) Pillow で 1200x630 にクロップ + オーバーレイ + タイトル
python compose_thumbnail.py \
--bg outputs/<生成画像>.png \
--title $'ERNIE-Image-Turbo\nRTX 4070 実測' \
--keywords "ERNIE-Image" "ComfyUI" "RTX 4070" \
--output assets/thumbnail_2026_04_19.png
この 2 ステップで、この記事のサムネイル (1200×630) も自動生成しています。
考察
- 日本語タイトル入りサムネが自動化できるのは大きい。これまで Pillow 側で後処理していた部分を、モデル生成の段階から扱える選択肢が増えた
- 時間コストは Turbo + PE OFF で 25 秒/枚。RealVisXL + diffusers on MPS の 1 分/枚(3 月記事)より速い。ただし RTX 4070 常駐が前提になる
- メモリは Turbo なら 12GB に余裕で収まる。フル版 (8B SFT, 50 ステップ) は 24GB 級が必要で RTX 4070 単体では厳しい
- ComfyUI の公式テンプレートが PE 前提で組まれている点は注意。Python から叩くなら
PrimitiveBooleanのトグルを露出させておくと柔軟
ERNIE (DiT 系) はテキスト描画力は高いものの、Stable Diffusion の regional prompting のような空間制御は素の状態だとまだ難しそうです。この例に限れば問題なく使えますが、テキスト内容は ERNIE、レイアウト幾何は Pillow、という役割分担が今のところ現実的です。


まとめ
- ERNIE-Image-Turbo は RTX 4070 (12GB) + ComfyUI で普通に動く。所要時間は 25〜50 秒、VRAM は 8.5GB 前後
- 日本語テキスト描画が売りの通り強く、pareido.jp の「日本語タイトル入り」用途に刺さる
- プロンプト強化 (PE) は OFF の方が時間も忠実度も有利。必要に応じて切る設計が良い
- 既存の Pillow 合成パイプラインを変えずに、背景生成元だけ差し替える運用が可能





