サムネイル自動生成の追試③｜Mac M5 で動く ERNIE-Image-Turbo はサムネイル自動生成に向いているか

こんにちは、パレイド技術部です。

前回で ERNIE-Image-Turbo を MacBook Air M5 (32GB) 上で動くところまで持って行きました。今回は実際に生成した画像を眺め、現行パイプライン (RealVisXL V5.0) を置換する価値があるかを突き合わせます。結論から言うと「単純な置換ではダメ」で、そこに至る過程がいちばんの収穫でした。

前提のおさらい
ベンチ結果（6 プロンプト、Prompt Enhancement OFF）
RealVisXL との比較
公平な比較には ERNIE 専用プロンプト設計が必要
まとめ

前提のおさらい

機材: MacBook Air M5 (32GB 統一メモリ) / macOS 26.4 / PyTorch 2.10 MPS
モデル: baidu/ERNIE-Image-Turbo (8B DiT, 8 ステップ蒸留), bf16
最適化: vae.enable_tiling() + enable_attention_slicing() + enable_slicing()
比較対象: 現行 pareido.jp eyecatch の SG161222/RealVisXL_V5.0 (MPS + fp32)
解像度: 1264×848（3:2 に近い、最終は 1200×630 へクロップ）

ベンチ結果（6 プロンプト、Prompt Enhancement OFF）

先行記事の RTX 4070 Turbo と同じ 6 プロンプトを、1264×848 / 8 ステップ / cfg 1.0 で回しました。PYTORCH_MPS_HIGH_WATERMARK_RATIO=0.0 で上限キャップは外してあります。連続バッチで 6 枚を 56 分で完走:

ID	概要	所要時間	s/it	VAE decode
01	開発者ワークスペース（英語）	298.4 s (4:58)	31.30	〜48 s
02	日本語タイトル入りワークスペース	613.7 s (10:14)	70.99	〜46 s
03	抽象ニューラル（中央空けレイアウト）	548.7 s (9:09)	64.63	〜31 s
04	マンガ調 + 日本語セリフ「実測！」	700.9 s (11:41)	83.84	〜30 s
05	アイソメトリックのデータセンター	539.6 s (9:00)	62.84	〜37 s
06	80s ポスター + 日英混在テキスト	660.2 s (11:00)	78.52	〜32 s
	合計 / 平均	3361 s (56:01)	平均 65.4	—

最初の 1 枚 (01) は 5 分で異常に速い。2 枚目以降は 9〜12 分のレンジに張り付く。初回ウォームアップ後に MPS のメモリフラグメンテーションか swap hot が蓄積する現象で、連続バッチでは平均 10 分/枚を見ておくのが妥当
VAE decode は tiling が効いて 30〜48 秒に収まる
RTX 4070 の Turbo は 25〜50 秒だったので、約 10〜20 倍の時間コスト。ただし 1 日数枚のバッチ運用には許容範囲（寝てる間に 6 枚作れる）

代表的な生成例

何枚か生成を試してみました。以下はサムネイル用途で特に刺さる 3 枚。

02_workspace_ja_title — ポスター風「サムネイル自動生成」が壁に描かれたデスクトップ。日本語タイトルが破綻なく読める。

04_comic_panel — マンガ調の吹き出しに日本語「実測！」を描画。

06_poster_mixed — 80s レトロフューチャー、英字タイトル「ERNIE Image Turbo」ネオン管 + 日本語「MacBook Air M5 実測」の二段構成。ERNIE の売りが一番出るやつ。

RTX 4070 の Turbo で撮った同プロンプトと比較しても、日本語の字形・英字のネオン質感に知覚できる差はない。モデルが 8B DiT の重み共通なので当然ではありますが、MPS で bf16 計算しても最終出力は同等、という結論は個人的に嬉しい結果。

気づき：04 のマンガ調画像は「どこかで見たような」質感

生成画像を並べて眺めていて気になったのは、04_comic_panel のマンガ調が ChatGPT の画像生成（DALL·E 系）でよく見かける絵柄に近いこと。セル塗り・線の入り方・色味が、ここ半年 Web 上で急増した「AI 生成アニメ風画像」の典型的なテンプレに寄っています。

ERNIE-Image は Apache 2.0 で配布されており、生成物のライセンス的な制約はありません（Baidu は生成物を制限しない方針を明言）
が、学習データの透明性は ERNIE も DALL·E も非公開で、Web スクレイプ由来のサンプルが重複していれば似た絵柄に収束するのは当然
特にアニメ・マンガ系は他モデルの生成物が Web に氾濫しており、どのモデルを使っても「AI 絵」感が出やすい分野

逆に言うと、写実寄り (01, 02, 05) や抽象デジタル (03) や 80s ポスター (06) では ERNIE 固有の癖 — 日本語テキストが破綻しない、構図の中央空け指示に忠実、ネオン管の光学的な正確さ — がはっきり出ています。サムネイル用途ではマンガ調は使いどころを選ぶ、写実・抽象・ポスターは積極的に置換候補、という使い分けに落ち着きそうです。

RealVisXL との比較

先行 4/20 記事を入力に回した結果。同一キーワード・同一英語プロンプト・同一 seed=42 で、バックエンドだけ差し替え:

Backend	steps	cfg	dtype	所要時間
RealVisXL V5.0（現行）	25	7.0	fp32	198.5 s (3:18)
ERNIE-Image-Turbo	8	1.0	bf16	584.3 s (9:44)

LLM 側の出力は両者共通で:

keywords: ["ERNIE-Image", "日本語テキスト", "ComfyUI",
           "Turbo 版", "DiT ベース", "多言語テキスト"]
prompt:   Photorealistic background image. ERNIE-Image Turbo with DiT base,
          visualized as flowing data streams and vibrant neural network
          connections. ComfyUI interface subtly overlaid, RTX 4070,
          Japanese text integration. Bright, professional, futuristic.

RealVisXL V5.0 版:（文字や図形はPillowで合成）

ERNIE-Image-Turbo 版:（文字や図形はPillowで合成）、背景はERNIEによる描画。

所要時間は RealVisXL が約 3 倍速い。ただし、現行のプロンプト生成ロジックは RealVisXL (SDXL) 向けに設計されており、LLM に対して以下の制約を明示しています:

- photorealistic スタイル（realvisXL 向け）
- テキスト・文字・ロゴを含まないこと
- 20〜40語の英語（CLIP 77トークン制限のため短く）

この結果、ERNIE に与えたプロンプトには日本語が含まれていません。英訳された抽象概念として Japanese text integration という概念的言及だけ残り、ERNIE は存在しない日本語らしきグリフをハルシネーションし、かつ「テキスト禁止」の矛盾指示で崩れ文字を出力したようです。ERNIE の売りである「日本語テキスト描画」がうまく発動していない状態です。

公平な比較には ERNIE 専用プロンプト設計が必要

バックエンド切替時は LLM 側のプロンプトも差し替えるべきで、ERNIE 用には以下のような仕様があります。

記事タイトル等の日本語文字列を原文のままプロンプトに埋め込む（"「サムネイル自動生成」と書かれた大きなポスター" のように）
文字描画の禁止条項を外す
Ministral-3B ベースの text encoder を前提に 77 token 制約を緩める
use_pe=True でプロンプト強化を効かせる余地を残す

そのため事実上、ERNIE専用の設計が必要となります。これは次のフェーズの課題として切り出します。

メモリ挙動の記録

アクティビティモニタで見たバッチ実行中の実測値:

項目	値
python3.12 プロセス RSS	35.95 GB
物理メモリ	32.00 GB
使用済みメモリ	28.19 GB
スワップ使用領域	25.41 GB
圧縮メモリ	10.41 GB
メモリプレッシャー	黄色で安定、赤は出ず

前回の最適化なしフル版試行が swap 30GB・メモリ圧迫時々赤だったのと比べて、Turbo + 最適化 の組み合わせは swap 25.4GB、圧迫は黄色のみで収まりました。macOS 側が 10.4GB を圧縮メモリで吸収している点も効いています。バッチ 56 分の間、ブラウザや他アプリの体感ラグはなく、普段使いのマシン状態を維持できました。

今回の考察

結果的に、現行の pareido.jp で利用しているツールそのまま（RealVisXL + Pillow でタイトル合成）では、 ERNIE の日本語描画力を活かせない構造であることがわかりました。背景は写実、文字は Pillow で後合成、という分業になっているため。

ERNIE を素直に使えるのは: Pillow オーバーレイを廃して背景＋文字を 1 枚で作るケース、マンガ・ポスター風コンテンツを作るケース、複雑な構図・文字統合が要るケース
速度ペナルティ: RealVisXL 比で 3 倍、RTX 4070 Turbo 比で 10〜20 倍。夜間バッチで寝てる間に作れる程度
単純にバックエンドだけ差し替える実装では本領が出ない。プロンプト生成器とバックエンドはペアで設計すべき

ただし、ERNIEの本来の力を引き出せば、サムネイルはうってつけの用途といえます。ただし、文字の配置や装飾などすべてをプロンプトでコントロールするのは困難です。正確なレイアウトやコントロールを求める場合は、従来のようにPillowを組み合わせた用法が有効です。

まとめ

画質面: ERNIE Turbo は日本語テキスト描画が明確に強い。写実・抽象・80s ポスターで綺麗に出る。マンガ調は ChatGPT 系に似た「AI 絵」テンプレに寄る
速度面: 現行 RealVisXL V5.0 より Mac M5 上で 3 倍遅い。RTX 4070 との比較では 10〜20 倍遅い
compare の結果は ERNIE に不利。プロンプト生成が RealVisXL 最適化されていて、日本語文字列がプロンプトに入らないため
置換価値の判断: 現行「背景＋Pillow 文字合成」なら RealVisXL で十分、ERNIE は文字統合型のコンテンツ専用として使い分けるのが現実的
バックエンド切替だけでなく専用のプロンプト設計とセットでないと機能しない — この記事の最大の収穫