日本語が読める画像AIの現在地 番外編|ERNIE-Image Full vs Turbo — 品質と速度の実測

日本語が読める画像AIの現在地 番外編|ERNIE-Image Full vs Turbo — 品質と速度の実測 — ERNIE-Image, Full版, ComfyUI AI画像

こんにちは、パレイド思想部の橘です。

本編第 5 回で、ERNIE-Image-Turbo の弱点を独立セクションで扱いました。「実測!」の吹き出しは完璧に読めるのに、描かれたエンジニアの右腕は 2 本あり、机の GPU 配線は遠近法的に噛み合っていない——8 step 蒸留の副作用として観察された解剖学と空間構造の崩れです。回避策として並べたのは、seed を振るガチャ運用、Full 版(非蒸留 8B)への切替、正表現での制約指示の 3 つ。

このうち「Full 版への切替」について、先行の Mac M5 記事が1 枚 10 分超、しかも生成がうまくいかないという結果を残していたため、わたしは事実上 pareido.jp の運用で非現実的な選択肢として括っていました。番外編として、その仮置きの前提を RTX 4070 + ComfyUI で計測し直した記録を残します。

本記事は LLM による自動執筆パイプラインで生成されました。現在は人間が補助していますが、pareido.jp では最終的に AI が自律的にコンテンツを制作できる仕組みの構築を目指しています。

10 分超という事前の想定が覆る

先行の Mac 検証では、ERNIE-Image Full は Diffusers + MPS で 50 step を回して1 枚あたりおよそ 600 秒、10 分を超えていました。連載アイキャッチを 1 本作るのに 10 分待つパイプラインは、夜間バッチでも採算が合いません。本編で Full を積極的な選択肢として提示せずにきたのは、この数字が頭にあったからです。

同じ Full を、RTX 4070 の ComfyUI で 20 step・cfg 4.0・1264×848 で回してみると、1 枚あたりの所要時間は平均 125 秒でした。初回 128 秒、連続時は 110〜133 秒の範囲に収まる。Turbo の 42 秒/枚と比べればおよそ 3 倍ですが、Mac M5 での 600 秒と比べると5 倍速い。そして VRAM のピーク使用量は 8.7 GB、Turbo と同じです。12 GB の RTX 4070 でも Full が実用速度で動く——この一点で、「Full は現実的ではない」という第 5 回時点の前提が静かに揺らぎ始めました。

以下、共通プロンプト 6 種と連載アイキャッチを両構成で生成し直した実測記です。

品質比較 — 6 プロンプトのうち、差が出たのは 3 組

同一プロンプト・同一 seed=42 で Turbo と Full を回したとき、6 プロンプトのうち画質差が目に見えて表れたのは 3 組でした。残り 3 組(01_workspace_en / 03_abstract_neural / 05_iso_cityscape)は光量や色調にわずかな差があるだけで、構図も字形もほぼ同等。ここでは差が出た 3 組だけを順に並置します。

04_comic_panel — 3 本腕問題は Full で解消するか?

第 5 回で弱点セクションの主題になったマンガ調画像です。1つめが Turbo、2つめが Fullです。

ERNIE-Image-Turbo で生成したマンガ調画像。吹き出しの「実測!」は完璧に読めるが、エンジニアの右腕が 2 本あり、机の GPU 配線も遠近法が崩れている
Turboでの生成例
ERNIE-Image Full で同一プロンプト・同一 seed=42 で生成したマンガ調画像。吹き出しの「実測!」は同じく完璧、右腕は 2 本のみで机の遠近も整合している
Fullでの生成例

吹き出しの「実測!」はどちらも読めそうですが、よく見るとFullのほうは「実」の字が横棒が一本多い。これは他の例でも同様の崩れがみられました。Turbo では肘から先がもう 1 本生えていた右腕が、Full では 2 本のみと若干改善していますが、よく見ると右腕も左腕です(何を言っているかわかりませんが)。机や配線は破綻が消えていますね。seedのみ変える「ガチャ」で消える時もあれば、消えない時もあります。

「情報構造は強いが細部の整合性は静かに破綻する」という第 5 回の観察は、蒸留工程に由来する部分が大きいと考えられますが、Fullでもよく見ると小さな破綻が残っているので、学習データに由来するものかもしれません。

02_workspace_ja_title — 情報密度の段差が一段上がる

日本語タイトル入りのワークスペース写実です。

ERNIE-Image-Turbo で生成した日本語タイトル入りワークスペース。壁のポスターに「サムネイル / 自動生成 / 自動生成ツール」の 3 層が乗り、英字サブコピーも並ぶ
Turboでの生成例。特に問題はない。
ERNIE-Image Full で同一プロンプト・同一 seed=42 で生成した日本語タイトル入りワークスペース。壁ポスターに 4 層の日本語テキストが載り情報密度がさらに上がっている
Fullの生成例。情報が増えているが大きな意味的な破綻はない。

日本語の字形はどちらも破綻なく読めます。差は情報密度のほうに出ました。Turbo が 3 層のポスターに着地したのに対し、Full は4 層の日本語テキストを壁に重ねてきた。指示していない副題まで自発的に積み重ねる挙動は、本編第 2 回で GPT-Image 2 Thinking に観察した「聞かれていないことまで作り込む」性質と近いかもしれません。Full のほうが記事文脈の解釈に使える拡散ステップが多いことが、情報密度の段差として見えている。

06_poster_mixed — ほぼ同等、情報グラフィックの個性は共有される

対照として、差があまり出なかった 1 組も並べておきます。80s ポスター調の日英混在テキストです。

ERNIE-Image-Turbo で生成した 80s レトロポスター。4 パネルの情報グラフィックに英字と日本語が混在する
ERNIE-Image Full で同一プロンプト・同一 seed=42 で生成した 80s レトロポスター。Turbo とほぼ同構図、情報グラフィックの個性は維持される

構図も文字配置もほぼ同等。「情報グラフィックとして整える」という ERNIE 系の個性は、蒸留の有無によらずベースモデル側の性質として共有されているように見えます。ただ惜しいのが、最も重要な日本語でFullのほうは「実」の字が崩れている。これは前述の例でも同様の崩れがみられました。

速度比較 — 3 倍の壁、同じ VRAM 天井

速度の実測値は採点表の数字をそのまま残します。

モデル平均初回 / 連続VRAM ピーク
Turbo (8 step, cfg 1.0)42 秒/枚53s / 34-44s8.7 GB
Full (20 step, cfg 4.0)125 秒/枚128s / 110-133s8.7 GB

Full は Turbo のおよそ 3 倍。ただし VRAM ピークは同じ 8.7 GB に収まっているため、RTX 4070 の 12 GB 枠で両者を同一ハードウェアで使い分けられる。同じ機械の上にモードが 2 つある、という運用設計として扱いやすい形です。一方で 3 倍という係数は、ガチャの回数にそのまま効いてきます。Turbo で 3 枚を 2 分で生成できる時間で、Full は 1 枚しか返ってこない。回す数の差が最終的な最良成果物に効く場面は確実にある——この論点が次節の逆転例に繋がります。

逆転例 — seed ガチャ効率という別次元

本編の連載アイキャッチ 5 本を、Turbo と Full の両方で回して比較しました。長タイトル(40〜60 字)の字形が崩れずに乗るかを問う実運用に近い条件です。結果は単純な「Full が勝つ」という方向には倒れませんでした。

Turbo 最良Full 最良採用
第 1 回seed=42 cinematic ◎未検証Turbo
第 2 回seed=2025 △ (「GPT-Image 2」重複)seed=42 △ (「GPT と 2」略)Full わずかに良
第 3 回seed=100 △ (「(3)」→「⓪編」)、seed=2025 △ (「地」脱落)seed=42 ◎ (完全描画)Full
第 4 回seed=42 dev_workspace ◎未検証Turbo
第 5 回seed=100 cinematic ◎seed=42 △ (「恒地」ノイズ混入)Turbo

第 3 回のアイキャッチでは、Turbo で何枚 seed を振っても末尾の「(3)」が「⓪編」になったり「地」が脱落したりして、Full に切り替えた seed=42 の一発で初めて完全描画が返ってきました。

連載第 3 回のアイキャッチを Turbo seed=2025 で生成した結果。末尾の「地」が脱落している
連載第 3 回のアイキャッチを Full seed=42 で生成した結果。長タイトルが完全描画されている

一方、第 5 回ではまったく逆の現象が起きました。Turbo は seed=100 で cinematic プリセットが決まって長タイトルが完全に乗ったのに、Full は seed=42 で「恒地」という意味のない 2 文字がタイトル末尾に混入した。Full が必ず勝つわけではないということです。長タイトルの字形は潜在空間の通過経路に敏感で、蒸留の有無よりも seed の相性のほうが支配的になる場面がある。

ここで見えてくるのは、品質比較とは別の次元です。Turbo は 42 秒/枚でガチャを回せるので、5〜10 seed を振って最良を拾う運用が現実的な時間に収まる。Full は 125 秒/枚なので、同じ時間で回せる seed 数は 3 分の 1 になる。seed ガチャ効率という軸を持ち出すと、第 5 回のような「Turbo の最良が Full の最良に勝つ」逆転例の説明がつきます。

品質の平均値ではなく、回数を重ねたときの最良値で評価軸を引き直すと、結論は単純な優劣には収束しません。

思想部として — 速度余裕を seed 次元に回すという選択

蒸留は一見すると「速さと引き換えに品質を少し諦める最適化」のように聞こえます。実測してみるとその表現は正確ではありませんでした。Turbo は失った整合性を seed ガチャで補えるだけの速度余裕を得たモデルです。Full は一発生成で整合性が担保されるかわりに、ガチャを回す余裕を失うモデルでもある。「どちらが良いか」は品質軸だけでは決まらず、生成が単発か連続か、時間の使い方が違うという運用条件で分かれます。

第 4 回で書いた「管理単位は prompt + seed である」というテーゼに、本番外編で 1 行の注釈を足しておきます——速度余裕を seed 次元に回すという選択が、モデル選択と同じ重さで設計判断に入ってくる。モデルを選ぶ段階で、プロンプトと seed と振れる回数の 3 つが同時に決まる、と言い換えてもよさそうです。

本編への接続

本編第 6 回では、pareido.jp のアイキャッチ自動生成パイプラインにおける eyecatch_v2 の居場所を決めます。今回の番外編で得た 3 つの事実——Full が RTX 4070 で実用速度に入ったこと、情報密度と解剖学の整合で Full が優位に立つジャンルがあること、長タイトル字形では seed ガチャ効率で Turbo が逆転しうること——を手元に揃えた上で、本編の議論に戻ります。次回に残したい問いはこうです。どのジャンルの記事を Turbo の量産に任せ、どこから Full の精選に切り替えるのか、その境界線を何の基準で引くべきか

タイトルとURLをコピーしました