ChatGPT・Geminiでのサムネイル自動生成の進化

管理者

編集者

◉ 2026.01.05 · 6min

前回の記事では、AIを活用したサムネイル自動生成を試行しました。

ChatGPTやGeminiでは日本語の文字崩れや構造理解の難しさが課題となり、自然言語ベースの指示で微調整が難しい現状があります。

AI技術の進化とともに解決が期待されていますが、現状を確認しておきましょう。

パレイド

AIでサムネイル自動生成の実現方法

技術検証をしていると、「あとで記事にまとめよう」と思いながら、ついそのまま次の実験に進んでしまいます。AIを触っていると、作業の区切りが見え…

ChatGPTやGeminiの出力例

対話ベースで生成できるツールは様々ありますが、最もメジャーOpenAIのChatGPTとGoogleのGeminiで試してみました。

ChatGPTの生成例

ChatGPTに下記のような指示を出して画像を生成してもらいました。

この記事に適したサムネイルを生成して。
・サイズは 1200×630pxの標準的なアイキャッチのサイズ
・記事の要約から適した背景画像を作成
・文字を読みやすくするため、中央に 黒の半透明の正方形 を配置して明度を調整
・フォントは Noto Sans Serif、文字サイズは 56pxで、適宜改行を入れてタイトルを配置する。
https://pareido.jp/uncategorized/ai-thumbnail-automatic-generation/

生成された画像はなかなかのクォリティなのですが、「自動」の「動」が崩れています。
「ブログ」もよく見ると怪しい。以前に比べると格段に進歩しており、非常に惜しいのですが、このままは使いにくい状態です。

ここからの微調整を指示しても、現実的には修正が不可能な事実が状況を難しくします。動画に一瞬登場、等の使い方に限られるでしょう。

ChatGPTの生成例、漢字やカタカナがよく見ると一部崩れている。

注:　Nano banana2と条件を揃えるため、2026年3月に画像を差し替えています。

Google Gemini (Nano Banana2)の例

上記のChatGPTと全く同じプロンプトを与えて、Geminiに生成してもらいました。

まず、”Pro”を指定して画像を生成した、Nano Banana2利用の例です。(2026年3月に追記)

Gemini Pro(Nano Banana2)の生成例。問題は特に見当たらない

ほぼ完璧です、技術に進歩の凄さを感じます。また、その後に自然言語の指定での再調整が可能になっているのも特筆に値します。~~ただし無料プランだと、1枚生成・1回調整で上限に達しました。課金は事実上、必須と考えられます。~~ (2026年3月追記: 無料プランの生成上限は緩和されており、複数枚の生成・調整が可能になっています)

ちなみに「高速モード」の緩やかな制限で利用できる、一世代前のNano Bananaだとこんな感じです。残念ながら日本語部分が壊滅的です。

Gemini 高速モード(Nano Banana)の生成例。画像や構成は問題ないが、テキストは日本語なのかもわからない。

ちなみに以前はChatGPTもこのレベルでしたが、Nano Banana2登場に合わせたためかかなり近づいてはいます。

(参考) 現在の技術と今後の展望

2026年2月に公開された Qwen3.5 は、視覚と言語を統合したネイティブなマルチモーダルモデルとして発表されました。推論能力やエージェント機能の強化に加え、長いコンテキストを扱える設計が特徴とされています。

まだ試せていませんが、構造理解能力の向上により、サムネイルの構成設計やレイアウトの検討など、制作工程の補助として活用することが現実的になってきました。

今後は、記事内容から複数のデザイン案を自動生成したり、レイアウトを保持したまま再編集できるようなワークフローの実現が期待されています。

qwen.ai

Qwen Studio

Qwen Studio offers comprehensive functionality spanning chatbot, image and video understanding, image generation, document processing, web …

qwen.ai

技術的背景と課題

ChatGPTやGeminiでは日本語の文字崩れや構造理解の難しさが課題となりました。

特に自然言語ベースの指示では、微調整が困難な状況が続いていましたが、この問題は、AIモデルの言語処理能力や構造理解力の向上で急速に改善しています。

Nano banana2では、記事内容を入力するだけで最適なサムネイルが生成される実用レベルに進化しています。これは、AIが文章の構造を深く理解し、視覚的な要素を自動的に組み立てる能力が向上した結果です。Qwen3.5も同様に、構造化理解技術が進化しており、サムネイルの構成設計に活用可能と考えられます。

まとめ

AI技術の進化により、サムネイル作成プロセスはますます効率化されていきます。現状ではnano banana2やQwen3.5が実用性を示しつつありますが、構成情報の保存や微調整の課題は今後も重要なテーマです。今後は、より高度なカスタマイズ機能や複数のデザインオプションが導入される可能性があります。

パレイド

WordPressへの自動差し込み：サムネイルの最適化方法

前回の記事では、AIを使ったアイキャッチ画像の自動生成を試しました。記事内容からプロンプトを生成し、Stable Diffusionで画像を作成するところま…

パレイド

生成AIショート動画自動生成チャレンジ: Stability Matrix＋Pythonで静止画から動画クリップを作る

前回までに、Stable Diffusion WebUI Forgeで静止画を生成し、Wan2.2を用いてI2Vによる短い動画クリップを作成するところまでを確認…

パレイド

生成AIショート動画自動生成チャレンジ: ComfyUIとWan2.2テンプレート導入とAPI利用の準備

前回は、生成AIを使ってショート動画を自動生成するための全体方針を整理しました。今回はその準備として、動画パーツを生成するための WAN2.2 と Co…

[NEXT] FRONT · 其の4658

【日本人面地形 05】山形 ── 出羽三山、修験の峰々

[NEXT] TECH · 其の4828

LLMのためのFamily BASICリファレンス(15)｜実機観察リファレンスをLoRAに焼く（学習編）