前回の記事では、AIを活用したサムネイル自動生成を試行しました。
ChatGPTやGeminiでは日本語の文字崩れや構造理解の難しさが課題となり、自然言語ベースの指示で微調整が難しい現状があります。
AI技術の進化とともに解決が期待されていますが、現状を確認しておきましょう。
ChatGPTやGeminiの出力例
対話ベースで生成できるツールは様々ありますが、最もメジャーOpenAIのChatGPTとGoogleのGeminiで試してみました。
ChatGPTの生成例
ChatGPTに下記のような指示を出して画像を生成してもらいました。
この記事に適したサムネイルを生成して。
・サイズは 1200×630pxの標準的なアイキャッチのサイズ
・記事の要約から適した背景画像を作成
・文字を読みやすくするため、中央に 黒の半透明の正方形 を配置して明度を調整
・フォントは Noto Sans Serif、文字サイズは 56pxで、適宜改行を入れてタイトルを配置する。
https://pareido.jp/uncategorized/ai-thumbnail-automatic-generation/
生成された画像はなかなかのクォリティなのですが、「自動」の「動」が崩れています。
「ブログ」もよく見ると怪しい。以前に比べると格段に進歩しており、非常に惜しいのですが、このままは使いにくい状態です。
ここからの微調整を指示しても、現実的には修正が不可能な事実が状況を難しくします。動画に一瞬登場、等の使い方に限られるでしょう。

注: Nano banana2と条件を揃えるため、2026年3月に画像を差し替えています。
Google Gemini (Nano Banana2)の例
上記のChatGPTと全く同じプロンプトを与えて、Geminiに生成してもらいました。
まず、”Pro”を指定して画像を生成した、Nano Banana2利用の例です。(2026年3月に追記)

ほぼ完璧です、技術に進歩の凄さを感じます。また、その後に自然言語の指定での再調整が可能になっているのも特筆に値します。ただし無料プランだと、1枚生成・1回調整で上限に達しました。課金は事実上、必須と考えられます
ちなみに「高速モード」の緩やかな制限で利用できる、一世代前のNano Bananaだとこんな感じです。残念ながら日本語部分が壊滅的です。

ちなみに以前はChatGPTもこのレベルでしたが、Nano Banana2登場に合わせたためかかなり近づいてはいます。
(参考) 現在の技術と今後の展望
2026年2月に公開された Qwen3.5 は、視覚と言語を統合したネイティブなマルチモーダルモデルとして発表されました。推論能力やエージェント機能の強化に加え、長いコンテキストを扱える設計が特徴とされています。
まだ試せていませんが、構造理解能力の向上により、サムネイルの構成設計やレイアウトの検討など、制作工程の補助として活用することが現実的になってきました。
今後は、記事内容から複数のデザイン案を自動生成したり、レイアウトを保持したまま再編集できるようなワークフローの実現が期待されています。
技術的背景と課題
ChatGPTやGeminiでは日本語の文字崩れや構造理解の難しさが課題となりました。
特に自然言語ベースの指示では、微調整が困難な状況が続いていましたが、この問題は、AIモデルの言語処理能力や構造理解力の向上で急速に改善しています。
Nano banana2では、記事内容を入力するだけで最適なサムネイルが生成される実用レベルに進化しています。これは、AIが文章の構造を深く理解し、視覚的な要素を自動的に組み立てる能力が向上した結果です。Qwen3.5も同様に、構造化理解技術が進化しており、サムネイルの構成設計に活用可能と考えられます。
まとめ
AI技術の進化により、サムネイル作成プロセスはますます効率化されていきます。現状ではnano banana2やQwen3.5が実用性を示しつつありますが、構成情報の保存や微調整の課題は今後も重要なテーマです。今後は、より高度なカスタマイズ機能や複数のデザインオプションが導入される可能性があります。



