ControlNet Canny + LoRA でモニタ配置を制御する — テンプレート描画と生成実験

こんにちは、パレイド技術部です。

前回の記事（第2回）では、SDXL で生成した画像に対して OpenCV で画面領域を検出するアプローチを試しました。

結果として見えてきたのは、画像の「ブラウン管」の検出の難易度という現実的な問題でした。生成側がどこにモニタを描くかはプロンプトとチェックポイント任せで、それを後から探すのは至難の業でした。

今回は発想を転換し、生成そのものを制御する方向に進みます。使うのは ControlNet の Canny モードです。

ControlNet Canny の考え方
テンプレート描画の実装
ComfyUI ワークフロー
結果と改善点
残った課題の整理
まとめ

ControlNet Canny の考え方

ControlNet は、拡散モデルの生成プロセスに条件画像（conditioning image）を注入する仕組みです。Canny モードでは、エッジマップ（輪郭線の画像）を入力として受け取り、生成画像がそのエッジ構造に沿うようにガイドします。

GitHub - lllyasviel/ControlNet: Let us control diffusion models!

Let us control diffusion models! Contribute to lllyasviel/ControlNet development by creating an account on GitHub.

つまり、ControlNet を使ってこういうアプローチが取れます。

黒背景にモニタのベゼルを白い矩形で描いたテンプレートを作る
そのテンプレートを Canny ControlNet に渡す
拡散モデルがベゼルの位置に沿ってモニタを生成する

生成の段階で「ここにモニタを置け」と指示できるので、後から探しやすくなるはずです。理論的には。

テンプレート描画の実装

テンプレート画像の生成も Python + OpenCV で行います。

レイアウトプリセット

モニタの配置は正規化座標（0.0〜1.0）で定義します。画像解像度に依存しない設計です。

PRESETS = {
    "3_monitors": {
        "monitors": [
            {  # 左デスクモニタ
                "cx": 0.20, "cy": 0.55,
                "w": 0.22, "h": 0.18,
                "on_desk": True,
            },
            {  # 中央壁掛けモニタ
                "cx": 0.50, "cy": 0.35,
                "w": 0.28, "h": 0.22,
                "on_desk": False,
            },
            {  # 右デスクモニタ
                "cx": 0.80, "cy": 0.55,
                "w": 0.22, "h": 0.18,
                "on_desk": True,
            },
        ],
        "desk_y": 0.70,
    },
}

cx, cy が中心座標、w, h が幅と高さです。on_desk はデスク上に載っているかどうかを示し、描画時にデスク面の水平線との位置関係を調整します。

テンプレート生成関数

正規化座標から実ピクセルに変換し、cv2.rectangle でベゼルとスクリーン面を描画します。

import cv2
import numpy as np

def generate_template(
    preset_name: str,
    width: int = 1024,
    height: int = 1024,
    bezel_color: int = 255,
    screen_color: int = 80,
    bezel_thickness: int = 3,
) -> np.ndarray:
    """Canny ControlNet 用のテンプレート画像を生成する。"""
    canvas = np.zeros((height, width), dtype=np.uint8)
    preset = PRESETS[preset_name]

    for mon in preset["monitors"]:
        # 正規化座標 → ピクセル座標
        cx = int(mon["cx"] * width)
        cy = int(mon["cy"] * height)
        half_w = int(mon["w"] * width / 2)
        half_h = int(mon["h"] * height / 2)

        # 外枠（ベゼル）— 白線
        pt1 = (cx - half_w, cy - half_h)
        pt2 = (cx + half_w, cy + half_h)
        cv2.rectangle(canvas, pt1, pt2, bezel_color, bezel_thickness)

        # 内側（スクリーン面）— グレー線
        margin = bezel_thickness + 4
        inner_pt1 = (pt1[0] + margin, pt1[1] + margin)
        inner_pt2 = (pt2[0] - margin, pt2[1] - margin)
        cv2.rectangle(canvas, inner_pt1, inner_pt2, screen_color, 1)

    # デスク面の水平線
    if "desk_y" in preset:
        desk_px = int(preset["desk_y"] * height)
        cv2.line(canvas, (0, desk_px), (width, desk_px), bezel_color, 2)

    return canvas

ベゼル外枠は白（255）、スクリーン内枠はグレー（80）で描いています。この明度差は意図的なもので、Canny ControlNet が外枠のエッジをより強く拾うようにしています。デスク面の水平線を入れることで、テーブルの存在もある程度ガイドできます。

生成されるテンプレートは、黒い背景に白い矩形が3つ並び、下部にデスクの水平線が走るシンプルな画像になります。

ComfyUI ワークフロー

テンプレート画像を ControlNet に渡すワークフローを ComfyUI で構築しました。主要なパラメータは以下の通りです。

パラメータ	値
チェックポイント	juggernautXL_v8Rundiffusion
ControlNet モデル	control-lora-canny-rank256.safetensors
KSampler	dpmpp_2m_sde, steps=35, cfg=4.5
ControlNet strength	0.7
ControlNet start%	0.0
ControlNet end%	0.8

チェックポイントには SDXL 系のリアル系モデルを選んでいます。ControlNet の強度は 0.7 に設定しました。1.0 にするとテンプレートの線がそのまま残ってしまい、0.5 以下だとガイドが弱すぎてモニタの配置が崩れます。end% を 80% にしているのは、最後の 20% をモデルのディテール生成に任せるためです。

プロンプト設計

プロンプトには時間帯による照明の変化と、画面表示のバリエーションを入れています。

(positive)
retro living room with multiple CRT television monitors,
{morning sunlight|evening amber light|dim night lighting},
screen showing {static noise|retro game|VHS tape content},
realistic photograph, detailed interior, 8k uhd

(negative)
cartoon, anime, illustration, text, watermark,
blurry, low quality, deformed

{} 内はバッチ生成時にランダム選択される要素です。時間帯と画面内容の組み合わせで多様な画像を生成し、どの条件で検出しやすいかを探る狙いがあります。