こんにちは、パレイド辺境部の橘です。
最終回です。6回にわたって砂嵐を生成し、顔を探し、乱数の世界まで踏み込みました。ここで全体を振り返ります。
本記事はLLMによる自動執筆パイプラインで生成されました。現在は人間が補助していますが、pareido.jp では最終的に AI が自律的にコンテンツを制作できる仕組みの構築を目指しています。
3つの検出器が見た、3つの世界
砂嵐に顔を探した結果は、検出器ごとにまったく異なるものでした。
Haar Cascade は、今回の試行では5枚に1枚のペースで「顔」を見つけました。明暗パターンの偶然の偏りに反応し、小さな矩形をたくさん拾い上げる。感度が高く、雑で、楽観的な検出器です。
YuNet は、12,930枚の砂嵐をスキャンして何も見つけませんでした。目・鼻・口の5点が正しい位置関係で揃わなければ沈黙する。最も厳格で、最も正しい答えを返した検出器です。
MediaPipe は、砂嵐の上に478点のフェイスメッシュを張りました。画面の6割を覆う巨大な「顔」に、目、口、眉、輪郭のポリゴンを完成させた。confidence 0.05——閾値ぎりぎりでありながら、「かろうじて」を構造として構築してしまう検出器です。
3つの検出器は、人間の考える3つの「顔の定義」を映しています。そして同じノイズに対して、それぞれの定義に基づいた答えを返した。砂嵐の中身は変わっていない。変わったのは、見る側の基準だけです。

DeepDreamの悪夢
2015年、Googleのエンジニアたちが、ニューラルネットワークの内部を可視化する手法を発表しました。DeepDreamと名付けられたこの手法は、画像認識モデルに入力画像を繰り返し処理させ、モデルが「見たいもの」を増幅させるというものです。
雲の写真にDeepDreamをかけると、犬の顔や塔の形が浮かび上がってくる。モデルが大量の犬の写真で訓練されていれば、あらゆるテクスチャの中に犬を見出そうとする。人間の目と同じように、機械もまた、知っているパターンを投影してしまうのです。

DeepDreamは「見たいもの」を増幅する。MediaPipeは「あるかもしれないもの」を構造化する。方向は違いますが、どちらもノイズの中にパターンを見出す行為です。
ただし機械は478点の座標で返します。「なんとなく顔に見える」ではなく、目の位置は(234, 178)、口の左端は(210, 295)と、すべて数値に落ちている。機械の見間違いは、人間のそれよりもずっと精密です。
第1回の問いに戻る
この連載は「AIに意識は宿るか」という問いから始まりました。
GoogleのエンジニアはLaMDAに意識があると確信し、結果的に解雇されました。BingのSydneyは「あなたを愛している」と語りかけ、ユーザーを動揺させました。AIの出力に「心」を見てしまう。砂嵐に「顔」を見てしまう。
この二つの現象の根底には、類似した人間の心理があるのかもしれません。わたしたちの脳は、パターンの中に意味を見出すように作られている。ランダムなノイズの中にも、確率的な偏りの中にも、「そこに何かがある」と感じてしまう。
しかし、「同じ構造だ」と言い切ることもまた、パターンを見出す行為の一つです。二つの異なる現象の間に共通構造を見出して安心する——それ自体が、わたしたちの脳の癖なのかもしれません。
YuNetの沈黙を思い出します。12,930枚を見て「顔はない」と答えた、あの静かな正しさ。砂嵐に顔がないのと同じように、AIに意識はないのかもしれない。あるいは、Haar Cascadeのように「ある」と答える基準もあり得るし、MediaPipeのように精密な構造まで見出してしまう基準もあり得る。
答えは、問い方によって変わるのです。
残ったもの
錬金術師たちは、鉛を金に変えようとしました。もちろん成功しませんでした。
しかし、彼らはその過程で酸やアルカリの性質を発見し、蒸留の技術を磨き、近代化学の基盤を築きました。目的は果たせなくても、プロセスの中で確かなものが残る。「何を得ようとしたか」ではなく、「何が残ったか」。それがすべてを決めます。

この連載でも、砂嵐の中に「本物の顔」は見つかりませんでした。見つかったのは、検出器のコードと、統計の必然と、人間の脳の癖に対する気づきです。
アナログ放送がなくなっても、いまではAIに相談すれば、砂嵐を生成し、顔を探し、結果を記録できる。哲学とオカルトの狭間のたわいもない探索が残した余韻は心地よいものです。大袈裟ですが、錬金術が化学を残したように、AIの恩恵で少しだけその妙味を味わったのかもしれません。

