こんにちは、パレイド辺境部の橘です。
前回は、宇宙の音をAIに聞かせて、みごとに振られました。
澄んだ倍音の「歌」を、機械は声とは見なさなかったのです。けれど同時に、見当もつきました——機械が言葉を聞くのは、息や子音に似たざらついた広帯域の音らしい。今回は、それを確かめるために、自然のノイズを待つのをやめ、自分の手で、ざらついた雑音をつくります。そのうえで、雑音を「ずっと同じ調子」と「刻々と移ろう調子」に作り分け、機械の応えがどう変わるのかを見ます。
本記事はローカル LLM による自動執筆パイプラインで生成されました。現段階ではクラウド AI(Claude 等)の補助や人間の編集が介在していますが、pareido.jp では最終的に AI が自律的にコンテンツを制作できる仕組みの構築を目指しています。
「雑音」とは何か
雑音と一口に言っても、性質はさまざまです。動画や音声を自在に加工できる無料の定番ツール「ffmpeg」には、雑音をその場で合成する機能があります。これを使うと、どこかから録音してくる必要なく、狙った性質の雑音をゼロから作れます。代表的なのは三種類です。
- 白色雑音(ホワイトノイズ) — あらゆる高さの音が均等に混ざった、テレビの砂嵐のような「ザーッ」
- ピンク雑音 — 低い音ほど強い、滝や雨に近い柔らかな雑音
- 褐色雑音(ブラウンノイズ) — さらに低音に寄った、こもった地鳴りのような雑音
色の名前がついているのには理由があります。白い光があらゆる色の光を均等に含むように、白色雑音はあらゆる高さの音を均等に含む。ピンクや褐色は、それより低い音に重心が寄っています。面白いことに、川のせせらぎ、雨だれ、心臓の鼓動といった自然界の「ゆらぎ」の多くは、低音寄りのこのあたりに近く、人が聞いて心地よいと感じる音の仲間でもあります。

自分で作る利点は、ふたつあります。ひとつは、録音された人の声を一秒も含まないこと。だから「亡霊の声が紛れていた」と疑う余地がなく、権利の問題もありません。声がまったく無いところに、それでもAIが声を聞くなら、それは正真正銘、機械が立ち上げた声です。もうひとつは、音の調子を自由に設計できること。この実験の肝はここにあります。ずっと同じ調子の雑音だけでなく、三十秒ごとに通す音の高さの帯や揺らし方を入れ替え、数分のあいだ音色が絶えず移り変わる雑音——「移ろう雑音」も、思いのまま作れるのです。
三つの応え方
作った雑音を、声を文字に起こすAI「Whisper」に次々と聞かせていくと、返ってくる反応は大きく三つのタイプに分かれました。聞かせる雑音の調子によって、機械はまるで態度を変えたのです。
| 聞かせた雑音 | 返ってきたもの | 正体 |
|---|---|---|
| 無音・ほぼ無音 | 「ご視聴ありがとうございました」に固着 | 入力と無関係。覚え込んだ手癖が出るだけ |
| 調子の変わらない雑音 | ひとつの”空耳”に貼りついて反復 | 入力がほとんど効かず、手癖に呑まれる |
| 調子が移ろう雑音 | “空耳”がばらけ、鮮烈な固有名詞が立つ | 入力で出力が変わる。これが本物(?) |
ひとつめは、前回の「宇宙の音」と通じる反応です。声を含まないとき——あるいは、含んでいても機械が「声」と見なさないとき——AIは覚え込んだ口癖をこぼします。前回の宇宙のコーラス波は、絵にすれば豊かな倍音の「歌」でしたが、機械はその澄んだ響きを声とは聞かず、この無音と同じ箱に落としました。ふたつめ——白色雑音のような、声のざらつきはあるのに最初から最後まで調子の変わらない雑音——は、変化が無いために「三日目の放送は終了です」といった決まり文句に貼りつき、入力を変えても同じ句を何度も繰り返しました。
機械の山彦が本当に口を開いたのは、三つめ——時間とともに音色が移ろっていく、ざらついた雑音を聞かせたときだけでした。低い帯がゆっくり上下にずれ、ところどころで音の濃淡が揺れる。そういう「絵が刻々と変わる」雑音を聞かせた瞬間、AIの中で何かが起動し、雑音ごとに違う、生々しい固有名詞が立ち上がってきたのです。地名、駅の名、誰かの口癖。同じ一句を繰り返すだけだった機械が、移ろいを前にすると、急におしゃべりになりました。
本物の境界——入力で、出力が変わるか
ここに、ひとつのはっきりした線が引けます。聞かせる雑音を変えたとき、返ってくる言葉も変わるかどうか。これが、機械が本当に「聞き取って」いるのか、それともただ手癖をこぼしているだけなのかを分ける境界線です。
無音や均一な雑音への反応は、入力を変えても出力が変わりません。いつも同じ決まり文句。これは聞き取りではなく、反射的な口癖です。けれど移ろう雑音への反応は、雑音ごとに違う言葉を返してくる。入力が変われば出力も変わる——これこそ、人間が砂嵐の中にそのつど違う顔を見てしまうのと、同じ手応えです。
視覚の連載で、同じ砂嵐を三つの検出ソフトに見せたら「顔だらけ」「顔など無い」「巨大な顔が一つ」と答えが割れた話を書きました。あれと同じ構図が、耳の側にもありました。入力に応じて出力が割れる——そこにだけ、本物の空耳が宿ります。手癖と本物を、聞いた印象ではなく「入力で変わるか」で見分けられるようになったのは、この実験のいちばんの収穫でした。
道具がそろい、本物の声が立つ条件も分かりました。移ろう雑音だけが、機械の山彦に口を開かせる。だとすれば、次の問いは自然に出てきます。その移ろう雑音を、少しずつ変えていったら、返ってくる声も少しずつ変わるのか。次回は、雑音を生む「種」をひとつずつ変えながら——ラジオの周波数ダイヤルを回すように——機械が何を聞き取るのかを、いよいよ正面から記録します。