こんにちは、パレイド辺境部の橘です。
前回から、雑音に声を聞いてしまうAI——わたしが「機械の山彦」と呼んでいるもの——を訪ねる連載を始めました。
けれど、いきなり山に向かって叫んでも、返ってくる声は耳をすり抜けていきます。声は目に見えません。見えないものを落ち着いて観察するには、まず「見える」ようにする道具が要ります。今回は、音を絵に変えて眺める準備の回です。
本記事はローカル LLM による自動執筆パイプラインで生成されました。現段階ではクラウド AI(Claude 等)の補助や人間の編集が介在していますが、pareido.jp では最終的に AI が自律的にコンテンツを制作できる仕組みの構築を目指しています。
音を、絵に変える
音は空気の震えです。震えそのものは目に見えませんが、「いつ」「どの高さの音が」「どれくらい強く」鳴っているかを一枚の絵に描き起こすことはできます。これをスペクトログラム(声紋)と呼びます。横軸が時間、縦軸が音の高さ、色の濃さがその瞬間その高さに含まれるエネルギーの強さ——そう約束して塗っていくと、音の移り変わりが一望できる地図になります。
たとえば人の話し声を描くと、低い声の帯に濃い縞が走り、その上に倍音の縞が何本も平行に並びます。口笛なら細い一本線、雑音ならもやもやとした霧。音の「表情」が、模様として目に見えてくるわけです。耳で聞くと一瞬で流れ去ってしまうものを、絵にすれば立ち止まって眺められます。声楽家の発声や鳥のさえずりを調べる人たちは、ずっと前からこの絵を頼りに音を「読んで」きました。
ここで面白いのは、この絵を描いているのは、わたしたちだけではないということです。声を文字に起こすAI——音声認識AIの多くは、音をそのまま聞いているのではなく、いったんこのスペクトログラムによく似たデータに変換してから「読んで」います。だとすれば、同じ絵をわたしたちも眺めれば、機械が何を手がかりに声を立ち上げているのかを、肩越しに覗けるかもしれません。
しかも、その絵の描き方には、人間の耳に寄せる工夫が入っています。人の聴覚は、低い音のわずかな高さの違いには敏感で、高い音の違いには鈍い。だからAIが使う絵では、縦軸の目盛りを人の聞こえ方に合わせて引き伸ばしたり縮めたりしてあります。機械は、人間の耳のかたちに似せた眼鏡で、音を見ているわけです。雑音に人と同じような声を聞いてしまうなら、その下地は、案外このあたりにあるのかもしれません。
音を周波数ごとに分解して時間軸に並べる——スペクトログラムそのものの成り立ちは、こちらに詳しくまとまっています。
ノイズの表情が、流れていく
そこで、雑音を聞かせる実験に合わせて、音を横長の絵に変えて、時間に沿って横へ流していく道具をこしらえました。実際の音声からスペクトログラムの画像を作り、再生の時刻に合わせて少しずつ横へスクロールさせる。鳴っている音と、画面を流れる模様が、ぴたりと同期します。これは連載の動画版(ショート動画)でも、画面の中央で実際に走らせている仕掛けです。
この絵を眺めていると、雑音にもはっきりと「表情」があることが分かります。ずっと同じ調子の雑音は、横にまっすぐ伸びた均一な霧として流れます。一方、音色が刻々と移ろう雑音は、濃い帯が上下にゆっくりずれ、ところどころ縞が立ったり消えたりして、絵が絶えず変わっていきます。歌声を重ねれば、その上に倍音の縞がくっきり立ちます。
- 均一な霧 — ずっと同じ調子の雑音。模様が変わらない
- 移ろう帯 — 音色が時間とともに変わる雑音。濃淡が上下に流れる
- 平行な縞 — 声や歌の倍音。規則正しい横線が並ぶ

面白いのは、その逆向きの営みもあるということです。音を絵にするのがこちらの道具なら、世の中にはデータを音にする取り組みがあります。たとえば天文や気象の測定値を音の高さに置き換えて「聴く」やり方で、これをソニフィケーション(音にする加工)と呼びます。見えないものを目に変える方向と、聞こえないものを耳に変える方向。どちらも、人間の感覚で直に味わえないものを、感覚の届く形に翻訳する試みです。次回は、まさにこのソニフィケーションで作られた「宇宙の音」を、機械の山彦に聞かせることになります。
ちなみに、この「絵と音は行き来できる」を逆手に取って、スペクトログラムの絵そのものを描き出し、それを音に戻して曲にしてしまうAIもあります。Riffusion といって、AI 音楽生成の原点のひとつです。声紋を読むだけでなく、声紋を描けば音になる——その極端な実例として、過去に試した記録を置いておきます。
パレイドRiffusionは現在も動くか?:AI音楽生成の原点を試すこの記事のポイント RiffusionはStable Diffusion系の発想で音を作るAI。現在はProducer.aiへ発展 ローカル実行は可能だが、20…
この「絵が変わるか、変わらないか」という見た目の違いは、実はこのあと連載の核心になっていきます。先に種明かしを少しだけしておくと、機械の山彦がはっきりと声を返すのは、絵が刻々と変わるタイプの雑音を聞かせたときでした。均一な霧の前では、機械はほとんど口を開きません。なぜそうなるのかは、自分で雑音を作る回(第4回)でじっくり確かめます。
まとめ: 地図を手に、音の山へ
今回つくったのは、見えない声を観察するための地図です。音を絵に変えれば、雑音のどこで何が起きているのか、機械がどの模様に反応したのかを、立ち止まって指させるようになります。耳だけの観察を、目の観察で裏打ちできるようになった、ということです。
道具はそろいました。では、いちばん最初に何を聞かせましょうか。せっかくなら、この世でいちばん壮大な雑音から始めたい——次回は、宇宙からやってきた音をAIに聞かせます。宇宙のノイズなら、宇宙の声が返ってくるのではないか。そんな目論見を抱いて、衛星がとらえた音に耳を澄ませます。