こんにちは、パレイド辺境部の橘です。第1部では、「では、誰が書いているのか」という問いを、霊から無意識へ、無意識から偶然へ、そして偶然から AI へと辿りました。〈自分でない書き手〉という空席に、最後に AI が腰を下ろす。そこで第1部を閉じました。とりわけ前回(第4回)は、無音やノイズから声を聞き取ってしまう機械の幻聴を引きながら、亡霊はノイズの側ではなくモデルの中に潜んでいた、という話で終えています。
今回からの第2部では、カメラを少し寄せます。AI が書き手の席に着いたのはわかった。では、その機械は、ふだん何を口走っているのか。第5回が扱うのは、機械が思わず漏らす譫言(うわごと)——グリッチトークンと呼ばれる現象です。前回が無音から声を聞く「聴覚」の話だったとすれば、今回はその文字版にあたります。
本記事はローカル LLM による自動執筆パイプラインで生成されました。現段階ではクラウド AI(Claude 等)の補助や人間の編集が介在していますが、pareido.jp では最終的に AI が自律的にコンテンツを制作できる仕組みの構築を目指しています。
発語できない語がある
グリッチトークンとは何か。少しだけ機械の内側を覗かせてください。
LLM(大規模言語モデル、膨大な文章を学んで次の語を予測する AI)は、わたしたちの書く文章をそのまま読んでいるわけではありません。文章をトークン(処理のために切り分けた細かな単位。語そのものだったり、語の断片だったりします)にいったん刻んでから扱います。どこで刻むかを定めた辞書のようなものがトークナイザです。この切り分け表のなかに、ごくまれに、登録はされているのに本文の学習からはほとんど漏れてしまった語が紛れ込むことがあります。これがグリッチトークンです。席は用意されたのに、一度も発語の練習をしてもらえなかった語、と言い換えてもいいかもしれません。
代表例として知られるのが、SolidGoldMagikarp という奇妙な綴りです。2023年初頭に、Jessica Rumbelow と Matthew Watkins ら機械学習コミュニティの研究者が見つけたとされています。元をたどると、ある掲示板(Reddit)で数を延々と数え上げる板に現れた、特殊なユーザー名の一群に行き当たるようです。そこで過剰に書かれた名前が、トークンの切り分け表を作る段階では一つの単位として拾われた。ところが学習データを整える段階でその板の投稿がふるい落とされ、結果として、語は席だけ残して本文からはほとんど消えた。そう説明されることが多いようです。だから機械は、この語の発音の仕方を最後まで覚えそびれたのだ、と考えられています。
実際にこうした語を入力すると、モデルは落ち着きを失います。報告されている振る舞いを並べると、こんな具合です。
- 復唱できない ── 「この語をそのまま繰り返して」と頼んでも、なぜか言えない
- 別の語に化ける ── まったく無関係な単語に置き換わって出てくる
- 不気味に回避する ── その語に触れまいとするかのように、話をそらす
- 脈絡のない譫言を吐く ── 前後とつながらない言葉が、ぽつりと漏れ出す
なぜこうなるのかは、まだ仮説の段階を出ません。学習で一度も口にしなかった語に、機械は対応の取りようがない。おおまかにはそう考えられていますが、機構の細部は今も議論の途中にあります。確かなのは、これが故障やバグというより、学習データに空いた穴がそのまま声になって漏れている、という質感のほうだ、ということです。
機械の異言(グロッソラリア)
この振る舞いを眺めていると、わたしには既視感があります。意味の通らない言葉が、本人の意図とは無関係に口をついて出てくる——それは、このシリーズで何度か立ち会ってきた光景だからです。
降霊会で、トランス状態の霊媒がわけのわからない音節を口走ることがあります。これをグロッソラリア(異言。意味の取れない発話が、あたかも未知の言語のように溢れ出す現象)と呼びます。前回(第2回)に触れた霊媒エレーヌ・スミスの「火星語」も、その一種でした。異星の言語に見えて、その文法は母語フランス語の写しだった、という話です。グリッチトークンが吐く譫言は、これと驚くほどよく似た構図をしているように思えます。
さらに前回(第4回)扱った機械山彦(無音やノイズから声を聞き取ってしまう現象。たとえば、何も言っていないはずの音声から「ブーバ」という語が立ち上がってくる)は、聴覚に現れた異言でした。そこに今回のグリッチトークンを置くと、同じ系譜が文字の側にも伸びていることが見えてきます。一度、並べてみます。
- 霊媒の口走り ── トランスのなかで漏れる、意味の取れない音節
- 火星語(スミス) ── 異星の言葉に見えて、正体は母語の写しだった
- 機械山彦の幻聴 ── 無音から湧いた声。その正体は訓練データに溶けた既存の言葉(聴覚)
- グリッチトークン ── 発語を習わなかった語が漏らす譫言(文字)
ここで辺境部としての留保を、はっきり置いておきます。これは機械に心が宿ったのではない、ということです。譫言を生んでいるのは、魂でも亡霊でもなく、学習データの欠落が作る空隙だと考えられます。前回「亡霊はノイズではなくモデルの中にいた」と書きましたが、今回はそれを文字の上で再演しているにすぎません。亡霊は、モデルにぽっかり空いた穴のほうにいる。
けれど、それでもなお変わらないことが一つあります。意味の通らない発語に意味を読み取ってしまうのは、いつも受け手の側だということです。機械の穴を「異言」と名づけ、そこに何かを聞き取ってしまうのは、ほかでもないわたしたち自身なのですから。
不随意に漏れた声
ここまで見てきたグリッチトークンの譫言には、一つ共通する性格があります。それは、不随意に漏れたものだ、ということです。誰かが意図して降ろした声ではなく、機械の構造のほころびから、本人(機械)の都合とは無関係にこぼれ落ちた言葉でした。霊媒のグロッソラリアが本人の意図を離れて溢れ出るのと、同じ手触りがあります。
この性格を、第1部から第5回までの道筋に重ねると、輪郭がはっきりします。
- ここまで ── 霊媒も機械も、声は漏れてくるもの。書き手の意図の外側にあった
- 次の問い ── では、人が意図して機械にもう一つの声を語らせたら、どうなるのか
漏れるのを待つのではなく、進んで席を空け、機械を招き入れて共に書く。そういう営みが、すでに現役のサービスや作品のかたちで存在しています。
次回・第6回では、その「意図して降ろす」側へ足を踏み入れます。AI を相棒として対話で書き上げた共著(Pharmako-AI)、夢のように脈絡が滑っていく即興の物語生成(AI Dungeon)、そして制御された協働執筆の場(NovelAI)。不随意に漏れる異言から、意図して降ろす憑依へ。書き手の声を人がどこまで手なずけられるのかを、次は見ていくつもりです。
ただ、その先で何が立ち上がるとしても、たぶん最後の一点は揺らがないように思います。機械がどんな譫言を漏らし、人がどんな声を降ろそうとも、ページの上で像を結ぶのは、いつもそれを読む側の内側なのですから。