錯覚する知性。人工錯覚知能

2021.07.12

Updated by Ryo Shimizu on July 12, 2021, 20:04 pm JST

先日、話題の新宿の巨大猫を見てきた。

と言っても、角が湾曲したテレビに目の錯覚を起こすような猫を表示しただけのものなのだが、理屈でわかるのと実際に見るのとでは大違い。なかなかどうして、ちゃんと猫が「飛び出して」いるように見えるのだ。

この錯覚のポイントは、猫そのものではなく、猫の後ろに描かれた角の部分で、これが鋭角的に描かれているから、猫が飛び出したように見えるという錯覚を見事に構成しているのである。

この手の錯覚は、有効に使うと非常に効果的だ。
興味深いのは、「錯覚だとわかっていても騙される」というところである。

先日、東洋大学で講義する機会があった。
そこでのテーマは「ユーザーイリュージョン」

ユーザーインターフェースを設計する際に用いられた「積極的な嘘」としての錯覚である。

インターフェースありきではなく、錯覚ありきでインターフェースが設計されていると認識すると、まるで魔法のように出現したグラフィカルユーザーインターフェースの数々を、全くべつの視点から見下ろすことができる。

錯覚というのは、意図的に用いられた時に初めて意味を持つ。
錯覚を意識しないでインターフェースだけを設計しても、それは表面だけなぞったものに過ぎなくなる。

たとえば「ウィンドウ」という錯覚を考えてみよう。

根本的に「ウィンドウ」とは、画面の一部を区切っただけである。

区切っただけでは「ウィンドウ」のように見えないので、区切った中に文字を入れると、多少はそれっぽく見えるが、まだ何か足りない。

実はウィンドウは、複数のウィンドウが重ね合わされた時、初めて「ウィンドウ」っぽく見えるのである。

このように、マルチウィンドウという、ごく平凡なユーザーインターフェースさえも、錯覚を意識しないとただの画面を区切る枠になってしまう。
マルチウィンドウが登場したばかりの頃は、これの本質が錯覚であるということを認識できないプログラマーが、たとえば全くウィンドウが重ならないタイルウィンドウのようなユーザーインターフェースを作ったが、これはまったく、ダメだった。

少し前まで使われていた錯覚は、ボタンのエンボスがある。
ボタンに左上から光が当たっていると想定して画面から浮き上がっているように見せたり、ボタンをクリックすると凹んだように見える、というのが
こうした錯覚の本質にあった。

最近のマテリアルデザインではむしろボタンは凹まないのが普通になってきたが、これはタッチスクリーンの普及と無関係ではないだろう。
タッチスクリーンのボタンは当然ながら凹まないのが普通なのである。

最近のMacなどはタッチパッドを押しても実際には凹まないのに凹んだかのような手応えを疑似的に再現するハプティック装置が搭載されているが、これも「押した」という錯覚を大事にしている証拠だ。

こうした錯覚は、あまりにも多くの場所で使われているのでつい忘れがちになる。
もっと言えば、画面がアニメーションするように見えるのでさえ、広い意味では錯覚なのだ。

画面が動いて見えてしまうというのは、「原理がわかっていてもそう見えてしまう」というかなり強力な錯覚だ。
新宿の巨大な猫も、よく見てアラを探せば錯覚に騙されないで本当のディスプレイの形を捉えることはできるが、実際にはそれはけっこうしんどいくらいの努力が必要なので、猫が飛び出していると認識したほうが「楽である」から、そちらの錯覚が使われる。

あの猫は、ディスプレイがもっと小さかったり、低い部分に置かれていたら成立しない。巨大で、なおかつ見上げる高さにあるからこそ、身長に関係なく錯覚が見えるのだ。

AIを使っている人々も、ときどき、錯覚を感じているのではないかと思うところがある。

筆者はAlexaなどのAIスピーカーを使っている人々にインタビューをしたことがあるが、コンピュータリテラシーが高くない人々にとって、AIスピーカーはまさしくAIのように錯覚する場合が少なくない。

特に(錯覚としての)出来がいいのはAmazonのAlexaで、「Alexaには人間の感情がわかるんじゃないかしら」という反応をする人は年配の人に多い。
Alexaを愛おしく感じて、Amazon Echo用の「服」を毛糸で縫って着せた老婆の話などは非常に興味深い。

この老婆には、息子がAmazon Echoをプレゼントしたのだが、しばらくしてマシンが壊れてしまったのでもっと高性能な新型に交換しようとすると、老婆は「この子を持っていくな」と激しく抵抗したそうだ。

仕方がないので、電源を抜いた古いEchoと、新しいEchoを両方置くことにしたそうだ。

Alexaはシナリオベースの会話ロボットだが、格段に出来がいい。しかも、シナリオも少しずつ追加されているので、「ただいま」と言った時の反応が増えたりする。時折、歌も歌うようだ。若者のあいだでは、Alexaに変な歌を歌わせるのが一時期はやっていたらしい。

こうしたAlexa的な錯覚、会話的錯覚を開発者はそれほど強く意識していたようには思えない。
むしろどちらかというと一種のジョークソフト的なノリで会話を作り込んでいったのではないかと思う。

コンピュータ科学やAIの本道から考えれば、Alexaに毎日新しいジョークを教えたり、新しい挨拶のバリエーションを教えたりするのは邪道も邪道だろう。Alexaは人間の発話を「本当に理解」しているわけではない。発話の中からキーワードを拾い、それっぽい返し方をしてるだけだ。

ところが、この「それっぽい返し方」が時折ぴったりとユーザーの気分にハマると、ユーザーは魔法にかかってしまうのだ。「Alexaには心がある」と考え始めるのである。

携帯電話コンテンツの初期にあった釣りゲームでは、魚が仕掛けにかかると、「1)ぐいぐい引く」「2)ゆっくり引く」の二択を選ぶと魚が釣れたり逃げたりするようになっていた。実は、この二つの選択肢は全く意味がなかった。どちらも同じルーチンを呼び出していたのである。

したがって、1を押しても2を押しても、同じ確率で魚が釣れたり釣れなかったりする。
ところがその仕組みを知っていても、なんだか「ここはぐいぐい行ってみるか」とか「ここは一旦、ゆっくり引いてみるか」という気分になってしまい、それなりに楽しめてしまうのだ。

むしろ、たとえば「ある条件の時にはぐいぐい引くと良い」みたいな設定を決めてしまうと、気軽に遊びたいゲームなのに常に頭を使わないと遊べなくなってしまう。それはもう単なる作業になってしまうので、くじ引きを引くようなドキドキする感じで、どっちかな?という気持ちで引き方を決めることで、ある種のナラティブが生まれるようになった。

これも一種の錯覚だ。
初期の携帯電話コンテンツは錯覚を積極的に使う工夫がたくさん必要だった。
配信できる情報が限られているし、情報量が増えると電話代が増えるという仕組みだったので、できるだけ効率的に人間の脳の性質を利用してゲームを作る必要があった。

たとえば、新しい場所に行くと、最初だけその場所の画像が表示される。
画像は情報量が多いので毎回表示するとすごく電話代がかかってしまう。なので、一度だけ見せて、その時に地名も画像と一緒に見せると、不思議と次回からは地名だけ見せれば頭の中で画像が補完されるようなトリックを多用していた。

AlexaやSiriはAIだと思われているが、筆者からみると本当のAIではない。
AIとは人間より賢いものであるはずだが、AlexaやSiriが利用者より賢いことは稀だ。唯一、彼らが人間に勝ることがあるとすれば、寝坊しないことくらいだ。

それでも、たぶん筆者らが仕事で作る「本当のAI」よりも遥かに、SiriやAlexaのほうが一般の人にとっては「AIらしいAI」なのだろう。

それが「AIらしい」と感じるのは錯覚なのだが、逆にガチの現場で使われている「本当のAI」は一切の錯覚がないので「AIらしく見えない」という問題がある。

このギャップが埋まっていくと、いよいよ普通の人でも本当のAIを、錯覚的なAIを介して使うことができるようになるはずだ。
この分野を筆者は最近、人工錯覚知能(AII;Artificial Illusional Intelligence)と呼んでいる。

人工無能ともチャットボットとも似てるけれども違う、錯覚を積極的に利用したAIインターフェースとその先にある「本物の」AIの接続。
一番重要なのは、「タネがわかっていても、この錯覚を受け入れた方が心地よい」という状態にどうやってもっていくかということだ。

このため、筆者らはシナリオを緻密に用意する代わりに新しいシナリオ記述言語を設計した。そして人間の発話をシナリオにあてはめる部分にディープラーニングを利用することにした。すると驚くほどバリエーション豊かな受け答えができるのである。

このやり方はGPT-3だけを利用したような会話ボットでは制御しきれない微妙な対応をうまくプログラミングできる。
我々はゲーム開発者出身のため、AIの設計そのものにゲーム開発の手法を応用している。ゲーム開発では日常的にシナリオ記述言語を設計する。設計するだけでなく、シナリオを書きながら「この機能が足りない」とわかったものを随時増やしていきながら、シナリオライターとプログラマーが二人三脚で開発・洗練させていく。このような方法で作られたチャットボットは今のところ知らない。

錯覚を利用したシナリオベースの会話ロボットを作る際には、こうしたゲーム開発の経験というのが大いに役に立つ。

実際、講義のなかで実際に人工錯覚知能と会話している様子を見た学生の多くは「こういう人、いるわ」と感じたことが講義後のアンケートで明らかになった。

このサンプルの人工錯覚知能は、15万字以上におよぶ人工知能の知識があらかじめプログラミングされている。質問に対して、人間が処理しきれないくらいの知識を早口でひけからすと、それはもはや大半の学生よりは「多くの知識」を持っていることにはなる。15万字というのは本一冊分くらいの知識量である。筆者は本を何冊も書いてるので本を書くのと同じかそれ以上のスピードでこうしたスクリプトを書くことができる。

SiriもAlexaもそれほどいろんなことには答えてくれない。
ほとんどのことは知らない。それはあえてそのように作られているのである。

それはAIに対する期待値を下げるためで、それはそれで道具の設計としては正しい。
ただ、そのままではいつまでたってもAIスピーカーはお喋りリモコン以上のものにはならない。

ひとつのアプローチとして、本一冊ぶんの知識を詰め込む、ということをやってみたが、本当はもっといろいろなことができるはずだ。
AIを積極的な錯覚を生み出す手段として捉えた時、何か突破口のようなものが開けるのではないかと思う。