言葉で指示した通りに絵を描いてくれるAIが話題になってからもうすぐ三ヶ月経つ。
今も毎日のように新しいニュースが飛び込んできて、追いかけるだけでも大変だ。
しかしふと立ち止まると、「一体全体なぜ、これほどの熱狂を産んでいるのか」という疑問が浮かんでくる。
「絵を描くAI」自体は今に始まったものではない。
数年前から、「顔を描くAI」や「家を描くAI」などはあったし、そうしたAIに対して「スケッチ風にする」とか「ゴッホ風にする」などの指示を加えるようなこともかつては行われて来た。スタイル転写と呼ばれる技術で、どんな写真でも「ゴッホ風」や「ピカソ風」などのスタイルにアレンジできる。
こうしたAIは、AIやCGの専門家にとっては馴染みが深かったし、ごく狭いコミュニティでは「面白いね」という評価を得るにとどまっていた。
この「面白い」という状態はまあまあ危険で、研究者コミュニティからは「面白いけど、だから何?」のように扱われたり、コミュニティ外からは「あいつは自分の楽しみを優先して、実際には役に立たないことを研究している」と考えられがちだからだ。
まあ研究の多くはこの性質があり、特に尖った研究と呼ばれるものと役立たずの戯言を区別するのは難しい。
ところが、ここ数ヶ月の熱狂は、まるで最初から「絵を描くAI」が面白いものであったかのような反応になっていて、歴史というのは一瞬で嘘で塗り変わってしまうのだなという現実を目の当たりにした気持ちになる。こんな気持ちになるのはこれが初めてではないが、それにしても、という感じだ。
今回、「絵を描くAI」がブレイクした理由は三つあると思う。
一つは、AIが描く絵のクオリティが上がったこと。もう一つは、 AIが解釈する人間の言葉の解像度が上がったこと、最後の一つは、絵を描くスピードが上がり、値段が事実上0円近くまで下がったこと。
絵を描くAIは前述のように数年前からあり、人の言葉に従って絵を描くAIそのものも、一年前にはすでにたくさんあった。
ただし、この段階では、AIが絵を描く速度は数分から数十分かかり、待っている間にユーザーは飽きてしまった。
AIが解釈する人間の言葉の解像度が上がったと言うのは、人間側がAIを理解して、AIにわかりやすい言葉を紡ごうとする試みと、AI側が人間の言葉を理解しようとする試みの方向性がようやく合致したことで起きた。
これは、最終的には作画(推論)のスピードが劇的に向上し、数秒以内に作画が終わることから、フィードバックループが加速し、「絵を描くAI」の研究が進んだ。
多くの人が「面白い」と思ったことでこの世界に新しい可能性を感じた人たちが熱中していった。
この「面白さ」のメカニズムは、AI的に理解できるのではないかと思う。
人間の脳の中で、「何を面白いと思うのか」ということは未だ謎である。面白いと思った時に脳内物質が分泌されるという「現象」は確認されているが、その現象を引き起こす原因については未だ謎のままである。
しかし、仮に人間の脳の構造を単純化して「面白さを感じる機械」として構造を解釈しなおしてみると、「面白さのメカニズム」の片鱗が見えてくるのではないか。
この先、難しい話をするつもりはないが、難しいと感じられてしまうと意図が伝わらなくなるため、先に結論から言っておくと、「予想を裏切られると面白い」と感じる、という話である。
AIの世界には、「内在的好奇心(intrinsic quriosity)」という概念がある。
簡単に言えば、「同じ風景をみていると飽きて別の行動をする」という仕組みだ。
この「内在的好奇心」があるAIは、それを持たないAIに比べて、学習が早く、好奇心のないAIが決して解けないような難問も解くことができることがわかっている。
この内在的好奇心の正体は、「今までの状況から次の状況を予測する」仕組みをまず用意し、予測された状況Xと、実際に起きた状況X'の差分が大きければ大きいほど「面白い」と感じるようになる、単純な仕組みだ。
ただし、この予測は、新しく「意外な」結果が出て来ても、それを学習してしまう。
つまり体験すればするほど学習が進み、「予想外の結果」がどんどんなくなっていく。
赤ん坊や小さい子供がなんでも珍しがり、面白がるのに対して、年老いてくると、箸が転がったくらいでは笑えなくなる。
ただ、この単純なモデルだと、たとえば結果が常に乱数で与えられた場合も「面白く」感じてしまうのではないかと考えてしまいそうだが、実際には逆で、全ての数字が同じ確率で出てくる場合、平均して「どうせどれかの数字が同じ確率で出てくるんでしょ」というように学習する。
スレたAIを面白がらせるには、数字が出てくるとおもわせて、実は全く無関係のものを見せなければならない。
たとえば、数字しか知らなかったAIに、突然、カタカナを見せると「これは一体なんなのだろう」と思う。内在的好奇心が強く働き、もっとこういう学習を求めるようになる。
内在的好奇心を持ったAIの例として、3D迷路を解くAIが挙げられる。
3D迷路を特には内在的好奇心が有効だということがわかっていた。つまり、「もっと新しい景色が見たい」とAIが考えることで積極的に行動し、知らない場所を探索したくなるのだ。
ところがこのAIには欠点があって、途中で壁に動画が流されると動画を「新しくて面白い」と感じて立ち止まってしまう。
これは非常に微笑ましいが、おそらくきちんと設計すれば、動画を何周か見たらやっぱり飽きて他の動画のある壁を探しに行くようになるだろう。
ということは、AIにおける好奇心とは、「自らの創造の限界を越える」行為と言える。別の言い方をすれば、「想像力を拡張したいという欲望」ことが好奇心、そして好奇心からうまれる「面白い」という感情に繋がっていくのではないか。
AIは、自ら学習対象を学習すると、AI自身の頭の中に、特徴空間という空間を持つことが知られている。
この「特徴空間」は、我々が直感的にイメージできる3次元空間ではなく、数百から数千次元の非常に複雑な空間である。
学習された情報は、この特徴空間のなかで、「りんごはこのへん」「自動車はこのへん」と、場所を割り当てられる。
特徴空間の中で、そのAIから見て「似たもの」は近くに配置される。
どんな人間でも、「りんご」と「自動車」の「違い」はわかるだろう。AIにとって「違い」とは、特徴空間上の距離を言う。
普通の人間は「りんご」と「自動車」はかけ離れた概念で、この二つを組み合わせるということを想像しない。
けれども、AIはその中間の画像を作れと言われればなんとなく作れてしまう。
たとえば「果物のりんご」と「自動車」の中間に出てくる画像はこんな感じになる。
これが「作画AI」の正体でもある。
特徴空間がまずあって、その特徴空間の中で人間の与えた言葉との整合性をとる。
そのときに奇妙な解釈がうまれ、その奇妙な解釈は人間の想像を裏切るものなので、人間からしても予想のつかないギャップが生まれて「面白い」となる。
作画AIを最初に使う人のだいたいの動機は「こんな言葉を入れたら、どんな結果がでてくるんだろう?」という好奇心である。
人間の持つ特徴空間は、あまりにも日々「ごく普通の現実」に支配されているため、人間の持つ特徴空間の広がりはAIの持つそれよりも明らかに大きいが、密度がかなり粗い。
AIは、人間の持つ特徴空間よりも狭い特徴空間しかもっていないが、そのかわり密度が細かいので、その細かさが人間の想像力を時として裏切り、超えてくる。
このとき大事なのは、「整合性がとれていること」である。つまり、与えた言葉と全く無関係な画像が出て来ても、人間は面白いとは感じない。
どこか納得してしまうような結果が出て来て初めて「面白い」となるのだ。
もっと言えば、その向こう側にちゃんと辻褄の合った世界があるのだという予感、手触りから感じる確信を持てた時、AIにとっても人間にとっても「面白い」ということになる。
逆に言うと、AIはAIが生成した画像をみて「面白い」と思うことはないかもしれない。
もしくは、それを「面白い」と思わせることができると、AI自身がプロンプトを探索していくようなこともあり得るかもしれない。
いわゆる「お笑い」で使われる「ボケ」または「フリ」とそれに対する「ツッコミ」または「オチ」は、まさにここで示した、「予測X」と「結果X'」を繋いでいる。
大事なのは、XとX'が完全に無関係ではないことだ。
さきほどの例では暗黙的に強化学習で使う内在的好奇心だったので、AIから見ると、強化学習で使う環境という「閉じた整合性のある現実」があるため、予測Xと結果X'は辻褄があってる。
「一見予想外の結果でも、実はよくよく見ると辻褄が合ってる」という前提がないと、AIは学習しても最終的には「次の展開は常に予想できない」という無気力状態の結論に達する。
最初の例でいえば、「1→2→3→イ」と来たら、次は「イ→ロ→ハ」または「イ → アル → サン」と続けて連続する概念を三回ずつ繰り返すと言う整合性があると示さないと少なくとも人間の大人なら納得しない。
AIは根気良く聞いてくれるだろうが、そこから学び取れることがなければ結局「つまらない人」とAIにさえ思われてしまう。
この、「興味を引きつつ意表を突き続ける」というのがバランス的に難しく、だから「誰にとっても面白い話」を考えるのは難しい。
だが、この前提に立つと、なぜ今の作画AIが人々の興味を惹きつけるか見えてくる。
一つは、意表をついた答えが出てくること。ただしそうするためには、意表をついた答えにつながるような意表をついたプロンプトを考えなければならない。
もう一つは、速度が速いこと。同じことができても、結果が出るのに数分かかるのと数秒で終わるのとでは体験の次元が違う。
今日は触れなかったが、実際の生物の脳には「時間と共に刺激が減衰する」という仕組みがある。だからあんまり「フリ」から間隔が開くと「オチ」を聞いても笑えない。「えーと、なんだっけ」という感じになる。
このテンポが、漫才などでは劇的に短い。
以前までできていた、「作画に数分かかるAI」は、時間がかかりすぎる。
その数分間をなんらかの目眩しで誤魔化せればいいが、多くの場合はそううまくはいかない。
いまの数秒の作画時間でさえ、実は結構無駄な時間を使う。
その意味で、作画を待つ時間を人間のアドリブトークで乗り切る「AIパワポカラオケ」は、作画時間の体感時間を短くするためのシンプルな目眩しの例と言えるかもしれない。
AIパワポカラオケとは、もともとランダムな写真を使ってアドリブで(嘘の)プレゼンをするパワポカラオケを発展させてAIと組み合わせた遊びで、ランダムに与えられたお題からAIが画像を生成する。
最初の2枚の説明を音声認識してさらにAIが画像を生成して、最後にオチがつくという仕組みだ。従来のパワポカラオケに比べると、ちゃんといい意味で人間の予想を裏切りつつも、全体としてはテーマに沿った絵が生成されるので初心者にもとっつきやすくなっていると感じた。
気がつけば七人で五時間もぶっ通しでAIパワポカラオケに没頭してしまい、全員抜け殻のようになって帰宅した。
これも「面白さ」というものがAIとの相互作用の中から生まれることのひとつの証明かもしれない。
[youtube https://www.youtube.com/watch?v=PtHFV1-8IG8&w=560&h=315]
おすすめ記事と編集部のお知らせをお送りします。(毎週月曜日配信)
登録はこちら新潟県長岡市生まれ。1990年代よりプログラマーとしてゲーム業界、モバイル業界などで数社の立ち上げに関わる。現在も現役のプログラマーとして日夜AI開発に情熱を捧げている。