昨日、人工生命の第一人者である東京大学の池上高志先生の研究室に遊びに行ってきた。
池上先生はここ数年、作曲家でピアニストの渋谷慶一郎氏とタッグを組んで、アンドロイド(ロボット)によるオペラを制作している。最新作「mirror」はドバイで開催されている万国博覧会において先日、世界で初披露された(link)。
いくつかのキーワードを与え、自然言語人工知能であるGPT-3が生み出した詩をアンドロイドが歌うその様は世界に衝撃を持って受け止められた。
タイトルの「mirror」には、アンドロイドは「あなたを写す鏡である」という意味が込められている。
池上先生はこうも言っていた。
「実は、GPT-2の出力の方が面白いことがある」
先生によれば、GPT-3はあまりに多くの言葉を学んでしまったがために、出てくる言葉が普通になっているのだという。それに比べると、一つ前のバージョンであるGPT-2の方が、意外性を含んだ詩を紡ぐことがあるのだそうだ。
そんな話を聞いていて思ったのは、「今のところ、AIの生み出す面白い出力には、ナンセンスな面白さしかないのではないか」という話だ。
ナンセンスであるというのは、意外性が高いということだ。
意外性だけではダメで、意外でありながらどこか納得できる共通点がなければならない。ここにAIから生成された結果にたまらなく愛おしい感じを生み起こす理由でもある。
AIが発達していくと起きる一番大きな変化は、「頭がいいことが人生にとって有利にならなくなる」ということだろう。
誰でもが人間の思考能力を超えるAIを扱う場合、AIの下した判断をあれこれ疑う人よりは、勉強ができなくても、むしろAIの判断を盲目的に信奉するような素直な人の方が成功する可能性がある。
ではその時に残る人間の価値はなんなのかというと、誠実さや素直さというポジティブな感情と、怒り、不安、憤りといったネガティブな感情なのではないだろうかと考えた。
というのも、クリエイターの物語には、必ず、ネガティブな出来事がある。愛する人との別れ、憤り、世の中への怒りといった感情が人を創作に走らせる性質が、確かにある。
反対に、どれだけ才能に溢れたように見えたクリエイターでも、金銭的に満たされてしまうとそこでピタッと創作をやめてしまう人が少なくない。
周囲のクリエイターを見ていると、渇いている人が多い。成功への渇望、若い才能への嫉妬、世の中についていけない自分の焦りと、その反動として生まれる世の中や若者への恨みや憎しみ。
そうした負の感情が、創作を創作たらしめるのではないか。
たとえば昨年は1月にOpenAIが発表したDALL-Eを皮切りに、世界中で「絵を描くAI」の研究が百花繚乱となった一年だった。
DALL-Eが人々の期待を大いに煽り、にもかかわらずいつまで経っても実装が後悔されないことに業を煮やした若き研究者たちが、世界中で連携してDALL-Eの再現を目論むプロジェクトがあちこちに生まれた。
むしろOpenAIが素直にDALL-Eを公開していれば、これほどまでには盛り上がらなかったのではないかとさえ思える。
これもまた「渇き」を感じた研究者たちがエネルギーを結集して目的に辿り着いたという例だろう。
ロシアの研究チームがロシア語版GPT-3とロシア語版CLIPを用いたロシア語版DALL-E(ruDALL-E)を公開すると、熱狂は最高潮に達した。
研究チームの主張することによれば、このプロジェクトはロシアとしては最大の人工知能プロジェクトだったらしい。
ruDALL-Eにエマ・ワトソンという単語を入れると、エマ・ワトソンのような女性が次々と描かれる。
OpenAIが自粛した人物描写と言ったことが制限なしにできるようになっている。
しかし、触っているうちにすぐに飽きている自分に気づいた。
確かにruDALL-Eは制限がされていなくてすごいのだが、よく考えると、まるで検索しているみたいで楽しくないのである。
たとえば、顔画像だけを生成したいのであれば、FFHQなどの有名人の顔を集めたデータベースを学習したAIに「アジア人のおじさんの顔」といえば、それっぽい顔が生成される。
FFHQは顔だけに特徴空間が閉じられているので特徴ベクトルをどこに取っても、ちゃんとした顔になる。
これが「学習できた」ということなのは間違いないが、本来ありえない中間状態がないというのは芸術にとっては妨げになる。
FFHQの特徴空間を検索するのは、ほとんど、素材集を検索するのと変わらない。
「面白く」ならないのである。
筆者はむしろ、いきなり綺麗な絵が出てくるよりも、AIが渇望感を感じて苦しみもがきながら目的に辿り着くようなものこそが芸術なのではないだろうかと考えた。
そこでまず、経産省の管理するAI橋渡しクラウド基盤(ABCI)というスーパーコンピュータを用いて、自分が過去に集めた大量の写真を学習させて特徴空間を広くした。
この特徴空間を仮に「shi3z」と呼ぶことにする。
この特徴空間には筆者が過去に撮影した写真やインターネットで集めた写真が無作為においてある。
FFHQと重なる部分は、顔に関係する画像だが、顔に関係する画像すら筆者にとって身近な人々の顔が収納されている。
この特徴空間の中から、たとえば「笑顔の男」を探し出す。すると、こんな結果が出てきた。
非常にコンセプチュアルでありながら、確かに「笑った男」を探しているように見える。
顔だけを学習したFFHQに比べると、空や木や、訳のわからないものから笑っているように見えるものが抽出される。
この特徴空間は広すぎるため、通常の最適化関数ではとても見つけることができない。
そこでこのために探索アルゴリズムを新たに考え出し、オリジナルの最適化関数で多種多様な探索を短時間に同時に行うということができるようになった。
特徴空間が広がった結果、AIの生み出す画像にある種の創造性が付け加えられた。
これは結構、驚いた。
もちろんこれは、AIが広大すぎる特徴空間に放り込まれ、コサイン類似度というコンパスを頼りに「笑った男」を探すという孤独な旅路の発露である。
もちろん、これを芸術と呼べるかどうか、どう感じるかどうかは人それぞれだとは思うが、筆者は単に言葉から綺麗な画像がポンと出てくるよりも、よほどAIの苦しみやもがきといった「渇き」が伝わってくるような気がした。
左から右へと探索していくのだが、たとえばこのスイッシュラインのような模様は、おそらく「笑顔」における口の端の歪みを探してもがいた結果だろう。
ここでもがいた結果、一番右のいかにも口角が上がったような表現に行きついているのである。
もっと人間っぽい例で見ると、わずかな差だが、左端より右端の方が歯が多く出ているように見える。
これは探索指標として、「CLIP」というOpenAIの事前学習モデルを使ったが、CLIPの学習データは欧米圏で作られたものなので欧米圏のような人々になっていることにも注意したい。
つまりAIはどの空間で学習したかということよりも、どの基準を道標とするかの方が重要なのである。
そこで筆者は現在はCLIPそのものを日本語化する実験を行っている。CLIPの再学習はそれほど難易度が高くなく、必要なのはデータだけ。
ただし、どのようなデータをどのような手順で用意するかが問題になる。
ここにも工夫のしがいがありそうだ。
おすすめ記事と編集部のお知らせをお送りします。(毎週月曜日配信)
登録はこちら新潟県長岡市生まれ。1990年代よりプログラマーとしてゲーム業界、モバイル業界などで数社の立ち上げに関わる。現在も現役のプログラマーとして日夜AI開発に情熱を捧げている。