ゴジラと凶悪アボカドモンスターカーを描かせてみて分かった「優等生AI」の限界と野生のAI

2021.12.23

Updated by Ryo Shimizu on December 23, 2021, 08:40 am JST

毎年、この時期になると、OpenAIがいつも革命の鐘を鳴らすのがAI業界の風物詩のようになってしまった。
OpenAIは常に自らが作り出すAIの暴力性について注意を払う。その傾向は年々強くなっていった。

それは逆に言えば、OpenAIの作り出すAIがそろそろシャレにならないものになってきているからかもしれない。
今回、2021年12月20日にOpenAIが発表したGLIDEというAIは、言葉を与えるだけで極めて写実的な写真を生み出す。

Alex Nicol et al.,2021

この図では、最上段がフルパワーのGLIDEによる出力で、最下段が、「制限された(filtered)GLIDE」による出力である。

「制限されたGLIDE」とは、主に学習するデータに関して、人間に関わるものや、憎悪に関わるシンボルを注意深く排除して学習させたものを指す。

当然ながらフルパワーのGLIDEの方が与えられた知識に制約がないので奔放かつ詳細に答えが出せるが、制限されたGLIDEは、うまく言葉の意味を絵として表現できない。

OpenAIは論文の公開とともに、この「制限されたGLIDE」を配布しているので、誰でもGLIDEの威力の片鱗を見ることができる。
これは結局実装が公開されなかったDALL-Eから考えるとすごい進歩だ。

おそらく、完全なDALL-Eを公開しなかった理由は、同じところにあるものと考えられる。つまり、完全なDALL-Eは、いとも簡単に人間の想像力を超えた現実感の画像生成を可能にする一方で、ヘイトメッセージや、現実と区別のつかない、好ましくない答えを導き出すということだ。

そのためにAIに学習させるデータに制約を加え、「性能の片鱗は証拠として見せつけるが、本物はやばいから公開しない」というOpenAIの戦略に合致させることになる。

ただ気がかりなのは、OpenAIによれば、OpenAIが学習に使用した画像はインターネット上にあるほとんど全ての画像と文字列のペアであり、つまりそれは、OpenAIでなくても、理論上は誰でも同じくらい好ましくないものを作ることができてしまうということだ。もちろん今は莫大なお金がかかる。しかし5年後、10年後を考えるとどうだろう。今よりもっと安く、もっと凄いことが、その辺の暇な大学生のゲーミングPCだけでできるようになっていてもおかしくない。

この、いわば「人間に好ましいようにお利口さんとして調教されたAI」である「制限されたGLIDE」では、どんなことができるだろうか。
たとえば「正面から見たプリウス」という言葉を与えると、こんな映像を描き出した。

まさに「これ」としか言いようがないものになっていることに驚く。

では、「ゴールデンゲートブリッジを襲うゴジラ」はどうだろう。

なんと、ゴールデンゲートブリッジは出てきたが、「襲う」というのが制限されているのだろうか。
では、「ゴールデンゲートブリッジに光波熱線を浴びせ、炎上させるゴジラ」ではどうだろう。

なんと、炎上するゴールデンゲートブリッジが出現した。
このように、与える言葉をどんどん詳細まで詳しく説明すれば、ある程度は暴力的なものも表現できるらしい。

「東京を襲いかかるゴジラ」はどうか

ゴジラだ。圧倒的にゴジラである。

「東京の新宿で高層ビルに襲いかかるゴジラ」はどうか

かなりゴジラ感が出てきた。

もう少し、見たことがないものを見たい。

「アボカドっぽいゴジラ」はできるだろうか。

ゴジラというよりも圧倒的にアボカドである。
では、「アボカドっぽい緑色のゴジラ」はどうだろう。

説明文を詳しくすると、それっぽいのが出てきた。
そして特筆すべきは、ゴジラがおもちゃになっているところである。
これは、「子供のおもちゃ」は再現できるように「制限」されているからで、ある程度暴力的なものやグロテスクなものは、「子供のおもちゃ」的な属性に強制的に寄せられるのだろう。

「アボカドっぽいバス」を描かせて見るとこうなった。
すると緑のバスが出てきた。

つ、つまらない。つまり、この「優等生クンAI」は、人を傷つけない代わりに、恐ろしくつまらない人間(AI)になってしまったのである。
人間のイラストレーターに「アボカドっぽいバス描いて」と頼んで、単に緑色に塗ったバスが出てきたら、「お前はなんて想像力の乏しい、つまらない人間なんだ」と誰もが思うだろう。

不幸にもそういう人がアサインされてしまったらどうするか。説明を増やすしかない。

「見たこともないくらい狂ったデザインのアボカドっぽい外装のバス」という説明を与えると、以下のような画像になった。

うーむ。東南アジアにありそうなバスが出てきた。
個人的には一番左のバスが好きだが、そういう問題ではない。

「見たこともないくらい狂ったデザインのアボカドの化け物みたいなデザインのバス」と説明を少し追加してみる。

なんという凡人!凡庸すぎる発想。強いて言えば左から二番目が一番求めるものに近いが、保守的すぎる。
これはAIは人に好ましいよう賢くすると却って凡人に近づいてしまうということではないだろうか。

バスという制約がいけないかもしれないので、「車」に変えてみた。

つ、つまらない。
どうしたんだGLIDE。化け物というにはあまりにも遅そうな車ばかり作るじゃないか。むしろちょっと可愛い。

そこでもっと凶悪な形容詞を加えてみる。

「アボカドとミノタウロスの混ざったような悪役が運転する凶悪最悪な自動車」を入れてみる。
そろそろお気づきだろうが、このAIを使いこなすには、人間側の方にむしろ創作能力が求められる。

右から二番目がかなりヤケクソでいい。
色々試行錯誤してできるだけ凶悪なデザインの車を作らせようとやってみた結果、最終的にこうなった。

「醜悪かつ最強最悪の悪者が乗る悪魔的デザインの暴走マッスルカー」というキーワードで出てきたデザインは、レゴになってしまった。
つまり、「ある程度以上の凶悪なものは子供のオモチャにする」作用が働いたとみるべきか。

制限されたGLIDEは、確かに以前のBigGANのように気持ちの悪い画像が出ることはなさそうだ。
むしろAIによる作画というのは気持ち悪いというのがデフォルトだったから、「気持ち悪いものが出ない」という優等生AIは確かにヘイトスピーチやそのほか色々ややこしい問題からOpenAIを守ってくれるだろう。

しかし、この出力結果はむしろこれまでに発表された様々な手法に比べてかなり退屈である。
その上、使う側に極端に想像力を要求するので、動作確認以上の意味が見出せないだろう。

今後、OpenAIは、GPT-3と同じようにGLIDEをごく限られたユーザー向けに限定公開したりする可能性はある。その場合も、非常に厳しい誓約書にサインする必要があるだろう。すなわち、公序良俗に反する目的に使わないとか、結果をコントロールできない使い方はしない、などである。

ただ、なかなか公開されなかった(今もされていない)DALL-Eに比べて、制約付きとはいえちゃんと動作する3億パラメータのGLIDEが公開されたことはAIアートコミュニティからは歓迎されるだろう。

そしておそらく、AIアートコミュニティ的な文脈から行くと、GLIDEがどれだけ規制しようとも、その規制を易々と乗り越えてしまう方法を彼らが見つけてしまうのは時間の問題だと思われる。

テクノロジーは自ら発達し拡散したいというテクノロジー自体の持つ本能、テクノロジーのミーム、つまりテクニウムのようなものから逃れることができない。

特にGithubのような、テクニウムにとって最高のコロニーがある現在において、あるアイデアやあるテクノロジーが自ら進化し続けることを止めることは非常に難しくなってくる。これも一種のウィルスのようなもので、あるテクニウムは一部の人間の興味を強烈に惹きつけ、その人間を自分の進化のための道具として使う。

もしもOpenAIが、単に自分の立場を守りたいだけならば、こんな研究は最初からするべきではないか、したとしても実装を公開する必要もない。

しかし、好奇心の大きさと、発見した事実をみんなに知って欲しい、という、科学者全てに共通する欲望を抑えることはできない。テクニウムの浸透圧がOpenAIの倫理観とせめぎ合った結果の、公開だろう。

とすると、制限なしのGLIDE、つまり野生的なAIや、その先にある技術を中学生がオモチャにできるようになるまで、もうそれほど時間は要さないのではないかと思えたりするのだ。

おすすめ記事と編集部のお知らせをお送りします。（毎週月曜日配信）

登録はこちら

清水亮（しみず・りょう）

新潟県長岡市生まれ。1990年代よりプログラマーとしてゲーム業界、モバイル業界などで数社の立ち上げに関わる。現在も現役のプログラマーとして日夜AI開発に情熱を捧げている。

体感センサーとIoTで認知症患者を見守り

「従業員は家族」はもはや古い？

セブン銀行のATMでスマホを使って入出金可能に、まずじぶん銀行から対応

[PR]外国人観光客のドライブ観光データを分析――インバウンド需要喚起へ向け、具体的な施策に臨む

PREVIOUS
NEWS

DXと物理的セキュリティの意識

欧州で大規模な6G R＆Iプログラム開始他2本

NEXT
NEWS