2022年のAIトレンドを探る。果たして機械に物語は作れるか?

新潟県長岡市生まれ。1990年代よりプログラマーとしてゲーム業界、モバイル業界などで数社の立ち上げに関わる。現在も現役のプログラマーとして日夜AI開発に情熱を捧げている。

この業界では、「AIが人の仕事を奪うとすれば、最初に仕事を奪われるのはAI研究者だ」とよく言われる。

実際、AIの分野でブレイクスルーが起きるとそれまでの研究がほとんど無駄になったように思えることがよくある。昔なら、「無駄になった」とガッカリするのは年単位だったが、今は四半期単位まで短縮されている。

また、例年、年末年始になると比較的ショッキングなニュースが巻き起こるのがAI業界のここ数年の常識だったが、今年の年末年始は昨年に比べるとまだ大きなインパクトのある発表は少ないように感じた。

昨年末、OpenAIはWebブラウジングを支援するAIを発表したが、あまり話題を呼ばなかった。

一部の指標ではGPT-3を上回る成果が出ているにもかかわらず、である。
また、OpenAIは一年前、言葉から画像を自在に生成するDALL-Eを発表したが、実装は部分的にしか公開しなかったため、それに不満を抱いた世界中の有志たちが独自にDALL-Eのクローン実装や事前訓練モデルを開発し、それがようやく形になった。

見方によっては、OpenAIが隠蔽したことにより、世界全体のAIへの理解が一年遅れたとも言えるが、別の見方をすればむしろこの一年でOpenAIの発見は世界の一般的な研究者レベルまで浸透したとも言える。

ほんの数年前までは、「画像認識で従来を大幅に上回るスコアが出た」というだけで大きな話題になっていた、それから、「画像認識と強化学習を組み合わせると従来まで不可能と思われていたくらい複雑な判断が下せるようになった」というものもあった。AlphaGoやAlphaZero、MuZeroの時代である。そして、「人間と同等以上に言葉を操るAIが出現した」というものもあった。OpenAIのGPT-3やGoogleのBERTに代表される、Transformerと呼ばれる技術による自然言語分野の一大革命だ。昨年の話題の主役は、明らかにGPT-3の応用であるDALL-EとCLIPだった。

さらには、Transformerをうわまわる性能の新しい手法がいくつか試され、CLIPとTransformerが文章や画像生成以外にも応用が試され、音声認識や音声合成、動画認識や動画生成などに発展している。最近では、言葉から三次元の物体を直接作り出すような研究もある。また、複雑な数式も手続き的な方法よりも直観的な方法(ディープラーニングのような)の方が良い結果を速く得られるのではないかという研究も始まっている。

研究の世界での関心ごとは、「AIはどこまでできるのか」だが、産業界では「AIで何ができるのか」というテーマはまだまだ掘り下げられていない。

この原因は二つある。一つは、AIの理解が世間一般に、特に現実のビジネスを回すビジネスパーソンの間でまだ十分浸透していないこと。もう一つは、ひとたびAIの威力を知ってしまったビジネスパーソンは、全力でその効果や手法を隠蔽しようとすることだ。

これは資本主義的な競争原理においては、全く正しい適応状態である。

昔はそれを「ノウハウ」と呼んだが、今はそれを(AIの)モデル、または(AIの)アーキテクチャと呼ぶに過ぎない。

大学での研究のうち、「実用的」なものはどんどん排除され、より学究的な方向へ舵が切られる一方で、水面下ではAIの社会実装が少しずつ浸透している。この浸透は、非対称であり、非連続的だ。

つまり、昨日まで古臭く見えていた会社が、何かの拍子にAIをビジネスの根幹に応用した結果、誰にも知られずに圧倒的な競争力を手に入れることができる時代に入ってきた。

これはどういうことか。

たとえば、あなたが駅前の商店街で米屋さんをやっているとしよう。
一本向こうの通りには、ライバルのコンビニがあり、少し離れたところに、大規模なスーパーマーケットがある。
あなたは資本も少なく、店舗面積も限られた店を武器に、この世界で生き残らなければならない。

スーパーマーケットとコンビニは大きな資金力を背景として、野菜を安く、大量に仕入れることができる。しかも、専属契約の農家から高品質なブランド米を仕入れることができる。

あなたがもしも商売の天才で、従来にない全く新しい発想で自分の米屋を繁盛させることができれば、それはそれで素晴らしい。
しかし、実際のあなたは老齢で引退しており、店を譲った若い息子は、商売に興味がなく親の贔屓目に見ても賢そうには思えない。

そんな時、もしもドラえもんが現れて、「一週間後のニュースが見れるテレビ」が渡されたらどうだろうか。

もちろんこれは他の誰も持っていない。
一週間後、謎の病原菌により国内の米の備蓄が枯渇すると誰よりも速く知ることができたら、どれだけ賢くない人物でも、今のうちに米の在庫を大量に確保しておこうと考えるだろう。そして実際に一週間後、全国的にコメ騒動が起きる。結果的に大儲けした息子は、このテレビの存在を誰かに自慢するだろうか。

賢くなければ、あるいは自慢してしまうかもしれない。
しかしほんの少しでも賢さがあれば、そんな凄い道具を人にひけらかしたりはしないはずだ。

この「すごい道具」というのは、20世紀は「情報」だった。自分しか持ってない情報、隠された情報、それが未だに価値を持つのは変わらないが、現代は「未来の情報」を洞察するAIが、価値を持つようになっている。

突拍子もない話に聞こえるかもしれないが、囲碁や将棋のAIを考えてみてほしい。もしくは、麻雀やポーカーのAIでもいい。
どのAIでも、必要なのは、「未来の予測」ではないだろうか。

この中では最も単純なポーカーで言えば、「このカードを切れば次にどうなるか」という予測を立てることになる。
その予測の確からしさは、ある程度は平等に与えられている。場に出たカードと、自分の手札の組み合わせ。それと他のプレイヤーの表情や軽口。

それが何を意味しているのか、強がりなのか、天然なのか、限られた情報から一番可能性の高い未来を手繰り寄せなければならない。

当然、そんなことができるのは離れ技だ。
だが、AIは、人間が考えも及ばないような先の先まで短い時間で見通すことができる。

ポーカーに勝つには、わずか一分後を予測すればいい。つまり「一分後のニュースが見れるテレビ」があればいい。
囲碁や将棋なら、せいぜい24時間後のニュースが見れれば十分だろう。

これが「一週間後」「一ヶ月後」「半年後」「一年後」とどんどん伸びていくのが、AIの効用だ。
これは単なる数値の予測の話をしているのではない。判断の連鎖から導かれる無数の未来の中からどの分岐を掴み取るかという話である。

二時間程度でAIによる未来予測のイメージを知りたければ、桜坂洋原作のトム・クルーズ主演映画「オール・ユー・ニード・イズ・キル」を見ればいい。

今作ではトム・クルーズ演じる主人公は、何度も死を繰り返す。目が覚めると、また同じ日常が繰り返される。まるでゲームを繰り返すように。さまざまな選択肢を試し、さまざまな選択肢の中から、一縷の可能性を掴み取る。

同じような演出は、「アベンジャーズ/インフィニティウォー」と、「アベンジャーズ/エンドゲーム」におけるドクター・ストレンジにもある。絶体絶命に陥ったアベンジャーズたちは、ドクター・ストレンジが見てきた「1400万分の１」しかない、勝利の可能性の糸を手繰るために死力を尽くす。

そしてもしも未来を知ることができたら、知らない人よりも有利なのは間違いない。
AIは完璧な未来を予測することはできないが、未来予測から逆算した、現時点での最善の選択肢を提示することはできる。

そして多くの誤解されている事実とは異なり、この場合のAIの示した選択肢は、人間が腹落ちするまで、何度でも未来への経路を示すことができる。

たとえAIが自分の直感に反した選択肢が最善であると提示しても、「なぜそうなるのか」という未来への道筋を納得いくまで説明することになる。

スターウォーズでは、R2D2が非常に賢いロボットとして描かれる。今、あの半世紀近く前の映画を振り返って、少しだけ不満があるとすれば、「今のAIはもっと賢い」ということだ。

R2D2は非常に賢いが、エピソード5でルークが遭難した際、生存確率を極めて低いものと予測し、C-3POはそれをルークの親友、ハン・ソロに伝えるが、ソロは無視する。

今のAIならば、ただ生存確率が低いと伝えるのではなく、「どの場所に、どのくらいの確率で生存しているか」という地図を描き出すことができるはずだ。ベイズ推定と呼ぶ手法によって、これは容易に作ることができる。

そしてその「生存確率の地図」は、捜索活動をすればするほど精度が増し、少なくともルークの所在地(生死はともかくとして)を割り出すことはできるはずだ。

1968年に遭難したアメリカの原子力潜水艦スコーピオン号の捜索はそのようにして行われた。そして実際に広い大西洋の中からたった一隻の潜水艦(残念ながらその残骸だったが)が発見されたのだ。

この地図は、現在のAIの考え方と通じる部分が多い。
実際、囲碁やオセロなどのAIは、「勝利確率の地図」のようなものを常に更新し、未来を予測する。

この分野において、もはや議論は別のステージに移っている。
つまり、「やるかやらないか」ではなく、「上手いやり方はどれか」ということだ。これが現代社会最大の「ビジネスノウハウ」であり、うまくいけばいくほど、事例として詳細を紹介できなくなる性質のものだ。ライバルに知られたら困るからだ。

さて、本稿の目的はこうした背景を踏まえて、それでもなお、「AIにはまだ何ができなくて、何をしてもらいたいか」を考えることである。

昨年ブレークした、「言葉から絵を描くAI」は確かに衝撃的だった。
衝撃的だったがしかし、それは必要なものの半分、または一部分のように見えた。

絵は、確かに面白いが、面白いだけだ。
あれから僕は、自分のブログや記事の挿絵に、AIに描かせた絵を使うようになった。ストックフォトや、ストックフォトがわりに撮りためた無数のどうでもいい写真は、不要になった。明らかに数年前よりもカメラを起動する回数が減っている。

以前は、自分のプレゼンテーションで使うちょっと気の利いた写真は、自分で撮影するものだった。だから筆者の「企画・プレゼン講座」では、「買っておくべき道具」として、一眼レフカメラを挙げていたほどだ。

今はどうか。
スマホのカメラで十分いい写真が撮れるようになった。だが、それ以上、AIに描かせた絵の方が、より欲しいものが手軽に手に入るようになった。

たとえば「人類の夜明け」をテーマにした原稿を書きたいとしよう。
「人類の夜明け」というテーマで最新のAIが描き出す抽象画はこんなものである。

もちろんこれは、いくつかの出力結果の中から筆者が気に入ったものを選んだ結果だが、他の作品だって、文脈によっては人類の夜明けを意味するにふさしいものにも思える。

しかし、これらの絵は本文ではない。
本文に添える挿絵に過ぎない。

文章のイメージを筆者がより的確に伝えるための付属物であり、これだけを提示して原稿料をもらったら、編集部に怒られるだろう。

読者にとって有用かどうかはともかく、少なくとも編集部にとって必要な原稿というのは、物語を伴ったものである。
今の現状、起きている現象の解釈、そしてそこから生まれる次の行動、またはそのヒント、といったものが、あらゆる原稿には必要だ。

試しに同じAIに、「物語生成装置」という言葉から絵を描かせてみるとこんなものが出てきた。

なるほど確かに装置だ。
しかし、この絵だけからこれが「物語生成装置」であると解釈するのは難しいだろう。まさに「挿絵」である。

では、もう少し、この言葉の説明を加えてはどうか。たとえばこのように。
「物語を作るAI | 機械に物語を書くことはできるのか。その物語は、人間を感動させることができるのか。愛や情を理解しない機械にどこまでできるか」

すると出てきたのはこのような絵だ。

なるほど、自分で描かせておきながらなかなか手強いものだと思う。
フローチャートのようなものや、2コマ漫画のような構成のもの、人間が機械の中心に取り込まれてしまったようなものなどがある。

しかしこれはあくまでも人間の言葉と画像の関係性を学習したAIが、拙い知識で作り上げた、一種の幻想的風景であることに注意しなければならない。

この機械(AI)は、物語を作り出してはくれない。とりあえず今のところは。

実際のところ、「機械に物語を生成させる」のは、それほど難しいことではない。
それは、物語の性質が、そもそも「事象を矛盾なく述べたもの」であることが多いからだ。

これを作るのには、イマドキのAIすら必要ない。

筆者は20年ほど前に書いた本の中で、複数の人物の人格をモデル化し、喧嘩したり恋愛したりといった連鎖反応が起きる「恋愛シミュレータ」のプログラムを紹介した。

単に人間の感情モデルが相互作用しながら事件を起こす、というのは全く意外性のないプログラムで、扱うテーマが人間の感情でなければ、同じようなことは、コンウェイのライフゲーム(ゲーム・オブ・ライフ)、クレイグ・レイノルズのBoidsでも行われている。最近ならば、感染症のシミュレータと同じだ。

これによって確かに「物語」のようなものはできる。
ただし、それは「事象の羅列」であって、「読んで面白い」ものであるかどうかは別問題だ。

ここにきて、「物語」の構造を二つに分ける必要性が生じる。それを「事実」と「真実」と呼ぶことにしよう。

一つは、「事象の羅列」であり、連鎖反応が起きた記録だ。「事実」と言い換えてもいい。

ただし、一つの事実に対して、語り手が感じたこと、それを「真実」と呼ぶとすれば、生成された物語に「真実」を導入するとすれば、作者の立場を明確にしなければならない。

作者は登場人物の誰かなのか、それとも神の視点で見ているのか。
作者がどの立場であろうと、一番大事なのは、観客の気持ちを想像することである。

そうしなければ、決して、「面白い物語」にならないからだ。
僕はどうもこの部分に問題があるのではないかと思う。

つまり、「事実(矛盾のない事象の構築)」の生成は簡単にできても、それを読者に共感させる「真実」に昇華させる方法というのは、ちょっと容易には思いつかない。

それでも一つだけ可能性があるとすれば、過去にタロット占いやギャンブル、映画やゲームで多用された典型的な錯覚を利用するしかない。

人間は、全く無関係な事実の羅列を見ても、そこに勝手に意味を見出してしまう。「さっきからやたら信号で引っかかるな」「今日は5という数字をよく見るな」

心理学ではこれを「モンタージュ効果」と呼ぶ。

機械は、全く意図せず(真実を追求せず)に矛盾ない事実の羅列を掲示することは簡単にできる。
この示された事実の羅列が、物語のように「見える」という錯覚を人間は得ることがある。

これをエンターテインメントにしたのが、ウィル・ライトの「Sims」というゲームだ。このゲームでは、プレイヤーは神の視点となって、自分で部屋を作り、そこに人間の姿をした「シム」を住まわせる。

シムたちは生活し、恋に落ち、喧嘩して、出ていく。
プレイヤーは神としてシムの生活に介入することもできるが、全く介入しないでシムたちの生活を眺めることもできる。

いわば、水槽の中の金魚のように、シムたちの行動を眺めるわけだ。

このシムたちの行動を解釈し、観客に共感をうむような演出を表現するためには、今のAIではまだまだ物足りないように思う。

もっと言えば、AIの究極の形は、「使う人の人生を豊かにするような、しかも夢中になれるような面白い映画や漫画やゲームをひたすら自動生成する機械」になるはずである。

それをコンシューマAIのゴールだと考えると、まだまだ解決すべき課題は多いように感じる。
しかし、道筋が見えてきたのが昨年までの研究の動きではないだろうか。

GPT-3以降、人々は画像認識がすごいブレークスルーを起こしたことを忘れていたし、DALL-E以降、人々はたった一枚の絵が自動生成されるということに熱中した。

この先、我々はもっと違った視点でAIに向き合っていかなければならないだろう。
それはただ便利なだけでなく、「良い人生とは何か」「豊かな人生とは何か」「面白いとは何か」という、人類が根源的に求めてきた秘密である。

世界中の人が「絵を描くAI」を手にした今、次なるステップは真の意味で物語を作るAIになるだろう。
すると面白いことに、どんどん、「AIだけが専門」の研究者たちは困っていくはずである。

これからのAIの研究者は、AIの研究をする以前に、「知能とは何か、人間らしいとはどういうことか」を研究することを迫られる。
そしてその問いをずっと問い続けてきたのは、情報科学や工学ではなく、むしろ文学的、芸術的世界なのだ。

論理で説明できることを超越したところにディープラーニングが齎す「機械化された直感」があり、これは本質的に「論理で説明できる世界」を数万年にわたって追い求めてきた科学文明が次の段階に飛躍する兆候ではないかと思う。

「論理だけで説明できない世界」を同じく数万年にわたって追求してきて、途中で科学と分離していったもう一方の人類の叡智の半身、つまり、風土、文化、芸術といったものの理解と価値が再評価されるのではないか。

そして案外、よく批判される「文系と理系の区別は日本にしかない」という一見すると欠点に思えることが、むしろ文理融合の境界面において、突如として有効な手段に生まれ変わるのではないか。

今年は、そんな時代の始まりになるのではないかと思うのである。

2022年のAIトレンドを探る。果たして機械に物語は作れるか?

Newsletter

Related Articles