2021年、AIには何ができて、何ができないか

2021.01.04

Updated by Ryo Shimizu on January 4, 2021, 10:02 am JST

AIは近年、驚くような変化が毎月のように訪れている。
筆者の主宰する私塾では、上級会員向けに月に一回、AIに関する最新情報をシェアし、考察を加えるといったことを4年ほど続けている。

始めた当初は「そんなに毎月話すことがあるだろうか」と不安だったが、恐るべきことに毎月色々なことが起きているのでここ数年全く退屈するということがない。

そんなわけで、一年前には想像もつかなかったようなことがAIで実現している。2020年だけでも、GPT-3、ImageGPT、VisionTransformer、AlphaFoldといったイノベーションがあった。

特にGPT-3に関しては、GPTそのものは2019年末に発表されていたものの、それが自然言語として活用できるだけでなく、同じ仕組みを画像に対して適用できることを発見したImageGPT、そしてデータ量が十分あれば従来の畳み込みよりも精度を高めることができるVisionTransformerは、自然言語という物に対するものの見方を変える一大発明だった。

こんな変化の激しい業界で、一年間に起きることを予測するというのはかなり困難だ。
しかし、困難だからといって一年先の予測をしないのは、経営者としても研究者としても避けられないことだ。

まず確実だと思えるのは、GPTを始めとするTransformerモデルの活用方法についての模索は今年も益々盛んになるだろうということだ。

普通に考えて、言語と画像と来たら、次は動画である。動画の手前として、たとえば漫画の次のコマを予測するなんてことができるようになるかもしれない。データセットの問題があるが、データセットはなければ作ればいいのである。

NVIDIAのチップの進歩のスピードが昔に比べて鈍化してきているように思う。計算能力そのものもそうだが、新しくて強力なGPUを出せば出すほど、計算時間は短くなり、大規模な計算資源は不要なものになっていく。

今、大量のメモリを必要とするのはGPTのような自然言語処理モデルだが、個人的にはあまりGPUが効いてないように思える。年末に間違ってCUDAドライバの読み込みに失敗したままGPT-2の17GBモデルをファインチューニングしたのだが、それほど速度が変わらなかった。もちろん倍くらいは違うのだが、倍しか違わないのだ。これは畳み込みに比べると随分な差である。

畳み込みが主流でなくなる可能性も指摘されている。しかし畳み込みは画像処理プロセッサ(つまりGPU)と相性がいいのに対し、Transformerモデルではそうでもない。

AppleのM1チップもそうだが、そもそも畳み込みを使わない方がいいということになれば、今市場に出回っていたり、これからスケジュールされたりしているはずのAIチップは登場する前に陳腐化する可能性がある。

去年、筆者が代表を務めるギリア株式会社ではニューラルネットワークの設計を遺伝的アルゴリズムによって自動的に行うシステム「Ghelia Spectre」を開発し、発表した。

このシステムによってわかった驚くべきことは、人間の作った数年前のSOTAモデルと同程度の性能で、サイズが1/50程度のものを短時間で設計できてしまったことだ。

つまり人間はあまりに先入観にとらわれているのである。
そもそも畳み込みニューラルネットワーク自体は90年代に発明されたが、それがディープラーニングに活用できることが発見されたのは2006年頃で、本格的に使えることが分かったのは2012年である。

その計算にGPUが最適だったのは完全に「たまたま」なので、偉そうなことをいう人が何百万人いようとも、結局我々は、偶然の発見の積み重ねによってしか進歩していくことができない。出来上がった結果に後から理屈を語ることは誰にでもできるが、一番肝心なのは、どんなことでも「やってみる」という発想なのである。

ところがこの「どんなことでもやってみる」ということが、人間には最も難しい。先入観に囚われているからだ。我々は等しく、先入観の囚人なのである。

たとえばGhelia Spectreに、「畳み込みを使わないで画像認識するニューラルネットワーク」を設計させたら、何か突拍子もない方法が見つかる可能性は決して低くない。個人的にはGhelia Spectreに色々な制約条件を与えて試してみたいが、遺伝的アルゴリズムを効率的に実行するためには数十台の計算機クラスタが必要なので個人でやるには限界がある。

2021年以降はこうした技術を実用化する方法の模索が進むだろうし、使っているうちにもっと良い解に辿り着く可能性も否定できない。

GPTを含むTransformerに関しては、長期的な文脈の把握が難しいという欠点が既に明らかになっており、正常進化するとすればこの部分をどうやって解決するかということになるだろう。応用法の模索の方が簡単なので、画像から動画、先ほど例に出した漫画のコマのようなもの、そして言葉と画像の組み合わせのようなクロスモーダルへの応用は既に世界中のあちこちで検討されていると思う。

VisionTransformerによって、画像データセットの規模が現状普通の人々が使っているものでは明らかに少ないし不十分であることはもはや明らかになった。Googleしか保有していないとされるJFT-300Mのようなデータセットの解放は大きな鍵の一つだが、Googleが公開できないのは、著作権的にやばい画像が大量に含まれているからなのではないかと推測する。たとえば映画やテレビ番組など。

3億枚というと途方もない数のように感じるが、動画は1秒で60枚あるので、動画にして60日分のデータでしかない。映画やテレビを使えばあっという間に集められる。タグ付けするのは骨が折れるが、そもそもどういう目的のデータかよくわからないので、たとえば「テレビ番組と話数」や「映画のタイトル」をタグにするのであれば、やはりあっという間に集められる。

もちろんそれにタグをつけるのは大変かもしれないが、タグを先に決めてしまってから動画を撮るのであればもっと簡単になるはずだ。
JFT-300Mは18291カテゴリーあるらしいので、その項目を考える方が大変かもしれない。ただ、語彙だけの話で言えば、たとえば辞書にあるものを片っ端から取っていけばあっという間に10万種類くらいは集められるだろう。

動画は実は集めるのが簡単なのだが、言葉というのはそうはいかない。
2021年はこれまで以上に、「表現するもの、言葉、その意味」というものが重視されるはずだ。

我々が最も注意を払うべきなのは、「本当に必要なAIはどんな問題を解決するもなのか」ということだ。
たとえばGPTが「人間そっくりの文章を書く」ことがたとえハイプ気味の宣伝通りに事実になったとしても、それを人間が読みたいかどうかは別だ。

筆者は本を書くので非常に思うところがあるのだが、お金をもらう価値がある文章を書ける人間というのはそもそも訓練によってしか生み出されない。昔は、書いたものを読んでもらうのがものすごく大変だったわけだが、今は誰でもブログくらい書ける。しかしそのブログは果たして誰にとっても読む価値があるものだろうか。

絵を描くAI、文章を書くAI、どちらにも言えるのは、芸術性がキーになるということだ。
ところがAIの研究者のなかにいわゆる芸術性を正しく理解している人が果たしてどのくらいいるのだろうか。
僕は限りなく皆無に近いと思う。

もしも芸術性というものをその片鱗でも掴んでいたら、「ゴッホ風」とか「ルノアール風」とかという表現の仕方がそもそも根本的な間違いであることに気づくだろうし、そういう言い方で世間に発表することが、偉大な芸術家たちを穢してしまうということを意識せざるを得ないからだ。

筆者自身は、全く偶然に、とある国営放送の中で強化学習されたゾンビが這いつくばる様を見て激怒した芸術家の現場に立ち会ったことがある。その時は、何が不味かったのだろうかと思ったが、その翌々日から、筆者はその芸術家の作業場の片隅に席をいただいて通うようになってから、芸術性というのは人間性と密接に結びついているのだということを幾度も嫌というほど思い知らされた。こうした人間性をAIが獲得するのは、今のところ全く不可能である。どうすればいいのかということさえ全く想像つかない。

日本は実は芸術に対するリスペクトが高い国だと思う。最も大衆的な芸術が普及した国といってもいい。何をいってるかと言えば、漫画である。

こんなにも漫画を読み、描くのは日本に住んでいる人だけだ。
コミケと似たような文化は世界各地にあるが、自分で描いた漫画をあれだけ大量に売っているのは日本だけだ。

だから、「鳥山明風」とか「尾田栄一郎風」とかのAIが出てこないのは、それがそもそも根本的に不可能だし、作ること自体が失礼に当たるからだ。ディフォルメというのは、それほど恐ろしく高度な知的作業なのである。

ところが世界の大半はそれを理解していない。なぜなら印象派でも写実派でも、彼らが模倣しようとする芸術家は、20世紀以前の作家たちだ。つまりカメラが発明される前の芸術である。

そして出てくるものは、モネを表面上だけ真似しただけの粗悪品である。その絵に値段はつかない。買う人がいるとすれば、かなりの変わり者だ。

そういえば、ディープラーニングのスタイル転写をビジネス化した会社があった。写真をアップロードするとモネ風とかルノアール風とかにしてくれて、お金を払うと高解像度版がダウンロードできる。

モネもルノアールも19世紀生まれの画家であり、故人だ。彼らが文句をいうことはないだろう。だからと言って、田河水泡風の絵を出力するAIなんてものは作れないし、作れたとしても失礼すぎて出せないというのが普通の日本人の感覚ではないかと思う。

筆者はキャリアをテクニカルライターから初め、ゲーム企画と開発を経験した後、AIを仕事にしているので余計にその気持ちが強いのかもしれない。

芸術家や表現者に対するリスペクトを欠いてしまうと、そもそも知性の本質を見失う。
筆者自身はAIを取り扱うときにまず「良い知性」とは何かという問いかけから始まった。
その結果、たとえばデミス・ハサビスのような知性は、確かに凄いが、模倣されうるということを発見した。

つまり、AlphaGoは凄いが、すぐにクローンが大量に出た。つまりディープラーニングというのは発明というよりも発見なのである。
発見である以上、一度有効な方法が見つかって仕舞えば、模倣するのは簡単だ。これはどんなものにも言えるはずである。

ところが真の芸術というのは模倣できない。全く模倣する方法が見当もつかないのが漫画やアニメといった芸術を扱う人々だ。

時には作家本人だって完成するまで全貌がわからない段階から制作に入るのだから、模倣のしようがない。彼の作品は、彼の人生そのものなのである。

論理的な分析は通用せず，現象として生まれた作品に嘆息するほかやることがない。
Transformerの延長上にこれがあるかと言われれば、あるわけがないとしか答えようがない。

つまり「高い知性」の基準が、根本から揺さぶられているときに、我々がすがるべき唯一の手がかかりが「素晴らしい作品を作る芸術家」なのである。

これは模倣できず、再現できない。
Transformerがこれだけ進歩してくると、進歩すればするほど、ガラスの天井を誰でも意識せざるを得なくなる。
つまり、「それっぽい」ものは決して「それ」ではないということを無視できなくなる。

2021年はこの問題に対する新しいアプローチが生み出されるのではないか。つまり大量のデータをただひたすら読むだけの時代が終わり、かつての記号論との融合が生まれるのではないか。

僕は無責任にも、そういう期待を抱いてしまうのだ。

人類は案外そんなに間抜けというわけでもないはずだ。

おすすめ記事と編集部のお知らせをお送りします。（毎週月曜日配信）

登録はこちら

清水亮（しみず・りょう）

新潟県長岡市生まれ。1990年代よりプログラマーとしてゲーム業界、モバイル業界などで数社の立ち上げに関わる。現在も現役のプログラマーとして日夜AI開発に情熱を捧げている。

どうすればITエンジニアの働き方がクリエイティブになるのか？

KDDI、110円/0.1GB単位でお手軽にデータチャージできるキャンペーンを実施

「窓越しに離れた家族と会話」「空気環境を検知し自動換気」－－窓の未来の姿をYKK APが公開

[PR]外国人観光客のドライブ観光データを分析――インバウンド需要喚起へ向け、具体的な施策に臨む

PREVIOUS
NEWS

「AIは、運用開始がスタート地点」。データとは？ AIとは？から始まる実践的AI講座

DXの最大のミッションは雇用創出にある

NEXT
NEWS