ついに解放された最強自然言語AI、GPT-3を味見する。

2021.04.22

Updated by Ryo Shimizu on April 22, 2021, 14:34 pm JST

恐るべき巧みなマーケティングにより、前評判は世界最強と名高いGPT-3のオープンベータテストのアカウントがついに筆者にも解放されたので試してみた結果をここで共有したい。

ただし、GPT-3の利用にあたってはかなり厳しい利用規約があるので、それを踏まえて記事を執筆したい。

パッとみたところ、GPT-3のAPIの利用方法は非常に簡単だ。
わずか数行で試せてしまう。

サンプルも、単純なチャットものから、要約、翻訳、映画のタイトルから絵文字を出力するなんていうものまである。

スタートレックとスターウォーズが完全に同じものになってしまうのはなんだか釈然としない。

こんなふうに、ブラウザだけでGPT-3の成果を確かめられるというのも魅力である。

試しに、意地悪をして日本語のWikipediaの情報をサマライズ(要約)してみる。

筆者の友人でもある映画監督の樋口真嗣に関するWikipediaの冒頭部分を要約できるかやってみた。

なんと、なんとなく要約できた。しかしやはりどうもおかしい。

英語ならうまくいくのかなと思って、スティーブ・ジョブズの英語版Wikipediaのページを要約してみる。

衝撃だった。
もはや文章になってない。

「iphone, ipad, macbook, macbook pro, macbook air, ipod, itunes, ipad, iphone, apple, pixar, nex, steve jobs, steve wozniak, apple, pixar, nex, ste」

これではなんの説明なのかわからない。

どうも英語でもちゃんと要約できるとは限らないようだ。

チャットをするAIのサンプルもあったので話をしてみた。

スティーブ・ジョブズについて知りたいと行ったら「後で調べる」とはぐらかされてしまった。

最後は「忙しいからまたね」と話を切り上げられてしまう。これではあまり役に立たない。

日本語も試してみると、英語で答えるのと同じことを日本語で答えた。文法はおかしい。これは内部で翻訳しているのかもしれない。

試しに中国語で話しかけてみる。

やはり機械翻訳されたような言葉が出てくるような気がする。しかし、言語を即座に判別するのは普通にすごい。

ところがこの1年間、OpenAIが主張してきたようなすごい能力がGPT-3そのものにあるかどうか、よくわからなくなってしまった。
この程度の受け答えは、たとえばParlAIのWizard of Wikipediaとあまり変わりがない。

下の写真はAI EXPOで展示した日本語版のWizard of Wikipadiaのやりとりだ。

これも噛み合っていないのだが、GPT-3でさえ中国語でやりとりすると日本共和国(Republic of Japan)という架空の国が出てきたりと、話の一貫性が怪しい。

GPT-3自体の問題というよりも学習に用いたデータの問題なのかもしれないが、GPT-3というのが構造やアルゴリズムを指す言葉ではなく「事前学習モデル」自体を指すことから、この少し偏った知識データも含めてGPT-3として評価するのが妥当ではないかと思う。

こうなると、やはり自然言語AIモデルの「性能評価」とは一体全体どういう基準で何をもとに決められているのか、という視点がより重要性を増す。

よく使われるのはBLEUスコアだが、これについては問題が数多く指摘されている。
今後、この「自然言語AIの評価基準」の精度が上がっていくことで、GPTシリーズは版を重ねるごとに「スコアの高いAI」へと進化していくことはできるだろうが、最終的には、言葉というのは、文法だけあっていても意味だけがあっていてもダメで、実際には文法が間違っていようが「思い」が伝われば言葉というのは許される。これはそもそもスコアリングできないのである。

たとえばバイロン卿の英文詩と、ゲーテのドイツ語の詩と松尾芭蕉の俳句を比べて、これは文章スコアが高いとか低いとか言い始めたら、文明・文化そのものへの冒涜と取られかねないだろう。

文法的にはある程度のところにきたからこそ、より高度な「創作性」もしくは「意図性」をAIに求められるような時代へと突入したと捉えることもできる。
AIの歴史は常にそうであるが、「あれができたら真のAIになりそうだ」という仮説から出発して、それができるようになると「まだあれが足りない」と新しいテーマが発見される。

「計算や集計ができたら知能と言えそうだ」と考えられて19世紀に集計機が作られ、「暗号を解読できたら知能と言えそうだ」と20世紀中盤にコンピュータが作られた。「猫か犬か画像だけから判断できたら知能と言えそうだ」という考えで21世紀のディープラーニングにつながっている。

ディープラーニングが特別な進化と呼べるのは、その進歩が「期待以上」だったからで、たとえば「犬と猫を見分ける機械ができたら、それを使って人間に囲碁で勝利するAIが作れそうだ」とは誰も思っていなかったのに、実際にはそれができてしまった。それどころか、「言葉をうまく翻訳したり分類したりできる機械が作れたら、それは知能と呼べそうだ」というところもいい感じにクリアし、その「言葉を理解する機械」が実は画像を含めて人間の扱うあらゆる情報に応用可能なことまで示されてしまった。

こうなると、そもそもの「知能とは何か」という定義がほぼ毎年見直されるべきものになり、現代の科学者たち、とりわけ人工知能の研究者とその周辺の人々は哲学的なレベルから「知能」の再定義を迫られるという状況に陥っている。

世界中に散らばった実験主義的な研究者たちによって無邪気にも次々と発見される「新事実」は、我々の「知能というものの認識」を毎回悩ませる。かつてこれほど「知能とは何か」という問いを繰り返し突きつけられた時代はないのではないか。

そこが人工知能に関わる者として面白くもあり、怖くもある、不思議な感情が交錯するところのようだ。