OpenAIのDALL-Eで改めて問われる「美意識」の重要性

2021.01.08

Updated by Ryo Shimizu on January 8, 2021, 16:07 pm JST

年頭(1月4日)の記事で、筆者は「GPTを中心としたTransformerをクロスモーダルに適用する例が年内に出現するだろう」と予測したが、予測より遥かに早く、その一番目の例が公表された。イーロン・マスクやMicrosoftの支援を受けたOpenAIのDALL-Eである。

筆者が1月4日の記事をポストしてから、わずか一日で予想通りの成果が発表された。

それも納得と思えるのは、ImageGPTが発表されたのは昨年の7月で、GPTを画像に応用するということが可能であるという道筋が示された。それから数えると、既に5ヶ月は経過しているので、自然言語用のニューラルネットワークで画像を扱えるということは、その二つを同時に扱えるのではないかと考えるのはむしろ当然の成り行きで、実際にその成果がクリスマス休暇明けに発表されたということだろう。

これで2021年のこの界隈の最初の大きなニュースは再びOpenAIが掻っ攫っていくことになった。

DALL-Eとは、簡単に言えば「言葉で説明すると、説明された通りの画像を生成するAI」である。

たとえば「チュチュを着た大根の赤ちゃんが犬の散歩をしているイラスト(an illustration of a baby daikon radish in a tutu walking a dog)」と指定すると、下図のような画像が生成される。

出典: OpenAI BLog

他にも、「黒の革のジャケットと金のプリーツスカートに身を包んだ女性のマネキン(a female mannequin dressed in a black leather jacket and gold pleated skirt)」という言葉から、以下のような画像を得ることができる。

出典: OpenAI BLog

本当にこんなことが可能なのかと目を疑いたくなる。
実際、論文はまだ発表されていないので、原理はざっとしか説明されていない。
あまりにも良いできの出力だけだと疑われると考えたのか、少し無理のあるタスクの結果も紹介されている。

「"openai"の文字が書かれたお店の正面(a store front that has the word ‘openai’ written on it. )」

もちろんそんなお店はどこにもないから、これができればAIが生成したという話を少しは信じても良さそうだ。結果は以下の通り。

出典: OpenAI BLog

実際のところ、にわかにはこれが現実だと信じられない。
どうしてこんなことができるのか。しかも、この解像度で。

半年前のImageGPTは可愛いものだった。
画像を生成すると言っても、たかだか32x32の一昔前のビットマップアイコンくらいの小さいものが何となく生成されるだけだった。

ところが今回のはワケがまるで違う。

興奮して色々とサンプルを見ていると、しかしふと我に返る瞬間がある。

たとえば「畑に座って朝日を眺めるカピバラの絵(a painting of a capybara sitting in a field at sunrise)」の出力結果だ。

出典: OpenAI BLog

原理についてまだ詳細な論文が公開されていないが、基本的にはImageGPTとVQ-VAEの組み合わせである。

チューリッヒの研究者、Yannic KilcherによるDALL-Eの解説はこちらの動画が詳しい。

[youtube https://www.youtube.com/watch?v=j4xgkjWlfL4&w=560&h=315]

これは絵を出力する場合、単に絵が出てくるだけでなく色々なスタイルで出力できるという応用の紹介なのだが、筆者が注目したのはそこではない。

こうして出てきたイラストレーションなり写真なりレイアウトなりを見て、一体、人類は何を基準に出力結果を選べば良いのだろうか。

もはや原理とか仕組みとかへの興味よりも、むしろこうした技術が可能であるという現象を、どう扱っていったら良いのかということこそ真面目に考えなくてはならないのである。

これもまた、1月4日の記事の中で指摘した観点だが、その思いがより一層強まった。

もはやこれ以上の評価を行うには、「美意識とは何か」ということを定義する必要があり、その定義は、今のところ誰にも定量的なことは言えないのである。

美意識という言葉が国内のビジネスマンの間で意識され始めた経緯は、山口周の「世界のエリートはなぜ「美意識」を鍛えるのか？～経営における「アート」と「サイエンス」～ (光文社新書) 」が契機と言って良いだろう。

しかしこの美意識というのはちょっとやそっとで身につくものではない。
もともと絵を描かない人間、美意識を磨く訓練をして来なかった人間が少し美術館に通ったりデザイン雑誌を眺めたりしたからといって一朝一夕で身につけられるものではない。

たとえばもしもこのDALL-Eのような仕組みがPowerPointに組み込まれたとしよう(OpenAIの主要なスポンサーはMicrosoftだから十分あり得る話だ)。

誰でも簡単なイラストを注文して、簡単なクリップアートでも、適当な人物写真でも自分の資料に組み込めることができるようになる。

Microsoftのこれまでのやり方なら、「こんな絵が欲しい」という文章を入力させるか音声認識させるかして、25個くらいの候補を一覧表示し、ワンクリックで選ぶ、みたいなフローになるだろう。

実際、それで誰も何も思わないかもしれない。ArialとHelveticaの違いを気にしない人たちが大多数なのと同じように、これは良くてこれは悪いという判断をする人はほとんどいないかもしれない。

そして実際、そのように使われることになるだろう。

すると、結局どうなるか。
最終的にPowerPointの資料は、誰が作っても等しくセンスがそこそこのもののように見えるはずである。

たとえば、「文字組み」というデザインの仕事がある。これは、文字を美しく見せるためには、等しい幅で打つだけでは十分ではなく、文字の形や色の密度によって人間の目の錯覚なども考慮しながら見やすい文字と文字の間隔を手で調整する作業のことだ。

日本語の場合、ほとんどの文字が正方形に近いのであまり意識されにくいが、欧文の文字は幅も高さも一文字ごとに異なるため、この文字組という仕事が非常に重要だった。

だからプロのデザイナーと話をすると、文字組をちゃんとしてないと怒られる。
美しくないのだ、と叱責され、文字組を直すだけで恐ろしく慎重に色々なパターンを試さなければならない。決まったセオリーはなく、文字と文字の間隔は当然として、時には文字そのものの形を変えることもしばしばだ。そして文字そのものを形作る線は、何度も何度も微調整される。

もちろんこの作業には膨大な時間がかかる。企業のロゴなどだと、数文字の文字組の調整だけで何ヶ月もかかることがある。神経を使う仕事なのだ。

そして実際、調整された文字組は美しいのである。ただ、その美しさがわかるかどうかというのは、見る側にきちんとした美意識がなければほとんど気にされることはない。

プロが印刷物にここまで拘っていたにもかかわらず、我々は文字組がまともにされてない文章を普段から目にしている。あなたの目の前にあるこの画面に映る文字だ。

もちろん最新のレンダリングエンジンが最低限の文字組はしている。けれども、ルールベースで自動化できる文字組には限界がある。画面上に数文字表示するのに何ヶ月もかけていられない。

それでも多くの人は違和感なくその文字を見る。文字組の美しさは忘れ去られ、文章の内容にもっぱら集中することになる。

これが良いとか悪いとか、そういうことを言いたいわけではない。

90年代の黎明期にあったWorld Wide Webは、Webページを公開しようと思ったら自分でHTMLを書くのが当たり前だった。CSSもJavaScriptもない時代である。

こうすると何が起きたのかというと、明らかに美しいページ(HTML)を書ける人と、そうでもない人、中には明らかに怪しいアングラサイトみたいなものをごく自然に作ってしまう人が、社会階層やその人の知識レベルとは全く無関係に出現した。

それでも、アングラサイトはやはりアングラサイトらしい雑な作りをしていたり、大企業のページは、やはり大企業然とした、文字組がちゃんとできないHTMLにおいての精一杯の抵抗を試みた痕跡の残るページになった。

おかしな内容のことを書いてる人かどうかは、だいたいページのデザインを見れば一目で分かった。
個人の美意識がHTMLに直接反映される時代だったのである。

Web以前の世界、パソコン通信の世界では、全てが文字だけだった。
おかしな人かどうかは、パッと見ただけでは判断できず、その人がどんな人なのかは詳しく話をしてみないことには全くわからなかった。

HTMLになって表現力が上がってしまい、むしろ文字の色はどうするとかタイトルの文字の大きさと本文の大きさのバランスはどうするとか、背景を単色にするか極彩色のアニメgifにするかといった、要は個人の「美意識」が必然的に現れてしまうようになった。

これに対して、掲示板のようなシステムだけは、個人の個性が埋没したままで居続けた。ここだけはパソコン通信と同じように、誰がどんな人なのか、じっくり話さなければわからないようになっていた。

ところがある時、匿名掲示板というものが流行り始めた。JBBS(後のしたらば掲示板)、2ちゃんねる、などである。他にも誰かが適当に立てた匿名掲示板のようなものは無数にあった。

こうなると、パソコン通信時代よりもむしろ人格の特定が難しくなった。つまり、どんな人間も、同じ文字で同じような言葉を使えるようになったことで、短い掲示板の書き込み文章だけから相手の知性を推し量ることが極めて難しくなってしまったのだ。

これは逆に今でいう炎上を引き起こしやすくなった。ごく少数の人間が大量に書き込むことで、あたかも大問題が発生しているかのように見せかけることができるようになったからだ。

掲示板の書き込みはあくまでも短文が基本だった。これは短い文章のやりとりだけをみてどちらの主張に正当性があるかということを第三者が推し量ることを極めて難しくしていた。

さらに、Web2.0以降のBlogブームが到来した時、問題はさらに複雑化した。
今度は、長文の、しかも同じ人が長い文脈を持って書いていることが明らかで、なおかつレイアウトはBlogシステムに組み込まれたテンプレートを使うので、一見してまともなことを言ってるように見えるが実は支離滅裂なことを言ってるようなページが爆増したのである。そしてそれはもはや人間が書いてさえもいなかった。自動生成されたスパムサイトが大量に公開され、サーチエンジンの検索結果を歪曲した。

ビジュアルに美意識が大きく影響するように、文体や文章にもそれぞれ著者の美学やセンスと言ったものが大きく反映される。

コンピュータ以前は、「読む価値がある」ことを意味するのは、汚い手書きの文字ではなくて、きちんと文字組された活字で文字組がなされているというビジュアル情報だった。

今はその文章に読む価値があるかどうかを第三者が担保しているという「視覚的手がかり」がほとんどない。
ほとんど唯一の手がかりが、「挿絵が立派」だったりしたのだが、それも今や著作権フリーの素材サイトのおかげであやしくなっている。

OpenAIのDALL-Eは、同じ問題をPowerPointのプレゼン資料においても引き起こすだろう。
「ちょうど良い写真」を探すのは一つのセンスの問題ではある。

だから、そのような状態になっても、センスの悪い人は使い方を思いつかないまま終わるし、センスの良い人は「良いフレーズ」を思いついて積極的に視覚化して使うだろう。

しかしそれを見分ける側は、非常に注意深く相手の真意や誠実さを確かめることに専らエネルギーを使わなくてはならなくなる。

「綺麗な資料があるから安心」という時代から、「綺麗な資料の矛盾や怪しいところを見つけ出せ」という時代になるはずだ。今もそうだって?そうかもしれない。

個人の美意識は、おそらくそうした「一見綺麗な資料の中に潜む悪意」を見抜くのに役立つだろう。
科学が進歩し、人間が労せずして綺麗な資料を作れるようになる喜びと同時に、それを悪用する人たちとどう戦うかという見識が必要になる。これは技術進歩の正当な副産物であり、いたちごっこではあるが逃れることはできない。

美意識は、このDALL-Eが実現する正の面と負の面の両方を補強する。
つまり、美意識が高ければ、DALL-Eの出力結果のうち、最も美しいものを選び取り、なおかつそれをより美しく配置し、活用することができる。反面、美意識が高いことで、美意識のない人が作った資料を感覚的に見抜くことができるようになるはずだ。

そういう時代の到来を、山口周は2017年に前掲書で指摘したのではないだろうか。