生成AIが「民主化」されたと言えるのは、昨年8月24日のStableDiffusionの公開を起点として良いだろう。
StableDiffusionは破格の性能のAIを、誰でも買える程度のコンピューティングパワーのコンピュータで、自由に改造して使うことができると言う意味で、真の民主化を達成した。
それから一年が経過して、昨年末にはChatGPTが注目を集め、現在では単に「AI」と言えば生成AIを指すようになった。
生成AIであるかそうでないかの違いは、その構造というよりも扱う情報量の違いでしかない。
AIが扱うデータは全て行列の集合の集合(またはその集合)、これをテンソルと呼ぶが、あるテンソルを入力したときに別のテンソルに変換するというものでしかない。
かつて「分類」と呼ばれていたタスクでは、出力されるテンソルのデータのパターン数(専門的には次元数と呼ぶ)がせいぜい10種類だった。
「分類」タスクの最も単純な例は、たとえばローンの審査などで、入力された情報からその人にローンを「貸し付けて良いか」「悪いか」を判定するようなもので、この場合は2種類の分類問題となる。
他に有名な分類問題は郵便番号の自動読み取りで、その場合は四角形の中に手書きで書かれた数字を0から9のどれか、つまり10種類の中からどれに一番近いかを「分類」すれば良い。
この分類タスクは20世紀から実現されており、大いに活躍した。
より難しいとされていたのは、与えられた写真などのデータ(テンソル)を、犬や猫、人や自動車などといった1000種類のうちのどれに一番近いかを推定するタスクで、これは「認識」と呼ばれたが、その実、分類タスクの出力が1000種類になっただけである。
これはずいぶん難しい問題で、入力されるデータが、手書き数字の時はせいぜい28x28=784次元だったのに対し、画像認識の場合は256x256x3=約19万次元とべらぼうに大きくなった。
だから原理は手書き数字分類と全く同じようなものでも、計算を高速化するためにハードウェアの進歩を待つ必要があったし、メモリが増えるまで待つ必要があった。
これが劇的に解決されるようになったのがゼロ年代後半頃で、学術界で広く知られるようになったのが2012年の年末である。
それまでとは一線を画す性能に世間は夢中になり、それを「ディープラーニング」と読んだが、その実、やっていることは手書き数字分類をより大規模にし、学習上の工夫を加えたというのが実態だった。
さて、それよりも難しい生成タスクとは何か。
実は生成タスクで扱うデータのパターン数、つまり入力次元数はべらぼうに大きい。
言葉から画像を生成するAIの場合、入力される言葉が、たとえば5万種類の単語を最大100個組み合わせるとすると、500万次元必要になる。これを画像として、StableDiffusionの最初期のバージョンであれば約785万次元という認識タスクとは比べ物にならないほどの情報量を扱う必要がある。
さらにGPTシリーズのように、最大4096単語(厳密にはトークン数だがここでは話を単純化するため単語と呼ぶことにする)を扱おうとすると、仮に5万種類の単語を使うとして5万×4096=約2億次元の入力から、同様に2億次元の出力をすることになる。計算の規模が桁違いに大きくなることは想像できると思う。
それまでの認識するAIと分類するAIの延長上にありながらも、生成AIが一線を画すのはやはりその計算規模の大きさなのである。
昨年はスーパーコンピュータが必須だった大規模言語モデル(LLM;Large Language Model)も、最近はMacだけで動くとか、小さくても高性能とかいう方向に進化している。
GPT3は1350億パラメータという膨大な計算規模を持つが、同等の性能は無償で商用利用可能なLLMであるLlama2の700億パラメータでも出せると言われていたり、単純な会話タスクなら、マイクロソフトが開発したPhi-1.5という、1億5千万パラメータモデルもこなせると言われている。この分野は民主化が始まったばかりで、まだ暗中模索の状態だが、毎日のように新しいニュースが飛び交っている。
しかし、ようやく生成AIが「民主化」されてきたことによって、明らかな変化が生まれていることに最近気づいた。
なぜ気づくのがこんなに遅れたのかと言うと、あまりにも日々のAIニュースを追いかけるのに夢中になっていたため、木を見て森を見ず、という状態になっていたことだ。
たとえば、noteのようなサービスでは、アイキャッチ画像が明らかに増えた。
一年前、noteの一覧画面では、文字だけの投稿も少なくなかった。
ところが生成AIがブームになったことにより、誰でも手軽にアイキャッチ画像を作れるようになった。
意外と、アイキャッチ画像が入っているかどうかはPVにダイレクトに影響する。
この記事もアイキャッチ画像を入れた方がいいのかもしれないが、この媒体の場合は編集部であとで勝手にアイキャッチを入れてくれるので放置している。
かつては、アイキャッチ画像をしかも合法的に用意するために、あちこちで意味があってもなくても写真を撮りまくっていた。
そして意味がなくても写真をアイキャッチとして貼り付けていた。
ところが生成AI以後は、アイキャッチをAIが生成できるため、意味のないアイキャッチ画像は激減した。
そこに何らかの意味を持たせることが簡単になった。まあ気に入ったものを作るのはまだまあまあ難しいんだけれども。
指示を考えるのが面倒なのでここまでの原稿からこの原稿のアイキャッチ画像を生成するプロンプトをChatGPT(GPT-4)に生成させてみる。ただし、GPTシリーズは、2021年9月までの情報しか学習していないので、「StableDiffusion」のプロンプトに関しては無知である。そこで、人間のイラストレーターに対する発注という形で指示した。
こういう指示を出すと
こう返ってきた。
これでは足りないのでもう一度詳しく指示を出す。
英語で書かせたのは、英語の方がトークン数を節約できるからである。
その結果、出てきた画像は以下のようなものだった(Memeplexブーストモードを使用)
まあ全く無関係とも思えず、わりといいセン行っているのではないかと思った。
プロンプトはStableDiffusionに出すには複雑すぎる気がしたが、それは所詮人間の浅知恵なのかもしれない。
人類は有史以前は歩き方や振る舞いの良し悪しで知性を測られてきて、文字が発明されてからは文字を綺麗に書くことが重要視されていた。なぜなら、綺麗な文字を書けないと誰にも読めなくなってしまうからであり、文字本来の役割を果たせなくなってしまうからだ。
電子立国日本の自叙伝なんかを見ると、タイプライターが普及せず、ワープロが発明される前の高度経済成長期の日本のエリートは全員字が綺麗だ。
学会論文や会社の情報などは全て文字にしたためられ、しかも文字だけでやりとりするものだから、綺麗な楷書体の文字を書けることがエリートの必須条件と言われていたのである。
活字の発明は中でもインパクトがあり、活字は綺麗である上に、大量に印刷できた。そのかわりコストが高かった。従って、この時代は、活字で文章をしたためることができる人間が特別に知性が高いとみなされたのである。欧米圏でのマスメディアやライターといった人々に対するリスペクトの根源は、「活字で表現できるほどの知性を誰かに認められた」という非情報が暗黙的に付与されている。
しかし、ワープロが普及し、人々が書かれた文字よりも打たれた文字の方をより多く書き、目にするようになると、文字だけをみて知性の高低を測ることが難しくなった。
今、本当の意味の「活字(movable type)」で印刷される印刷物は非常に少ない。コストがかかるからだ。それにくらべるとレーザープリンタは格安だし、画面に表示するだけで良いのならもっと安い。
「綺麗な字」のコストが急激に下がると、「綺麗な字」で書かれているからと言って、書いた人の知性を保証するものではなくなってしまった。これがインターネット以降に起きた、権威の表面的な失墜に見える現象である。
たとえば今は東大で教鞭をとっている茂木健一郎さんは、Twitterで炎上しがちである。しかし一度でも彼の授業を受ければ、彼が並々ならぬ知性の持ち主だと誰にでもわかる。Twitterで炎上する茂木健一郎さんと、東大の教壇に立つ茂木健一郎さんは全く同じ人間であるのだが、一緒にならんだ断片的な情報は、その裏側にあるコンテキストを覆ってしまい、そこにどれだけの深謀遠慮があるのか、またはないのか、わからなくなってしまう。
東大の教室で茂木先生が授業しているところに、Twitterで投げつけられているような言葉を学生が投げつけたら、その学生のほうが顰蹙を買うだろうし炎上するのはむしろ学生の方のはずだが、Twitter(X)という「フラット化」した空間においては茂木先生の権威は存在しないのと同じことになる。
人類は活字、それからコンピュータの登場で「綺麗な文字を書く」ことに時間を費やす必要がなくなった。なぜ昔のエリートの字が綺麗だったのか。時間をかけて丁寧に書いていたからだ。
しかしその時間は、率直にいえば無駄な時間である。キーボードで打つ方が早く情報を伝達できるならば、わざわざ時間をかけて綺麗な字を書くメリットがないのだ。
ワールドワイドウェブが普及する過程では、たとえばHTMLの書き方とか、配色とか使われている画像とかの「センス」で、その人がどのくらいの教養をもっているのか推し図るということを無意識のうちにやっていた。
しかしそれも、ブログが普及すると判別不能になった。ブログは誰にでも整ったいい感じのテンプレートを提供する。
それでも使われている言葉や内容や改行の数や写真などで、その人がどの程度の教養やバックグラウンドを持つ人なのか無意識に推測できた。
ところが生成AI以降の世界では、文章そのものもAIが添削または生成し、画像そのものもAIが生成する。
そうすることによっていよいよもって「この"人"の知性が高いのか、それともほとんど全部AIが生成したのか」判断するのが難しくなる。これは活字の発明くらい、人類社会を混乱させる可能性がある。
メディアはつねに反転する。
いま、AI、特に生成AIという第四世代AI(と敢えて呼ぶことにしよう。パーセプトロン、バックプロパゲーション、ディープラーニングに続く生成世代といった意味合いである)以降の世界では、一度フラット化してしまったネット上の言論空間が反転し、個人に回帰し、個人または個人の集団が権威を再び回復していくことになる。アカデメイアという存在の前にソクラテスとプラトンがいて、慶應義塾という存在の前に福沢諭吉がいた。つまりこれが個人から派生する権威と、権威が集団化して拡大・持続化する流れだ。メディアは常に反転を繰り返す。今まさにその瞬間に我々は立ち会っているのだ。
テキストよりも肉声が、肉声よりも動画が、動画よりも生配信が、生配信よりもリアルイベントが、力を持つようになっていく。
実際、徹底的なフラット化を推進したYouTubeでのコンテンツ配信がどんどん困難になっているのは、フラット化というソーシャルメディアの流れが限界に達していることを示唆していると思う。
たとえばTwitterが買収されることもそうだし、Facebookに出鱈目な広告が野放しにされていることもそうだし、YouTubeに至っては、広告配信する業者であるはずのYouTubeが、ユーザーが広告を消すためのサブスクを売り込んでいる。これではどっちの味方なのかわからない。
ソーシャルメディアはどれも同様の問題を抱えていて、つまりユーザーを集めなければ商売にならないが、一度集めたユーザーに対して広告を見せるというのは、ある意味でユーザーの不利益を生み出すような行為となる。ユーザーはビジネスモデル上許容しなければならないスティグマとして広告を受け入れるが、広告主にとっては同じユーザーに同じものを見せ続ける広告は充分な効果が得られず、結局どんどん邪魔なところに広告を出し、ユーザーの不利益を誘発しようという圧力が高まる。この不利益を払拭するため、ある日ソーシャルメディアは広告を見ずに済むというオプションを有料販売する。すると広告主にとっては本来それは裏切り行為に他ならない。結果、判断力の低いユーザーを欺くニセ広告、詐欺広告が蔓延することになる。テレビの腐敗が叫ばれて久しいが、テレビCMはそう簡単に出せやしないように考査という審査基準が厳しく決められ、厳密に運用されている。ソーシャルメディアはコウモリのように、時にユーザーの方をむいているフリをしながら、広告主にも売り込みに余念がない。自己矛盾に陥っているのだ。
・・・という話を、たぶん広告料で成立している媒体でしていいのかわからないが、要はバランスなのである。わざと間違ってクリックをしてしまうようなところに広告を出したりするのはいくらなんでもやりすぎだと個人的には思う。
広告はそもそもなんのためにあるのか。なぜやるのか。突き詰めればそういうことになる。
いまは媒体を慎重に選ばないと、広告を出すことで逆にエンドユーザーからそっぽを向かれるということも充分あり得る。
広告宣伝という概念が急速に進歩したのは20世紀からだから、広告の歴史は非常に浅い。それ以前の人々はもっと別の手段でもって営業先を獲得していた。
メディアが変化すれば、モノの売り方、人々の生活のあり方も自然と変化する。
これから人々はどんなものをどんなふうに買うのか。それを考えるのはとてつもなく面白い。
おすすめ記事と編集部のお知らせをお送りします。(毎週月曜日配信)
登録はこちら新潟県長岡市生まれ。1990年代よりプログラマーとしてゲーム業界、モバイル業界などで数社の立ち上げに関わる。現在も現役のプログラマーとして日夜AI開発に情熱を捧げている。