意外と良くなってきてしまった動画生成と音楽生成。第二回AIアートグランプリはどうなる!?

2023.08.13

Updated by Ryo Shimizu on August 13, 2023, 11:41 am JST

ほんの一ヶ月前まで、動画生成は全然だめだった。
Gen2は高価だが狙ったものを出しにくい。何より動いてくれない。
ところがAnimateDiffという技術が公開された。これはとても激しく、それっぽく動く。

コツは必要だが、以前よりずっと綺麗に動いているのは間違いない。
筆者の運営するサイトMemeplexやreplicateで使うことができる

音楽生成も、「やはりAIに音楽みたいな人間の機微を読み取るようなものは無理か」と考えていた。
「専門家」である僕でさえ、つい一ヶ月ほど前はそうだったのだ。

新しいオーディオ生成モデルである「JEN-1」と「AudioLDM2」はその信仰さえ揺るがしてくる。

しかもただ音楽や音声を生成するのではなく、効果音なども生成してくれる。
AIに面白い物語をつくることは難しいだろうと前回(というか今月)書いたが、その考えも修正が必要かもしれない。
少なくとも「面白くする手前」くらいまではAIで物語が書けそうだ。

最近公開されたAI Bunchoは、日本語と日本語の小説(おもにライトノベル)を学習させたモデルで、これを使うと物語めいたものを簡単に生み出すことができる。

一体今、何が起きているのだろうか。
筆者はGPTをソースコードレベルで読み、一応の「原理」は理解したつもりである。
その原理は非常にシンプルで、特に複雑な計算をしているわけではない。強いて言えば、「大量の計算」をしているだけだ。

GPT4は古い技術の寄せ集めである、というリークというか指摘がされた。

「明らかになったAGPT-4の秘密 (AINOW)」によると、GPT4と呼ばれているものは、実際には8つ程度の専門知識を学習したGPT3級のモデルを組み合わせたMixture of Experts(MoE)という技術に過ぎず、しかもTransformerはもちろん、MoE自身もOpenAIが発明した技術でもなければ最先端のものでもない」と指摘されている。

もちろんGPT-4の全容は秘匿されているが、最近の小型言語モデルの隆盛(Llama2など)を見ると、またしてもOpenAIはわれわれを欺こうとしていたのだろうかと思えてくる。

OpenAIは過去に何度も、「危険すぎて公開できない」などの理由をつけて、自社のモデルを出し渋ってきた。ほとんどの読者は忘れているか知らないと思うが、GPT-2でさえ、OpenAIは「危険すぎて公開できない」と主張していたのだ。GPT-2は、今のオープンソースで動くモデルとなんらかわりない。AI BunchoもGPT-2ベースだ。これに一体どんな危険があったというのだろうか。

この手の「○○だから限られた人にだけしか公開できない」という馬鹿げた主張は、「隠さなければならない間の抜けた理由」があるケースが多い。
たとえばIBMのWatsonはかなり昔にWaiting Listに登録したのに未だに連絡が来ない。おそらく、Waiting Listというのは嘘だったのだろう。
その後予告なくWatsonは公開され、そのあまりの不完全さに愕然として本欄に記事を書いた。Watsonが「会話ボット」と主張するものは、カビの生えたAIMLエンジンに過ぎなかった。たぶん1992年の月刊ASCIIに掲載されていたawkによる人工無能のほうが、WatsonのAIMLより遥かにマシだっただろう。Watsonの「エンジン」はパターンマッチに正規表現さえ使えないのだ。

海外では「Watsonは詐欺」「Watsonはジョークですか?」という指摘をする記事もある。

OpenAIが長らくGPT-4の正体を秘匿している理由も、あまり立派なものであるとは考えにくい。
ただ、僕はだからといってGPT-4に価値がないとは思わない。むしろ、AIの到達点を示してくれたといえ、OpenAIはそれをすぐさま競争相手、とりわけオープンソースコミュニティに真似されたくなかったのだと考えられる。

GPT-4がとてつもなく巨大であるように見せることは、OpenAI、その筆頭株主であるMicrosoft、そしてGPUをできるだけ高く、できるだけ大量に売りつけたいNVIDIAという三つのステークホルダーにとって、非常に都合の良いことだ。

それが民生用のパソコンで動くかもしれないなどと知られたら、せっかく作り上げた「ブランド」が毀損してしまう。OpenAIが意図的に生み出した最大の「ハルシネーション(幻惑)」である。

その沈黙を破ったのは、皮肉にもヤン・ルカン率いるFAIR(Meta Fundamental AI Research)だった。
彼らはLlama2を公開し、Llama2は多くのベンチマークでGPT-3.5を上回った。
特筆すべきことは、Llama2の70Bモデルは、GPT-3.5に匹敵する性能であり、同時にNVIDIA製のGPUを搭載しない「ふつうの」コンピュータでも動くことだ、もちろんGPUがあった方が高速に動くが、CPUのみでも絶望的なほど遅いというわけでもない。

もしもGPT-4が8つのGPT-3.5の組み合わせという仮説を支持するならば、Llama2-70Bの動くパソコンを8つ組み合わせれば(もしくはMoE制御のためもうひとつ)、理論上はGPT-4が再現できてしまうことになる。そうなれば、それは真の民主化の始まりだ。スピードを気にしなければ、100万円程度で再現できるだろう。

GPT-4がハリボテの組み合わせになってしまったのは、ここ数年GPUのVRAM容量が変化しなかったからだと思う。
GPUを使う限り、VRAMは80GBが限界で、単体のモデルを置くには限界がある。

これをモデルのパーツごとに分散できればいいのだが、実際問題としてパーツごとに分散するのは難しいし効率が悪い。
SambaNovaのSDUを使えばこの限界は易々と突破できるがOpenAIはSambaNovaを導入していないようだ(少なくともまだ)。

NVIDIAのGPUは、そもそも「グラフィックス処理ユニット」であって、「AI処理ユニット」ではない。
だからVRAMを増やすというモチベーションがどうしても湧きにくいし、増やせば増やすほど天文学的に高価になる。
160GBのVRAMのGPUを作ることは可能だろうが、一枚あたり1000万円近くするGPUを欲しがる人は限定的だ。

半分の容量のNVIDIA H100ですら、生産が間に合わず納期が一年後だということを考えると、NVIDIAの希望とは裏腹にこの一年間は世界中の研究機関および研究者そして市民研究者たちが、「NVIDIAのGPUを使わずに済む良い方法」を考えることになる。それしか性能を上げる方法がないのだから。

先日、Llama2のマルチモーダルで作られた、「画像から物語を作るAI」を見て確信した。
今何かが始まろうとしていて、それがなんであるのかは始まってみないとわからないということだ。

それがどんなものであるにせよ、それはたぶん僕らの想像力を加速し、より面白い世界を作り出すことに貢献するものになるだろう。

そんななか、第二回AIアートグランプリの開催が発表された。応募開始は8/31だ。
前回の応募締め切りは1月末だったから、当時は動画も音楽も生成できるAIは存在していなかった。
AIの世界で半年前は原始時代である。

創造性が爆発し、人間にしかできないと思われてきた何かを越えようとしている。
最高のAIが誰の手にも使えるようになった。

最高のAIを伴走者とした人間は、いったいどんな作品を作り出せるのだろうか。
全く予想がつかず、今回も開催が楽しみだ。

おすすめ記事と編集部のお知らせをお送りします。（毎週月曜日配信）

登録はこちら

清水亮（しみず・りょう）

新潟県長岡市生まれ。1990年代よりプログラマーとしてゲーム業界、モバイル業界などで数社の立ち上げに関わる。現在も現役のプログラマーとして日夜AI開発に情熱を捧げている。

あなたの会社にCDOはいますか？生成AIを活用するのであれば不可欠な役職

業界に特化することで専門用語や独特の言い回しに対応、NTTコムがAIで翻訳

OpenAI GymでAIと子どもたちがともに遊ぶ日が来た

[PR]ゲストハウスやシェアハウスより「住み開き」。限界集落にある「ギルドハウス十日町」に、3年間で6700人が集まった理由

PREVIOUS
NEWS

Virgin Media O2 Business、英国初のポータブルなプライベート5Gサービス

自然知能を社会実装する：チューリングの功罪から、意思決定する物理「綱引き原理」へ

NEXT
NEWS