WirelessWire News Philosophy of Safety and Security

by Category

DALL-E miniと薄目で見て想像で補完するAI

2022.02.13

Updated by Ryo Shimizu on February 13, 2022, 09:40 am JST

DALL-Eは、一年前、2021年1月にOpenAIが発表した「言葉通りに絵を描くAI」の名前だが、いつまで経ってもその詳細が公開されないため、世界中でクローンが生まれた。DALL-Eによって「できる」と確認された事象を世界中のAI研究者たちが追実験をしている格好だ。このOpenAIの戦略が正しいのかどうかよくわからない。しかし、「できるかもしれない」という事実は、世界中の研究者たちを奮い立たせるには十分な動機付けだったと言える。

さまざまな研究者たちが知恵を出し合い、いくつものDALL-Eクローンが試された。
また、その過程で、計算規模を1/10に縮小できる新技術、DeepSpeedなどが開発され、実用され、一台のコンピュータでは数万年かかる計算をまる二日に短縮するなどの成果を出している(その代わりお金はかかる)。

そんな中、数ヶ月前に公開されたDALL-E miniは、大規模な計算機で学習しなければならないDALL-Eを縮小して学習できるようにした興味深い実装だ。

miniと言っても、その実力はなかなかで、誰でもWeb上で試すことができる

ところがminiであるが故に制限もある。
ちょっとノイズが乗りがちなのだ。

そこで筆者も手元のローカル環境で動かそうと思ったら、動かない。
開発者によれば、日々アップデートしているため、時折不整合が出ているのだという。

こういう時に、githubの便利なのは開発者に直接質問して助けてもらえるところだ。
エラーメッセージを投稿したところ、「それはあのモジュールのバージョンが低いのではないか」と指摘され、アップデートをかけたところ、無事に動作した。
どこの国に住んでいるどんな人なのかもわからない開発者と生の交流ができるところがgithubというコミュニティの魅力である。

さて、実際に動作したDALL-E miniに、「Smiling woman」という言葉を与えてみた。
これは、OpenAIが公開した画像生成AIでは人間に関係する言葉が全部動物に置き換えられてしまうから、DALL-E miniが実際にどのような学習過程を経ているか確認するためである。

すると、次のような画像が生成された。

確かに、「笑顔の女性」ではあるが、どうも抽象画の息を出ていないような気がする。
これでは既存のアルゴリズムと比べて見劣りしてしまうので、なんとかこれのリアリティを上げる方法はないか考えた。

DALL-E miniでは、256x256ピクセルの画像が自動的に生成される。一つを取り出してもう少しよくみてみよう。

全体的にぼやっとしているというか、細かいノイズも見える。
これはDALL-Eの学習自体がVQGANという画像を細かいパッチの集合体として学習するために生まれる人工的な不自然さ(アーティファクト)である。

そこで筆者は、一旦、256x256の画像を1/4の64x64まで縮小し、それを4倍の超解像にかけることによってディティールの解像度があげられないか考えた。
この超解像にはRealESRGANという手法を用いる。

一回64x64に縮小し、さらに4倍の超解像を行なって元に戻したのが下図である。

明らかに元の絵よりもディティールの解像度が上がったのがお分かりいただけるだろうか。
この効果はどうして発生するのかというと、ディティールを潰したものをAIが想像で再構成する場合、人間が目を細めて対象物を見て、頭の中で補完するのと同じ効果があるのだ。

つまり、情報は一度捨てることで補完させると、「いい感じに再生」してくれるという性質があるのである。
DALL-E miniは、絵の全体的な構図を決めるのには適しているが、ディティールの再現は苦手だ。

そこで絵の全体的な構図(いわば戦略的視点からの作画)と、絵のディティール的な部分(いわば戦術的な視点からの作画)をそれぞれ別々のAIに担当させることで、解像度をあげることができるのだ。

さらに筆者は、同様の操作を何回か繰り返した結果、より良い画像が得られることがわかった。

こうすることで、本来DALL-E miniが描ききれなかった部分まで表現できるようになる。
おそらく同様のことは、超解像を担当するRealESRGANに学習させる画像を変えるだけで可能だろう。

たとえば、日本人の写真ばかり学習させれば日本人っぽく再現され、アニメだけ学習させればアニメっぽく再生されるはずである。

実際、同様の処理を他の生成画像に対して行った例を以下に示す。

見てわかるように、単に生成された画像よりも説得力が増している。
もちろん、左右の目が揃ってないなど細かな問題はあるが、全体としてはグッと写実的になっているのである。

この、「欠落した情報をそれっぽく埋める」というのも、最近のAI研究で盛んに話題になっているテーマで、他のものとうまく組み合わせると興味深い効果を生むのだ。

また、何より超解像は非常に動作が軽いのも特徴で、絵の生成にかかる時間よりも遥かに短くて済む。
絵の生成自体のディティールをあげようとすれば非常に学習も推論も難しくなるが、絵の生成をほどほどにして超解像で補完するようにすれば圧倒的に時間を短縮できる。

逆に考えれば、元のDALL-Eが120億パラメータという超巨大なニューラルネットであるのに対し、DALL-E miniはわずか4億パラメータしかない。このおかげで、単一のTPU v3で三日間というかなり小規模な構成で学習ができている。Google Cloudの利用料金にして10万円程度でこれほどの学習ができるわけだ。

規模が小さいということは、高速であるということでもある。
実際、DALL-E miniの推論速度はものすごく速い。その代わり、エラーも多い。つまり、「どう考えても与えた言葉と全く関係ないナンセンスな画像」も生成されてしまう。そこで、生成された画像をCLIPという文章と画像の相関関係を計算するAIを使って優先順位をつけるのである。

今回の実験でも多数の「コレジャナイ」画像が生成された。どれも「笑顔の女性」というテーマとはかけ離れており、しかしなんとなく「気持ちは感じる」という失敗作たちだ。

一年と待たずに同じようなことが1/27のニューラルネットでできるようになった。
人類は一度無知の状態を抜け出せば、後の進歩は速い。特にここ半世紀は、インターネットの力によってそれが加速している。

そう実感する日々である。

WirelessWire Weekly

おすすめ記事と編集部のお知らせをお送りします。(毎週月曜日配信)

登録はこちら

清水 亮(しみず・りょう)

新潟県長岡市生まれ。1990年代よりプログラマーとしてゲーム業界、モバイル業界などで数社の立ち上げに関わる。現在も現役のプログラマーとして日夜AI開発に情熱を捧げている。

RELATED TAG