WirelessWire News Technology to implement the future

by Category

言葉から立体を生成するCLIPMesh

2022.09.23

Updated by Ryo Shimizu on September 23, 2022, 10:11 am JST

言葉から絵を描くAIが話題だ。
筆者も8月27日にMemeplexというWebサービスを始めたが、わずか一ヶ月で70万枚以上の画像が生成されるなど好評を博している。

しかし時代はもう「次」の展開へと進もうとしているようだ。

Text2Meshというタスクは、言葉(text)から立体物(mesh)を作り出すというもので、やはり「絵を描くAI」と同じくらい新しい分野だ。
中でも、SIGGRAPH ASIA2022で発表されたコンコルディア大学の「CLIPMESH」は、微分可能レンダラーを使うことで効率的にMeshを作り出すことに成功している。

CLIPは、OpenAIが開発した「言葉と画像の相関関係を測るAI」で、いまの「画像を作るAI」は全てCLIPの発展系をベースとしている。それを3Dモデリングで使うメッシュにも応用しようというわけだ。

Google Colabで手軽に試すこともできるので筆者も早速やってみた。

まずは、CLIPでは圧倒的な強さを誇る女優のEmma Watson。なぜEmma Watsonというミームが強いかといえば、彼女は子供のころから世界的話題作に10年以上連続で出演していることから、ネット上に膨大なデータがあるためと思われる。

ところがCLIPMeshで「Emma Watson」を作らせてみると、微妙な結果になった。

確かに「エマ・ワトソン」のようなものがでてきているものの、阿修羅像のようにそれぞれの方向に顔が出るという、まったく本人と似ても似つかないものになった。

これは、ネットにある「エマ・ワトソン」の画像の大半が顔写真であり、後ろ姿などがないことから、「エマ・ワトソンとは顔のこと」とAIが認識している可能性が高いためと思われる。これを解消するには、「エマ・ワトソンの後ろ姿」とか、「エマ・ワトソンの横顔」とかを学習させておく必要があるだろう。そもそもCLIP(と、それ由来のMidjourneyやStableDiffusionなど全般)は「後ろ姿」や「横顔」や、特定のポーズを出すのが弱いとされている。

それでは警察官はどうだろうと思って「police man」を描かせてみることにした。
なんとなく、特定の女優に比べて、警官はいろんな方向からの写真を学習してそうだと思ったのだ。

結果は、エマ・ワトソンよりはマシだが、やはり警官の帽子の正面にあるバッジが四方向に表示されるという奇妙なものになってしまった。

これは、このCLIPMESHのアルゴリズムが、球体からスタートして、回転操作を加えながら警察官のイメージから微分しているためと思われる。この時点でなんとなく気がついてきたのだが、CLIPMESHはおそらく回転体のようなものでないとうまく再現できないようだ。

そこで簡単な例としてエッフェル塔を描かせてみた。

エッフェル塔は、他のものよりは遥かにマシになっている。
しかし、このあたりがこのアルゴリズムの限界のようだ。

これはこのアルゴリズムがあまりにもCLIPに頼りすぎだという点に問題があると思う。
CLIPは、一般的に色々な写真を学習しているが、あくまでもネットに公開されている写真であり、人間が現実世界で目にする数多くの視覚情報と比較すると、ネットにアップロードされている視覚情報は圧倒的に少ない。

人間ならば普通に生きて生活しているだけで無意識のうちに見ているもの、把握している身体性が、AIにとっては完全に未知のものとなってしまう。
赤ん坊や子供はいつでも母親の背中を追い、横顔に手を振り、それが横なのか後ろなのか把握していくが、AIにとってネットに公開された画像情報はそんなに不親切ではない。見るべき構図、見せるべき意図に基づいて作られた「光画」であって、真実とは異なる。

エッフェル塔のような巨大な建造物や、ビールの入ったグラス、ハンバーガーなどは例外で、いろいろな角度から撮影され、そしてタグづけされたエッフェル塔の写真や、ハンバーガーの写真は大量にネットにあるはずだ。

反対に、現実世界に生きていれば人間の顔は正面、横、後ろ、からできているという当たり前の前提を知らないAIは、簡単に阿修羅像のように全ての面に顔を配置した化け物を作り出してしまう。

もちろんこうしたAIも、使い方次第、教え方次第でもっとマシになることは間違いない。
たとえばCLIPに頼らず、複数の方向から撮影した画像をもとにメッシュを再構成するなら、もっと簡単に効率的にできる。iPhoneなどに搭載されているLIDARのような特殊な撮影装置を用いなくても、今の技術ならかなり正確に画像だけからメッシュを再現することができるだろう。

CLIPMESHの面白さというのは、AIを安易に使うと容易に失敗することで、実は絵を描くことに関しては万能とも思えるAIに思わぬ隙があることを教えてくれる。

それはそれで、非常に面白い発見だと思うし、この分野もこれからまたどんどん発達していくだろう。
こういう失敗・・・というか蹉跌の繰り返しが、最終的にAIをどのように作っていったらいいか、育てていったらいいかという重要なインサイトを与えてくれるのである。

WirelessWire Weekly

おすすめ記事と編集部のお知らせをお送りします。(毎週月曜日配信)

登録はこちら

清水 亮(しみず・りょう)

新潟県長岡市生まれ。1990年代よりプログラマーとしてゲーム業界、モバイル業界などで数社の立ち上げに関わる。現在も現役のプログラマーとして日夜AI開発に情熱を捧げている。

RELATED TAG