世界的な画像処理の学会であるCVPR2022で発表される新しい手法「Thin-Plate Spline Motion Model for Image Animation」のソースコードが学会の開催に先立って発表されて注目を集めている。
https://github.com/yoyo-nb/thin-plate-spline-motion-model
このAIは、一つの動画と、一つの静止画の顔写真(肖像)を与えると、まるで生き生きと本人が話しているのかのような効果を作り出す。
また、顔だけでなく、体全体を使った動画も作成可能だ。
ZOOMをはじめとするテレビ会議が全盛となった昨今では、こうした技術の応用範囲はとてつもなく広いだろうと思われる。
しかし、この手の論文の危険なところは、当然、「一番いい感じの出力」だけを選んで掲載することにある。これを俗に「チェリーピック(果物狩り)」という。
ちゃんと熟れた食べ頃の果物(チェリー)だけを摘んで出す、というような意味だ。
なので、こういう一見するととても便利そうなものが出てきた時にはまず「それはどれくらい本当か」ということを知る必要がある。
それを知るためには、ソースコードが公開されているというのはとても説得力がある。
早速筆者も試してみた。
筆者が筆者自身の過去の写真と筆者の動画でどのくらい「若返る」ことができるかまず実験した。
左が、元になった肖像、真ん中が筆者の動画、右が、生成された動画である。
残念ながら子供の頃の筆者の顔で今の筆者のように喋るということは難しかった。
子供とは顔の作りが悪いのか、それともこの写真だけがまずいのかはわからないが、筆者が子供の頃にはデジカメがなかったのでそんなにたくさんの写真を持っていない。
もう少し歳をとった自分ではどうだろうか。
とあるテレビ番組にレギュラー出演していた時の自分の顔を使ってる。
本人なので、似てるのは当然だが、微妙に目線が違うのがむしろ気になる。
しかし、女性などで、一度自分のバッチリメイクした顔写真を撮っておいて、テレビ会議にはノーメイクで出席したい、などの用途に関してはこれで十分という気もする。
自分以外に適用した場合はどうだろうか。
たとえば歴史上の人物はどうか。
新一万円札の顔となる、渋沢栄一で試してみた。
意外とうまく行っているようにも見える。
では性別を変えたらどうだろうか。
言わずと知れたモナリザだが、あまり激しい動きになると破綻するが、モゴモゴしゃべっている感じはする。
感心したのは、元々の肖像には失われているような情報。たとえば目を閉じたり口を閉じたりしていても、生成された動画では、瞳が書き足されたり、歯が書き足されたりすることだ。
これはこのAIが、たくさんの顔動画を学習した結果、瞼を開ければ瞳があり、口をひらけば歯があり舌があるということを学習した結果だろう。
これまでにも似たようなことをするAIは数多く発表されてきたが、最近発表されたこの手法は従来よりも圧倒的に高速で手間がかからない。
リアルタイムでできるかはまだ試してないのでわからないが、適切なチューニングを行えば、それに限りなく近い形でできそうだ。
冒頭でも紹介したが、このAIは顔だけでなく体全体を使ったものにも適用できる。
この技術はどんなことに応用できるだろうか。
一つの可能性は、まず、この技術を使って一人で映画を撮影できる可能性だ。
顔のアップと全身で、一人で演技をして一人で何役もこなすなどのことが考えられる。
声の変換についても、ディープラーニングを利用したボイスチェンジャーは多数研究されており、直近だとMMVCなどがオープンソースで提供されている。
ただ、実際にこれだけで映画を撮ろうとすると、アングルなど演出面での制約が大きすぎるかもしれない。
他の使い道としては、画像認識用のデータを大量生産する、いわゆるデータ拡張(Data Augmentation)への応用だ。
このままでは厳しいが、肖像の背景をグリーンバックにするなどして、背景画像と適宜合成すればそれなりにデータを増やすことには貢献できるだろう。
最近の予測では、これから先、人間が作ったデータよりもAIなどの自動化装置によって作られたデータ量のほうがAIの学習により多く使われるようになることが予想される。
少しイメージは違うが、最初、以後の攻略をするDeepMindのAlphaGoは、人間の棋譜から学習していた。
しかし、人間の棋譜からだけ学習する方法では、強くなるまでにかなりの時間を要した。
ところが、人間の過去の棋譜を無視して、AI同士が勝手に打ち合うやり方で学習するように改良したAlphaGoZeroでは、AlphaGoよりも速く学習でき、しかも強くなった。
AlphaGoZeroは、三日でイ・セドル9段に勝利したAlphaGo Leeに勝利し、21日でさらに改良されたAlphaGo Masterに勝利し、わずか40日でそれまでに開発されたすべてのバージョンに勝利した。
つまり人間が生成したデータだけでは、AIが学ぶのに十分な分量がないということである。
それよりは、多少デタラメで遠回りのように見えても、AI自身が自己対局によってデータを生成する方がはるかに効率的だったということだ。
同じことは、画像認識や画像生成をはじめとするすべての分野に応用可能である。
最近は国内のAIベンチャーにも、データセントリックに注目する会社が増え始めてきた。
こうしたアプローチは、単にデータに着目するのではなく、いかに良質のデータを効率的に生成するかというアイデアによるところが大きい。
人間の創造性はむしろそういうところにおいて発揮されるのかもしれない。
おすすめ記事と編集部のお知らせをお送りします。(毎週月曜日配信)
登録はこちら新潟県長岡市生まれ。1990年代よりプログラマーとしてゲーム業界、モバイル業界などで数社の立ち上げに関わる。現在も現役のプログラマーとして日夜AI開発に情熱を捧げている。