深層学習を根底から覆すカプセルネットワークの衝撃

original image: © wernerimages - Fotolia.com

深層学習を根底から覆すカプセルネットワークの衝撃

2018.03.21

Updated by Ryo Shimizu on March 21, 2018, 12:24 pm JST

現在の深層学習ブームのきっかけを作ったのが、トロント大学のジェフリー・ヒントン教授であることには誰も疑問を抱かないでしょう。

ヒントン教授らのグループはそれまで目覚ましい成果がなかなか出なかった画像認識という分野に深層畳み込みニューラルネットワークという新しいアイデアで取り込み、目覚ましい成果を挙げたことで、Googleはヒントン教授の設立した企業DNNresearchを買収し、今のディープラーニングブーム旋風が世に巻き起こりました。

だいたい、この手のニューテクノロジーブームというのは、2、3年で落ち着くのが常です。

しかし、稀にブームで終わらずに本物のイノベーションになる技術があります。

たとえばモバイル・インターネット、リアルタイム3Dコンピュータグラフィックス、スマートフォンなどです。

スマートフォンの場合、なにもiPhoneが最初ではありませんでした。iPhoneのプロトタイプのようなものが1990年代後半からいくつも登場しては消えていったのです。

人工知能分野のなかでも、特にニューラルネットワークはスマートフォンと似ています。過去に何度も注目を集め、ブームになりながら、いまひとつ定着できずイノベーションに昇華できなかったもののひとつです。

筆者自身も、30年ほど前に小学生だった頃からニューラルネットワークに注目し、自分自身でも実装し、そして何度もその期待を裏切られる、ということを繰り返してきました。

それでも昨今のディープラーニングの到来を見て、三度ニューラルネットワークに挑戦してみると、これまで「できると期待しては裏切られ続けてきたこと」が、まるでオセロの大逆転劇のように次々と「できるという期待に応える」事象を経験することになりました。

言ってみれば、中世の錬金術師たちが鉛を金に変えようと四苦八苦していたのに、同じ時代のうちに鉛を金に変えてしまう方法を見つけてしまうくらいの衝撃です(ちなみに未だに鉛を金に変えることは難しいそうです)。

これだけ見ても、カーツワイルの言う、「収穫加速の法則」は身をもって実感できる気がします。

しかもわずか5年前には、Googleが1000台のコンピュータを並列化してネコを発見しようとしていたような壮大な実験が、家庭のリビングにあるちっぽけなコンピュータでできてしまうのです。

この進化の激しさは日進月歩、なんていう生易しいものではありません。

そうして深層学習は本当のイノベーションを起こしつつあるのですが、しかし今のところ、深層学習そのものによってなにかが劇的に変化した、という例はまだ少ないのです。

キュウリの等級が自動的に見分けられるようになった、とか、工場の異常検知ができるようになった、とか、マーケティングに新たな知見が得られるようになった、という例は聞くものの、自動運転とかAmazonの半無人店舗では、深層学習の恩恵はほとんど使われていません。

根本的に生活が一変するような変化というのはものすごく穏やかに、少しずつ起きるものです。実際、筆者の会社ではそうした仕事の具体的な変化を目の当たりにしているのですが、そうした変化・進化は普通の人が想像するよりもずっと地味なところから変わっていくものなのです。

ブームに乗じて、それほど性能が高くない人工知能を売る人というのも随分増えました。人工知能という言葉はとても便利なので、「ちょっと知能っぽい」要素が入っているものはなんでも人工知能と名付けられて売られているという嘆かわしい現状があります。ただ、そういう人たちは実際的な成果が出せないので、もうしばらくすると淘汰されていくはずです。

筆者は職業柄、深層学習がブームからイノベーションへと変貌していくプロセスの渦中にあることを日々実感しているわけですが、その中にあって、当のディープラーニング・ブームの火付け役であるヒントン先生が、爆弾発言ともとれる論文を発表したのが昨年の秋です。

ヒントン先生の考案した畳み込みニューラルネットワークは、従来手法に比べて15%以上の性能を叩き出し、一気にその実力を見せつけました。

畳み込みニューラルネットワークには、畳込みレイヤーとプーリングレイヤーの組合せで成り立っています。

しかし昨秋の発表でヒントン先生はこう述べています。

「プーリングが上手く行ってしまったのは災害(disaster)である」

かなり強い否定の口調です。
筆者も、あちこちの講義で畳み込みレイヤーとプーリングレイヤーについて説明してきたので、いきなり梯子を外された気分になりました。しかし、よくよく主張を読んでみれば、それはもっともな話なのです。

プーリングというのは、普通の人にわかりやすく説明するとすれば、「集計」です。だいたい、最大値を見つけるか平均値を見つけるかという操作がプーリングになります。

畳み込みレイヤーで画像の中の小さな「特徴」を捉えたら、プーリングレイヤーではその特徴量を集計して判断します。たとえばひとつの画像の中に「目の特徴」と「口の特徴」と「鼻の特徴」があったら、おそらくその画像は顔である、というふうに解釈するのです。

しかし、このやり方では、それぞれの顔のパーツがあることはわかっても、福笑いのように、目と鼻の位置関係や鼻と口の位置関係が無視されることになってしまいます。

スクリーンショット 2018-03-21 12.11.46

プーリングを用いると、図のような絵は、二つとも「顔」と解釈されてしまうのです。

こういう問題があることに、ヒントン先生自身は十年以上前から気づいていたそうです。ですがプーリングが上手く行ってしまうがために、なかなかこれを覆すのは難しいと思われました。

この話の凄いところは、こんなに目立った欠陥があるにも関わらず、畳込みニューラルネットワークによる深層学習はかなりいい線まで迫ってるということです。特に画像分類タスクでは、人間よりも高い点数をとれると言われています。

しかし、仮に画像分類タスクであっても、意図的に位置関係をデタラメにした場合、人間と同じスコアを出すことは難しいかもしれません。

これを解決するのが、ヒントン先生が新たに発表したカプセルネットワークなのです。

カプセルネットワークは、そもそもニューラルネットワークの根本を変えてしまいます。

これまで、人工ニューロンは、複数の刺激を入力すると単一の刺激を無制限に出力するだけのかなり単純なモデルとして使われてきました。

ところがカプセルネットワークでは、この人工ニューロンのかわりに「カプセル」というものを用います。

カプセルは、人工ニューロンに似ていますが、ベクトルを受け取って、選択的に次のレイヤー(層)へ情報を渡します。

それ以前の世界では、ニューロンの情報というのは無条件に次のレイヤーに渡されていたのですが、カプセルネットワークの場合、動的ルーティングという手法を使って、「このカプセルの情報は次のレイヤーのどのカプセルに受け渡すべきか」ということを決めます。決めます、といっても実際には内積計算のパラメータが0になるだけなので完全にひとつに決めるわけではないですが、ここが肝心なところです。

こうすると、カプセルネットワークは回転する画像さえも正確に認識できるようになると言われています。

それまでの畳込みニューラルネットワークでは絶望的に難しかったことが、すごくシンプルなアイデアで実現してしまったのです。

もちろんこのシンプルなアイデアを考えるのに物凄い労力と時間を要しました。

普通に考えると、深層学習のブームは畳込みニューラルネットワークの限界が見えたところで一度落ち着いても良かったはずなのですが、カプセルネットワークの登場により、さらに深層学習についてもう一段か二段、深い考察が可能になりました。

特に素晴らしいのは、カプセルネットワークがごく自然に、誤解を恐れずにいえば「本能的に」階層構造を表現し、学習できるようになったことです。

もともと階層構造を学習するための仕組みとしてカプセルネットワークが考えられたので当然といえば当然なのですが、これだけで深層学習に対する旧来の人工知能研究者たちの批判の最大のもののひとつ「階層構造が把握できない」という問題を解決してしまう可能性があります。

とはいえ、まだカプセルネットワークは発表されたばかりで、現時点で発表されている論文も15本程度しかありません。

カプセルネットワークには本当に未来があるのか、それを世界中の研究者たちが確かめようとしているところです。

もし本当に未来があるとすれば、これはとんでもないことになります。

なぜなら、根本的に「位置がデタラメでも意味が同じ」という欠陥を持った畳込みニューラルネットワークでさえ、人間に囲碁で勝ってしまったわけです。囲碁は比較的パターンの繰り返しが多いので畳み込み向きかもしれませんが、それだけでは同じアルゴリズムで将棋とチェスの最強アルゴリズムに勝ってしまったことを説明できません。

ある技術ブームの最中に再び根本的な問いかけ、いわば「ちゃぶ台返し」に出会えるというのは、なかなかないことです。

筆者の経営する会社では、早速カプセルネットワークの実用化に向けた研究を始めています。

従来に比べて格段に少ない学習データ量でかなりの精度が出たり、たしかにカプセルネットワークには一定の効果があることがすぐに確かめられます。

私達は本当に面白い時代、幸運な時代に生きているなと思います。