当方に迎撃の用意あり！　人工知能戦争を戦う若き日本人たち

Apocalypse Zero. We've ready to action to counter Artificial Intelligence war.

2016.06.13

Updated by Ryo Shimizu on June 13, 2016, 08:49 am JST

　去る6月12日、NPO法人の全脳アーキテクチャイニシアチブ(以下、WBAI)は、人間の大脳新皮質を模した記憶形式であるDeep Pred Networkに関して、「緊急ハッカソン」と題したイベントを東銀座の株式会社ドワンゴ、セミナールームで開催しました。

スクリーンショット 2016-06-13 8.10.07

　WBAIの告知ページによると、ハッカソン開催が告知されたのはわずか三日前。しかし三日前の時点で既に70名以上の参加者が参加を表明しました。日曜日にも関わらず、当日の会場は満席で、この分野への注目度の高さが非常に高い事を実感させられました。

　WBAI主催者であり、ドワンゴ人工知能研究所所長でもある山川宏氏によると、今回の勉強会の対象になっているDeep Pred Networkとは、大脳新皮質における一つの大きな理論仮説「Predictive Coding」に由来していて、次のような特徴を持っているそうです。

階層性に対応している
分散処理システムに適した時間構造をもっている→大規模化に繋がる
教師なし学習ベースで段階的に構築可能である
脳に似た各層内の密な結合により時間予測（Predictive Cordingの立場）
トップダウン信号が組み込まれている

　そして、期待される効果としては次のようなものです。

近年のANNにおいて定番のConvolutionとLSTMををベースにしている
未学習の段階でもDeep PredNetはある程度の性能が得られる
論文中の予測タスクの評価では，学習済みのDeep PredNetはLadder Netを超えている
モジュール間の通信量を削減できる可能性がある：ボトムアップのエラー信号／トップダウンは予測信号は変化が無ければ送信する必要がない．

　実は、深層学習の研究者にも、２つの派閥があります。
　ひとつは、そもそも人工ニューラルネットワーク(ANN;Artificial Neural Network)は、生物の神経細胞を模したものなのだから、ANNを高度化する際には実際の生物、そのなかでも最も高等生物と考えられている人間の大脳の構造や働きを鑑みてその再現からアプローチすべきだというWBAIのような派閥と、生物とか関係なしにとりあえずできる方法を考えてみよう、という派閥の二種類です。

後者の代表的な例が畳み込みニューラルネットワークによる一般画像認識であり、実際の生物の脳の再現を考えている組織はまだまだ少数派です。というのも、ゴールがあまりにも遠いからです。

　今回の「超緊急ハッカソン」は、そんな中でも最先端の理論であるDeep Pred Networkを実装、つまり実際にプログラミングするために集まった若者たちの集いなのです。

　実際にDeep Pred Networkがどんなことをできるか、論文から図を抜粋するとこんな感じになります。

スクリーンショット 2016-06-13 8.23.04

　Deep Pred Networkは、主に動画を前提とした予測(Prediction)を行うネットワークです。
　図でActualと書かれた行は、入力したデータで、Predictedと書かれた行はそれを見てDeep Pred Networkが予測したイメージを映像化したものです。横は時間軸で、右に行くほど時間が経過しています。

　ここでは、顔画像の3Dモデルを回転させながら入力しています。

　面白いのは、左上、最初の顔画像の入力に対して、Deep Pred Networkは、二行目の左から二番目のようなたまご型のイメージを「推測(Predict)」します。

　この時点では顔だともなんともわかっていないという感じです。

　次のコマを見てみると、顎らしきものと鼻らしきものが認識されています。さらに次のコマでは目が認識されています。そして次のコマでは口と眉らしきもの、さらに進むと耳の形をしっかりとイメージするようになります。

　奇しくも、これは我々人間が突然動くものを見た時に感じる認識と近いのではないでしょうか。最初は回転する卵のようなものが見えて、次に「あ、鼻がある、目がある・・・あ、口と眉が・・ああ、耳もあるね」と段階的に認識するわけです。

　これが何の役に立つかというと

スクリーンショット 2016-06-13 8.23.36

　たとえばこれは、黄色い線より左側が1コマの入力に対して1コマの予測を出力したもの、黄色い線よりも右は、ニューラルネットワーク自身が出力したものを再度入力して未来を予測したイメージになります。

　Orig.Modelと書かれた行とFine tunedと書かれた行がAIによる予測イメージになります。

　すると、車の輪郭はぼやけるものの、5フレーム後までかなり具体的にイメージできることがわかりますね。

　これは自動運転車がまちなかを走行するとき、「こういうケースでは事故が起こりやすいからスピードを落とそう」とか、「あの車、右折してきそうだな」とか、「前の車、酔っ払ってるんじゃないかな」という、イレギュラーなケースに対応するときに有効になります。

　つい一年ほど前、筆者はこの連載で、「AIは今のところ"見たことがないものを見つけることが出来ない"」と書きましたが、今やそれすらもできるようになってきたということです。

　これは、やはり一年ほど前に書いた、オス型人工知能とメス型人工知能の実装にも役立ちます。つまり、見たことがないものを見たときに興奮するAIと、警戒するAIの２つを作ることができるからです。

　さて、今回のハッカソンはこのDeep Pred Networkを実際に実装するという非常に難易度の高いものです。
　企画した山川所長も当初は「いったいこんな難しい物を実装できる人は男人いるんだろう」と不安に思っていたそうですが、その実、非常に真剣な実装のための議論が交わされていました。

スクリーンショット 2016-06-13 8.10.29

　あるグループは具体的な実装方法の検討を行っています。何時間にも及ぶ議論で、仕事としてやるにしてもとてもじゃないけど疲れる内容です。こういうことをするためには、こうした勉強会はまさしくうってつけのように思いました。

　実際、Deep Pred Networkを作るためには、畳込みLSTMというこれまでにない複雑な概念が必要です。

スクリーンショット 2016-06-13 8.22.45

　Deep Pred Networkは、畳込み(Convolution)とLSTM(Long Short Term Memory)を組み合わせた非常に複雑な構造で、これまでは単純にフィードフォワード(順伝搬)にのみ用いられてきた畳込み(Convolution)層に内部状態を持たせ、時系列で学習していきながら逆畳込みを使ってイメージを再現するという複雑な構造です。

　他にもハッカソンでは、Deep Pred Networkの実装ではなく、応用方法を検討するグループや、他の理論との組み合わせを検討するグループに分かれて激論が交わされていました。

スクリーンショット 2016-06-13 8.10.16

　このハッカソンは、来週末にも第二回目が開催され、何らかの成果があれば全脳アーキテクチャイニシアチブ主導で広く一般に公開される予定です。

　AIの研究分野で、日本企業はGoogle、Microsoft、Facebookなどの海外勢に大きく水をあけられている格好ですが、ここのところの人工知能関連のハッカソンの注目度や参加者の熱意は凄く、毎月100名規模の勉強会が耐えず開催されています。

　欧米勢がカネに物言わせた大資本と大企業で攻勢を仕掛けてくるならば、我々日本人は、草の根活動でこれに対抗していくしかありません。

　7月にも、国産深層学習フレームワークであるChainerのイベント、Chainer Meetup #03が開催される予定で、95人の枠に倍以上の185人が殺到している状態です。

　いつも思うのは、ここで人を取りこぼしてしまうのはいかにも勿体無いということです。
　会場の都合でどうしても人数制限はしかたがないのですが、大抵は抽選で決まってしまいます。

　しかし実際に参加する人の熱意、熱量といったものはばらつきが多く、物見遊山で様子を見に来る人から、本気で勉強したい人、本気で勉強したいと思ってはいるもののスキルセットがまだ追いついていない人、という具合にかなり理解度が異なります。本気で勉強したい人、かつ実装能力がある人に優先的に参加してもらったほうが日本全体が得をするはずですが、なかなかそういうふるいわけも難しく、救済措置として、「発表枠」は無条件に空いています。つまり、ここで発表をするならば、195人を飛び越していきなりChainer Meetupに参加する権利を得ることができるのです。

　ところがいざ発表となると、日本人の性質か急に及び腰になるらしく、いつもなかなか発表枠が埋まらないのが現状のようです。
　このあたり、もっといろいろな人が積極的に発表したい、という雰囲気にどう持っていくかということが大事になりそうです。