13502917_157286471355248_3179742683945104501_o

VRとAIの相関はなにをもたらすか

2016.08.07

Updated by Ryo Shimizu on 8月 7, 2016, 06:25 am JST

 最近、講師業が本業なんじゃないかと思うくらい、イベントやセミナーの講師の仕事が増えています。

 もともと人に物を教えるのは好きな方ですが、さすがにこう続くと少々疲れてきました。

 さて、とあるイベントで「教養としてのプログラミング」についてトークライブに出たら、参加した方から「プライベートで仲間を集めて講演料を支払うので深層学習について教えてほしい」という依頼がありました。

 
 最近、講演を聞きに来たからからまた講演を依頼されるというパターンが増えているため、必然的にネズミ算式に講演の仕事が増えているのかもしれません。

 さて、ビジネスマン向けの深層学習講座というと、先日有明で開催した無料のセミナーもあったわけですが、わざわざ休日に無料セミナーと同じ内容を話して講演料をいただくのも申し訳ないので、今回は、普段は企業のエンジニア様向けに二日間の日程で開催している「深層学習スタンダードセミナー」の2日分の内容から、技術的要素を抜いた内容として4時間の内容にまとめました。

 4時間にまとめたはずだったのですが、結果として気が付くと5時間くらい喋っているという感じになってしまったのは誤算でした。

 いざやってみると、「こんなに話す内容があるのか」ということに自分自身驚きました。

 そして同時に「こんなに新しいことを一度に教わって、聞いている人たちはちゃんと消化出来ているのだろうか」という不安も生まれました。

 深層学習は進歩が早すぎてクラクラします。
 

 基本的に技術者向けのセミナーは毎月やっているのですが、一度として同じ資料がそのまま使えたことはありません。

 常に新しいネタがあるので、解説しているこちらも楽しくなってしまいます。そして何より、教えるためには自分自身がまず勉強し続けなければ教えられません。それが程よい刺激になって、僕自身も深層学習の最先端を常に学べるというのは恵まれているかもしれません。

 今回、特に好評だったのはUEIソリューションズ自慢のVRエクスペリエンスルームを使った深層学習のデモンストレーションです。

 深層学習による次元圧縮や自動分類というのは非常にイメージがしづらいのですが、バーチャルリアリティで実際の空間を体験すると、途端に明瞭にイメージできるようになります。

 6月に大阪であったイベントで、アスキー総研の遠藤諭さんが「同じ時代に発達した技術は、それぞれ相関関係がないように思えても、実は劇的な相乗効果をもたらすことが往々にしてある。たとえば計算機と半導体は、開発された当初は全く別個の技術だったが、これが統合されることで劇的な変化が起きた。携帯電話とインターネットもそう。ということは、AIとVRが同時に注目されているということは、この2つを組み合わせた全く新しいものが生まれる可能性が高い」と語っていましたが、生徒の皆さんがVR空間内で人工知能の感じている「特徴空間」を実体験している姿を観察すると、まさしくその可能性の片鱗を垣間見た気がしました。

 以前この連載でも書いたように、VRを支えるCG技術とAIは高い相克性があります。

 CGは、人間を「認知的に騙す、ごまかす」技術です。VRはその最たるもので、実際には存在しない世界に人間を文字通り「身体感覚まるごと騙す」ための技術です。そして人間はむしろ積極的にCGやVRに騙されることで感動したり、快感を得たりしているわけです。

 たとえば「できの悪いCG合成」という言葉がありますが、「できの悪いCG」とは、要するに騙すことに失敗したCGを意味します。

 「できのいいCG」はどこからどこまでが嘘で、どこからどこまでが本当なのかわからなくなっているものです。要は「綺麗な嘘」です。

 一方、AIは、「騙される側」の「認知」を機能化したものです。
 

 最近ぼくは講演のなかで、「世界は本質的にはデジタルである」という話しをします。
 ディスプレイが無数のピクセルの集合体であるのと同じように、この世界にも最小単位が存在する可能性があります。

 最新宇宙論のひとつ、ループ量子重力理論では、時間と空間にそれ以上分解不可能な最小単位が存在することを前提としています。

 どういうことかというと、時間はかつてイメージされていたように止めどなく連続的に流れるのではなく、デジタル時計の表示のようにカチッ、カチッと離散的に進行し、現実世界にも液晶画面のピクセルと同じように最小の空間単位があるという考え方です。

 するとアナログとはなんだったのでしょうか。

 人間にとってアナログとは自然なことのように思えます。
 しかし人間の脳にある生体ニューロンそのものは励起状態(興奮状態)と非励起状態(平静状態)の二値は、ある閾値を境にしてデジタル的に決定されています。

 つまり脳そのものがデジタル的な性質によって動いています。連続量に近いものは、軸索の状態やニューロン間の重み付けにしかありません。

 そしてまた、人間は一秒間に認知できる画像の枚数に制限があることはよく知られています。だいたい、一秒間に60〜70枚程度が限界です。

 だからテレビは最低一秒間に60回は画面を書き換えるのです。

 このおかげで、映画やテレビをバラバラの絵としてではなく、動画として知覚できます。普段は意識していないでしょうが、そもそもテレビ画面やスマートフォンの画面を見ているだけで、そこにないものが「ある」かのように知覚が騙されているわけです。
 

 音も同じです。
 音はボリュームの連続的な変化として表現されます。

 僕は子供の頃、スピーカーから音が出るというのが不思議でなりませんでした。
 原理は分かります。空気を振動させる性質を電磁石の強弱で表現するわけです。

 そしてスピーカーから音がなるプログラムを書こうとした時に、その単純すぎる原理に本当に驚くのです。

 スピーカーから音を慣らせようとすると、設定できるのは電磁石の強弱しかありません。

 
 あらゆるコンピュータから鳴る音は、単なる電磁石へ供給する電力の強弱だけで作られています。モノラルなら一次元、ステレオなら二次元というごく単純な処理です。

 にも関わらず、にも関わらずですよ、我々は複数の音をひとつのスピーカーから同時に聞くことが出来ます。

 この凄さがイメージできますか?

 例えばドとミとソの音がひとつのスピーカーから同時にハーモニーを奏でるのを聞くことが出来ます。でもスピーカーを駆動する電磁石はひとつしかないんですよ。

 しかもこれはデジタル的に処理されたデジタル的なボリューム(電磁石へ流す電流の強弱)だけで表現されているのです。

 どうしてこんなことができるのかというと、そもそも音階が違うと、周波数が違います。
 周波数の変化は周期的なボリュームの変化です。
 そして複数の周波数の音は簡単な足し算や掛け算で合成することができます。

 スピーカーで起きていることはただ、それだけです。

 人間はたったひとつのスピーカーから流れてくる空気の振動を聞き取り、そこに周期的な音をアナログ量として「勝手に感じ取る」のです。そのとき、複数の周波数があればそれぞれが別の音として聞こえるように「認知」するのです。

 つまり「発信側(コンピュータ)はデジタル」であっても、「受信側(人間)はアナログ」として聞くのです。

 これは、電磁波の周波数の違いによって色が表現されていることからも明らかで、人間を含む生物の認知能力は本質的にアナログ量という概念を「感じ取る」ことができる性質を持っているに過ぎません。

 生物にとって「アナログが自然」と思い込むのは当然で、生物は常に膨大な情報を処理し、適切な判断をしなければなりません。

 そのためには膨大な情報を生データのまま処理するのはいかにも効率がわるいのです。
 そこで、入力されたデータからそれぞれの関連性や連続性を感じ取る必要があります。その認知のための手段がアナログという概念だと考えるとスッキリしてきます。

スクリーンショット 2016-08-07 6.15.29

 きちんと訓練された畳み込みニューラル・ネットワークの第一層は見事に物体の様々な視覚的特徴を掴むための特徴器になっています。この図の小さな正方形はそれぞれカーネルと呼ばれ、入力された画像に対するフィルターとして機能します。

 縦に何本かスジのあるカーネルは縦線に反応し、中央に丸く円が描かれているようなカーネルは丸いものに反応します。

 人間や生物の脳にも、似たような仕組みでこうした「デジタル量として入力されたデータをアナログ的に認知する」機能があるのではないかと思います。

 そして人工知能の本質的な面白さは、これまで生物にしかなかったこの「認知」の仕組みを機械で実現できることです。
 

 そして人工知能は人間とは少し違ったやり方で、自分なりにデータを解釈します。オートエンコーダを教師なし学習で学ばせると、人工知能は自分なりにデータを整理します。

 さらに、人間がごく少ないデータについて正解を教えてあげると、人工知能と我々のものごとの分類方法の向きをピッタリと合わせることが出来ます。いわば認識のすり合わせです。

 このすりあわされた認識を確認するときに、平面よりも空間を共有するほうが圧倒的にわかりやすいのです。

 このFeature Space Diverではいくら画面を見ていてもぜんぜんわからないことが、HMDをかぶってVR空間に没入した瞬間からいろいろなことがハッキリと分かるようになります。

 機械学習の専門家でなくても、これを体験することで「人工知能の考えていること」が想像できるようになります。

 人工知能を自分の仕事にどう活用できるか。

 専門家でない人がそれを考え始めるのタイミングとして、今の時代はもう決して早すぎはしません。すぐ手の届く未来には、当たり前のように人々が人工知能を使いこなしていることでしょう。

WirelessWire Weekly

おすすめ記事と編集部のお知らせをお送りします。(毎週月曜日配信)

登録はこちら

清水 亮(しみず・りょう)

ユビキタスエンターテインメント代表取締役社長CEO。1976年新潟県長岡市うまれ。6歳の頃からプログラミングを始め、16歳で3DCGライブラリを開発、以後、リアルタイム3DCG技術者としてのキャリアを歩むが、21歳より米MicrosoftにてDirectXの仕事に携わった後、99年、ドワンゴで携帯電話事業を立上げる。'03年より独立し、現職。'05年独立行政法人IPAより天才プログラマーとして認定される。

RELATED TAG