明晰な知能の定義

明晰な知能の定義

The definition of bright intelligence

2017.03.31

Updated by Ryo Shimizu on March 31, 2017, 09:39 am JST

AIと一口に言っても、大きく分けて深層学習以前と以後に分けられます。
深層学習以前のAIは、はっきり言って停滞していました。

停滞しつつも、手書き文字認識や音声認識といった分野で着々と実績を積み上げ、そしてそのどこかに「越えられない壁」のようなものを感じてまた停滞する、ということを繰り返してきました。

昨今注目されているAIは深層学習で、実は深層学習屋さんと、それ以前の機械学習または自然言語処理屋さんは仲が良くないのです。

深層学習以前の世界では、AIの研究というと、「情報をどう扱うか」「情報のどの部分に着目するか」ということ、専門的な言葉でいえば「情報の特徴量」をどう定義するかということが重要で、そこが腕の見せ所でした。

しかし深層学習以後の世界では、そもそも情報の特徴量は機械が自動的に読み取ってしまうものであり、意図的に設計するものではなくなってきています。従って特徴量の設計を専門としてこの30年間君臨してきた昔ながらの人工知能の研究者たちは露頭に迷おうとしています。

「人工知能」という言葉の指す範囲が広いせいで、昔ながらの機械学習や自然言語処理の人たちまでどさくさに紛れて「うちは人工知能をやってます」と主張しているのですが、それと深層学習はほとんど無関係な技術であることはとりあえず常に主張しておきたいと思います。

そして興味深いことにたいていの「昔ながらの人工知能」をやっている人は深層学習に懐疑的です。これは控えめに言っても驚くべきことです。

むかしから人工知能をやってきた人ほど、人工知能の最先端技術である深層学習に懐疑的なのは、要するに自分たちのいままでの努力を否定されたような気がするからでしょう。

筆者の恩師も人工知能の専門家ですが、深層学習には懐疑的です。どれだけ説明しても深層学習をやろうとはしません。深層学習のアプローチはそれまでの人工知能研究とは根本的に異なってしまうからです。深層学習を受け入れようとすると、過去の自分達の研究や、自分たちの先人の作ってきた歴史の否定になってしまうため、アカデミズムの世界では深層学習という言葉を使うだけでも眉をひそめる人が居ます。

だからむしろ元気なのは、それまで人工知能を横目で見ていた人たち、たとえば筆者のようなビジネスマンや、ゲームなどをプログラミングしていた人たちで、そういう人たちは人工知能について守るべきメンツも歴史もしがらみもないので、純粋に無垢な興味から、奔放に研究ができるのです。

そして奔放な研究活動とは、それまでの人工知能の研究とはまるで逆で、とりあえず計算資源を確保してなんでもかんでも突っ込んで試してみるという、いわばかなり暴力的なもので、暴力的であるが故に研究としては認められにくく論文も書きづらいため、査読論文の通過数でしか評価されないアカデミズムの世界からは胡散臭いものという評価をされているのが現状です。

それまでの人工知能研究が理論物理学だとすると、深層学習は実験物理学に近く、アメリカの大ヒットコメディ「ビッグバン・セオリー」の主人公、シェルドン・クーパーが理論物学者として、ルームメイトのレナード・ホフスタッターを「君は所詮実験物理学者だからね」とバカにしているのと同じような構図が、人工知能研究のなかにもあります。

シェルドンはMITを卒業してついには宇宙飛行士になった友人のエンジニア、ハワード・ホロウィッツに対しても「君は博士号持ってないしね」「工学ラボ…ちょっと腕の立つ労働者が、考える者の構想を形にする場所…。やぁ、科学のウンパルンパたち！」とバカにします。

確かに、理論物理学で用いる高度な数学や概念に比べると、実験物理学は理論物理学で提唱された理論を証明するための実験を計画したり、再現実験をしたりする学問なので知識の流れとしては実験物理学が理論物理学の後にあるのは間違いないでしょう。エンジニアリングとは、実験物理学で確認された事象を実際に実用できる形で実現することなので、理論物理学から見ると扱う数式や概念も何十年も前に確立されたものですから、下等に見えても仕方ないのかもしれません。

誤解を恐れずに言えば、旧来の人工知能研究とは理論物理学的なものでした。
知能とはなにか、という定義をまず考え、それを満たすための条件を考える。

コンピュータ科学の研究者は実装までしないと研究と認められませんから、同時にエンジニアでもあり、実際に数式からプログラムに落とし込んで自分の理論を確認します。

しかし、どうやら人間の知能は、従来考えられてきた知能とは根本的に異なるものではないかという疑念が起き上がってきました。それがたとえばAlphaGoのような成果として現れている事象です。

旧来の考えかたでは、人間の知性は定義可能であり、定義可能ということはプログラマーが能動的に構築するということですから、人工知能を生み出す超知能の役割を人間が担っていたということなります。

こうした研究は哲学的なものですから、非常に魅力的で多くの研究者の心をときめかせたことはよく理解できます。

ところが現実に起きていることは、知性の定義をすることによってではなく、機械が自発的に学習することでさまざまな問題を解決していくという現実です。

しかも人間が完全にコントロールして知識を構築するよりもずっと上手くやってしまうのです。

これはある意味で旧来の知性の敗北であり、大げさに言えば権威の失墜を意味します。
こうした危機感から、本能的に旧来の人工知能研究者は深層学習を信用していないのです。

筆者にはこの光景は既視感があります。
昔ながらのやり方を極めてきた人々が、新しいテクノロジーに対し示す共通の拒絶反応です。

筆者の最初の体験は1995年頃の3D技術でした。
その当時はスーパーファミコンを代表とする2Dスプライトが主流で、ポリゴンは邪道だと思われていました。当時高校生だった筆者は、しかし3D技術のほうにより心を惹かれ、プレイステーションのプログラムを書きました。

今振り返れば、あの時代に2Dスプライトが生き残る余地はほとんどなかったと思います。
しかし筆者が接した複数の開発者は3Dに大きな拒絶反応を示し、その結果、ゲーム業界では主要なプログラマーの若返りが起きました。それまでマシン語で垂直帰線期間の合間を縫って書かれていたプログラムの時代から、フレームバッファとポリゴンの時代に変化するのです。当時のゲームプログラマーはC言語でさえオーバーヘッドを嫌い、書くのを嫌がりました。あの時代にC言語でのプログラミングをメインにしようとしたSCE(ソニー・コンピュータ・エンターテインメント)は本当に凄いと思います。しかしそんな筆者ですら、プレイステーションがC++をサポートした時には「こんなの誰が使うんだ」と思いました。

次の変化は携帯電話で、1999年にiモードが登場した時、「次の主戦場は携帯電話になる」と筆者は思いました。しかしそれまでゲーム業界で同じような仕事をしていた人々は口々に「あいつはこの業界から逃げた」と陰口を叩かれたり、露骨に批判されたりしました。

スマートフォンとして最初のヒット商品となるiPhoneが出現したときもそうです。「あんなもの売れるわけがない」とiモード業界で権勢を誇っていた大半の会社は判断し、いまではガラパゴスケータイと呼ばれる世界に固執しました。

この話題の共通点は、どの時点でも、新しいテクノロジーの到来を受け入れられなかった人たちは滅んだということです。

95年にプレイステーションについていけなかった人たちはゲーム業界を去るか、少なくとも現役のプログラマーを辞めざるを得ませんでした。スーファミの知識で、32ビット固定小数点のプレステの世界にはついていけるわけがありません。iモードへの転換についてこれなかった人たちは、やはり消えていきました。そしてiモードからスマホへの変化についてこれなかった会社も、早晩、舞台を去りました。

筆者は同じことが人工知能の世界にも起きると考えています。
つまり、深層学習を受け入れられない研究者は滅ぶということです。

この記事への拒絶反応が強ければ強いほど、筆者は自説に自信を持つことになるでしょう。
なぜなら、既に3回、同じことを経験しているからです。

さて、では明晰な知性とは一体何なのでしょうか。
その定義をしないまま校を終えてしまうわけにはいきませんので、筆者の考える明晰な知性について説明したいと思います。

筆者の考える明晰な知性とは、「概念を図に変換できる能力」です。もしくは「図を言葉に変換できる能力」でもいいです。

ぼんやりした人の話しは、図にできません。
そして、ぼんやりした人の話しを図にすると、ぼんやりした図になります。

ある会社に、すごく図を書くのが好きな管理職がいて、その人の書く図は、意味不明です。なにがしかの宗教的な図画に似ています。こういう人は、あまり明晰な知性を持っているとは言い難いのではないかと思います。

明晰な知性を持った人は、分かりやすい図を書くことが出来ます。

さほど明晰な知性を持っていなくても、言葉をダラダラ読むよりも、図を見たほうが一発で理解できることが多いと思います。

頭のなかにある概念を図にするというのは、AIでいえば入力された情報から特徴ベクトルを出力する作用に等しい行為です。

たとえば、AIにこの記事を読ませて、この記事を要約した図が出力されるとしたら、そのAIはかなり知性的に見えるはずです。それだけでもありがたい、という人はいるのではないでしょうか。

反対に、この記事を図にしなさいと人間に命じたとして、果たしてどれだけの人が内容を要約して伝わる図にできるかといと疑問です。正直、筆者でもどうやって図示すれば一番伝わるのかわかりません。

ただ、明確な概念理解というのは、話しを聞いて図示する能力で計測可能なのではないかということは直感的に感じます。
少し前まで、「直感」とは、「適当、いいかげん、デタラメ」の免罪符のように使われてきましたが、深層学習以後の世界ではむしろ直感力こそ知性のもっとも純粋な形と考えることが出来ます。AlphaGoはまさに直感力だけを研ぎすませて勝利したわけですから。

そう考えると、深層学習が画像認識から発展を遂げてきたという部分は「直感的に」正しいという気がします。つまり知性を形成する大部分は、視覚的処理能力にあるからです。

つまらない先生の授業というのは、文字や数式がただ羅列されたものを板書するだけの授業です。
面白い先生の授業というのは、たいがい、ものごとの関係性がまず図示されます。

人間を含む哺乳類にとって生きるために重要なのは視覚と聴覚でした。重要だから２つずつあるわけです。
センサーとして２つあるのは目と耳だけです。

最近の研究では、自然言語処理を行う場合であっても、文字の形をAIに見せたほうがよりよく学習できるという研究結果もあります。確かに、日本語は単語がどこで区切れるのかわかりにくいですが、なんとなく文章を書く時に、たとえば「何故疑問を即座に解決しないのか」とは書かずに、「なぜ疑問を即座に解決しないのか」と、品詞ごとに漢字と仮名を使い分けたりします。たとえ同じ意味であっても、そのほうが読みやすいからです。そういうことをAIにも読み取れるようにすると処理能力があがるというのは、よく考えればわかりますが、そもそも人間だって文字を読むのは視覚を通してしかないからなのです。

聴覚から文字を読んでるわけではありません。点字など一部の例外を除けば、基本的に文字を読む時は視覚を通しています。

だから、AIにまず視覚をもたせることでAIがさまざまなことを体得していくという流れはごく自然なもののように筆者にはは感じられるのです。