WirelessWire News Technology to implement the future

by Category

知性とは何か AlphaGoの初戦で感じたこと

Daisy, Daisy! Planted one day... AlphaGo sings a requiem for humanity

2016.03.10

Updated by Ryo Shimizu on March 10, 2016, 07:38 am JST

 AlphaGoが人類最強の棋士と目されるイ・セドル9段を初戦で下しました。
 このことは、囲碁関係者に大きな衝撃を与えています。

 反対にAI関係者にとっては、残念ながら想像通りの結果になったと言えます。

 AI関係者は、Googleがあそこまで断言するということは当然勝算あってのことだと考える人が多かったように思えます。仮に今回負け越したとしても、善戦すれば、数ヶ月のうちにさらに棋力を増し、いずれは打ち負かすだろうというのが大方の予想でした。

 AlphaGoが一度でも人類のトップ棋士に立ててしまったとすれば、今こそこの現象について深く考えておくべきタイミングとも言えます。

 果たして、この現象が意味することは一体どういうことなのでしょうか。

 
 まず、AlphaGoの仕組みについて簡単に振り返ってみましょう。

 AlphaGoを構成するのは打ち手を探索する「Policy Network」と局面を評価する「Value Network」という2つの深層ニューラルネットワークです。

スクリーンショット 2016-03-10 6.45.00

 ソースコードを読んでないので想像で補うしかありませんが、盤面からの入力に対してPolicy Networkで「次はこんな感じの手を打ったらいいんじゃないか」という確率を出し、出された確率のうち、上位数十から数百手に対して、次のValue Networkでその手を選択した場合の勝率はどのくらいかということを評価し、最も高い勝率が出せそうな手を選択するという二段構えの手法です。

 しかも、Googleの主張によれば(http://googlejapan.blogspot.jp/2016/01/alphago.html)、予測される次の打ち手の正解率は57%と従来手法とくらべて極めて高く(従来手法では44%)、これが強さの秘密だと主張しています。

 GoogleのAI研究チームDeepMindの論文によれば、入力として19x19の盤面全体に対して、白、黒、それ以外という3つの状態をそのまま入力した場合だけでも、予測的中率55.7%、それ以外の盤面に関わる情報、何手目か、アタっている石はどれか、などより詳細な情報を加えて学習させると、予測的中率が57%になった、とのことです。

 これを繰り返すことで、Policy Networkで探索木の枝を適切に絞り込み、ValueNetworkで評価。この繰り返しで数手先を読み、最終的にどの手を選択すべきかということを決定します。
 

 この仕組みの意味する最も重大なことは、普通の人間が囲碁をする場合とは異なり、論理性や定石といった記号化された知識を一切持っていないということです。

 素人が囲碁をする場合、いろいろと本を読んで定石を勉強したりしながら、文字通り「頭を使って」手を選びます。

 ところが、AlphaGoを含む人工知能の場合、そういうロジックを一切使用せずに、ニューラルネットワークに盤面のイメージやその他の情報を入力し、最終的に勝つか勝たないかということだけを評価関数としてひたすら学習を繰り返します。

 これは仕組みとしてはかなりシンプルな部類です。これを学習させるために大規模な計算資源を使ったというだけで、仕組みそのものはノートPCにも入ってしまいそうな勢いです。

 AlphaGoの場合、最先端のRNNすら使っていないのです。
 

 にも関わらず人類で最も難しいと言われるゲームで人類で最も強いと言われる人物に一度でも勝利してしまったということは、我々は知性に対して持っていた従来のイメージを再考せざるを得ない時に来ているのではないかと思うのです。

 以下は筆者の個人的な仮説で、十分な検証をしていない事柄が含まれていますが、現段階でこの勝利に関して筆者が感じていることです。

 数年前から、慶應義塾大学の前野教授が提唱する、「受動意識仮説」が話題になっていました。

 受動意識仮説とは、かいつまんで言えば、我々が意識して行動していると思っていることは、実際には因果関係が逆で、我々が意識するより前に身体は動き、言葉をしゃべり、起きてしまった現象に対して意識が辻褄をあわせるがごとく物語を創造しているのではないか、という仮説です。これはいろいろな現象によって裏付けられます。

 たとえば心理学で使われる様々なテクニック、吊り橋効果、ローボールテクニック、イエスセット、ラポールなどは、全て「状況または過去に起こしてしまった行動と現在の行動の整合性を取ろうとする意識の作用」を利用(または悪用)したものと考えられます。

 意識の実体は海馬にあるという説もあり、大脳辺縁系の海馬は短期記憶を大脳新皮質の長期記憶へ転送する役割を持っています。とすると、泥酔したときにタガが外れるのは、海馬の作用が弱まった時に、起きているとも考えられますし、泥酔したあとの記憶喪失は海馬が一時的に麻痺して長期記憶へ十分な転送が行われなかったため、とも考えられます。

 では長期記憶とは何か、というと、ひとつは記号化です。脳はあらゆる感覚から膨大な情報を受取ます。その全てを長期記憶に保存しようとすれば脳の容量はすぐにいっぱいになり、しかも検索性が下がります。保存されている情報が多ければ多いほど思い出しにくくなるのです。

 海馬と海馬周辺の記憶回路には、近時記憶と呼ばれる、記憶を数日は保存しておける場所があります。
 
 そこから長期記憶へ保存されるわけですが、長期記憶、すなわち数日前や数年前といったスパンになると、情報量が一気に削ぎ落とされます。

 たとえば、あるとき水を飲むとします。数分という時間単位では、水を飲んだという感触や冷たさが生々しく残っているはずです。しかし、数時間という単位では水を飲んだ、という記憶や映像イメージなどは思い出せても、生々しさはなくなっています。さらに、先週の何時に水を飲んだ、ということを思い出そうとしても、その時の状況やイメージはほとんど記憶に残っておらず、ともすれば水を飲んだ、ということ自体も忘れてしまいがちです。

 時間が経っても忘れにくい記憶というのは、記号化された記憶です。
 初対面の人を「この人は○○さん」と覚えるのに苦労することはよくあると思います。筆者もそうです。

 顔(イメージ)を覚えるのと、名前(記号)を覚えるのは、顔を覚えるほうが簡単に思えます。しかし、長時間経って覚えているのは名前の方です。子供の頃好きだった○○ちゃん、どんな顔だったっけ?と思い出せる人は稀です。頑張って思い出そうとしても、とにかく「美人だった」「可愛かった」という記号しか残っていないでしょう。

 反対に強烈な印象があった場合は、ある種の場面(イメージ)がはっきりと長期記憶されることもあります。けれども、実際に写真のようにクッキリとは思い出せません。稀にそれができる人もいるようですが、大半の人はそうではないと思います。

 ということは、人は自分がそう思っているほど、知性的なことを考えるのに記号的な論法、論理的な思考法を身に着けていないのかもしれないということです。

 AlphaGoは、ただただ与えられたタスクをこなしただけの存在でした。
 今後、AlphaGoをはじめとするAIは、人間より明らかに未来を見通すのにふさわしい存在になるでしょうが、AlphaGoはたとえイ9段に勝っても負けても驚いたり悲しんだりはしません。

 そして、とりあえず現在のディープラーニングブームは、この程度で終わる可能性もあります。つまり、一般人工知能(AGI)は実現せず、従って、人間の知性を遥かに凌駕し、人間を滅ぼすであろう人工超知能(ASI)も出現しないということになります。ホーキング博士、安心してください。無理です。

 しかし、想像してみましょう。
 人類で最も賢いと思われた棋士を下すほどの直感力を持ったAIを誰もが自分の道具として使える時代です。

 そして、それはもうそう遠くない未来までやってきているのです。

 深層学習は学習そのものには膨大な時間と計算資源が必要ですが、学習されたニューラルネットワークを使うのは小さなコンピュータにも可能です。

 全ての人のスマートフォンに(Siriのようなものでなく)本物のAIが搭載されたとき、そこにはどんな可能性が広がるでしょうか。

 それを想像するだけで、筆者はワクワクしてきます。

 告知ですが、3/26(土)に秋葉原で筆者の実験しているプログラミング教育の説明会と体験会を開催致します。ここでプログラミングとAIが今後どのように人類を変えていくか、という講演もさせて頂く予定です。無料ですので、お申し込みはお早めに。

 秋葉原プログラミング教室 特別無料体験会

WirelessWire Weekly

おすすめ記事と編集部のお知らせをお送りします。(毎週月曜日配信)

登録はこちら

清水 亮(しみず・りょう)

新潟県長岡市生まれ。1990年代よりプログラマーとしてゲーム業界、モバイル業界などで数社の立ち上げに関わる。現在も現役のプログラマーとして日夜AI開発に情熱を捧げている。

RELATED TAG