Alpha Zeroが猛烈に三目並べを自己対戦したとき、ついにこの時代が来たと悟った

original image: © Alexander - Fotolia.com

2018.02.04

Updated by Ryo Shimizu on February 4, 2018, 11:57 am JST

スクリーンショット 2018-02-04 11.37.45

AlphaGoを改良したAlpha Zeroが囲碁だけでなくチェスや将棋などを攻略できるようになった、という話を聞いても「今更？」とピンと来なかったまま日々が過ぎていきました。

しかし一昨日ふと気になって、会社に届いたばかりの深層学習PC、DK-1000で試運転がてら実装をいくつか見てみると、AlphaGoのときよりもずっとシンプルな実装になっていて心底驚きました。

試しに、リバーシ(オセロ)とTic-Tac-Toeを実行してみると、猛烈な勢いでAlpha Zeroは自己対戦を始め、どんどんスコアを上げていきます。

最終的にはTic-Tac-Toeを1000回くらい学習したところで、自己対戦の結果は0勝0敗1000引き分けになりました。

スクリーンショット 2018-02-04 11.41.24

この結果に、心の内側からこみ上げてくるものを感じずにはいられません。

これはまさしく映画「ウォーゲーム」のラストシーンで、NORADの司令室にある人工知能「ジョシュア」が、核戦争の勝者が誰もいないことを三目並べを通じて学んだ印象的なシーンそのものだからです。

Alpha Zeroの汎用性はおそらく全ての決定論的なゲームに対応可能なものです。

我々はAlpha Zeroに解かせたい問題をAlpha Zeroのためにデザインするだけで、最強の解き方をAlpha Zero自身が見つけてくれる、というわけです。

これは発想次第でいろいろなことが可能です。
たとえば自動車の運転も、ひとつの決定論的なゲームと見立てることができます。

Alpha Zeroに与える「ゲーム」は途中でどちらが優勢か、という情報ではなく、「最終的に誰が勝ったのか」という情報だけを使って学習します。

つまり、任意のゲームをAlpha Zeroに与えて学習させることができるのです。

Alpha ZeroのミソはAlpha Goよりもシンプルになっていることです。
まさに知能の神秘です。

しかしより強力な数式は、実はよりシンプルである、ということも科学の経験上知られています。その意味で、AlphaGoよりもシンプルなAlphaZeroのほうがより強力な道具になる可能性を秘めているのです。

以前にも「これからの時代はAI向けの"ゲームデザイン"が重要になる」というようなことを指摘しましたが、まさしく現実の問題をどのように適切に「ゲーム化」できるか、していくか、ということがこの先、AIを本当に使いこなすための鍵になるでしょう。

これまでの深層強化学習では、AIに見せる「ゲーム」において、報酬をどう設計するかということがかなり難しかったわけですが、もしかすると、AlphaZeroはそれまで全く教えることができなかった問題を問いてくれる可能性もあります。

たとえばレースゲームを学習させるのはとてもむずかしいです。
筆者の所属するギリア株式会社では、以前からレースゲームの自動攻略を研究していました。

スクリーンショット 2018-02-04 11.51.20

なんとかコースアウトせずに周回することができるようにはなるものの、「速く走る」走り方を自分で見つけるところまではなかなか難しい問題でした。

一見するとレースゲームは決定論的ゲームではないように見えます。
しかし、フレームごとにアクセル、ブレーキ、ステアリングの角度を決定する決定論的ゲームと捉えることもできます(その意味では初期のDeep Q-LearningにおけるAtariの攻略も決定論的ゲームです)。

Alpha Zeroは人間との対戦を必要とせず、過去の自分と対戦するので教師がいりません。
まだ試していませんが、レースゲームの攻略が仮に可能であれば、適用できる問題の範囲はぐんと広がります。

まだ未知数の問題として、AlphaZeroは確率論的なゲームを攻略できるのかはまだわかりません。確率論的なゲームは決定論的なゲームとは異なるからです。

ただ、AlphaZeroの構造のシンプルさから考えると、確率論的なゲームを攻略できる可能性は十分あります。

個人的にはもっと掘り下げてみたい分野です。

また、AlphaZeroの登場により、おそらくAIの会社にとって必要な人材像も変化していくのではないかと思います。
これまでのように数学や統計の専門家だけでなく、コンパクトで効率的な「ゲーム」を設計するゲームデザイナーやゲームプログラマーに需要が生まれます。

ソーシャルゲームの隆盛で骨太のゲームデザイナーの仕事はむしろ減ってしまいましたが、もしかするとゲームそのものを作り出すところまでAIがやってくれる日も近いかもしれませんが、そのディレクションを行うのはやはり人間でなければいけません。

人間だけが、人間の抱える問題を適切にゲーム化(問題設定)できる存在だからです。

我々は面白い時代に生まれて本当に幸せですね。

おすすめ記事と編集部のお知らせをお送りします。（毎週月曜日配信）

新潟県長岡市生まれ。1990年代よりプログラマーとしてゲーム業界、モバイル業界などで数社の立ち上げに関わる。現在も現役のプログラマーとして日夜AI開発に情熱を捧げている。

もし不老遺伝子が特定されて、人類の平均寿命が1000歳になったら

表現手段としてのAIプログラミング教育

AI開発の安全保護のための米企業連合、バイドゥが中国企業として初のメンバーに　ほか

[PR]製造業のビジネスモデル変革も促す IoTデバイスのセキュリティ基盤