WirelessWire News The Technology and Ecosystem of the IoT.

by Category

犬 人 対峙 イメージ

格下の相手には手を抜く対戦AI

2018.02.21

Updated by Ryo Shimizu on February 21, 2018, 08:17 am UTC

スクリーンショット 2018-02-21 7.53.18

筆者が経営するギリア株式会社と株式会社UEIでは、週に1回程度、個人の研究発表をする場を設けています。たまにインターンも参加します。

深層学習はあまりにもできることが多く、その可能性を少しでも効率的に探るため、個々人がそれぞれの仮説を持って研究した成果や知見を交換しておくことは非常に重要だからです。

AlphaZeroをベースとした深層強化学習の研究をしていた開発者が、面白い発見を報告してくれました。

 「どうもAIからみて相手が格下だと、手を抜く傾向がある」

彼は決定論的問題の一つである迷路をAlphaZeroに解かせようとしていました。
ただし、迷路は毎回作り直されます。

左上からスタートして、右下のゴールを目指します。
便宜上、画面ではプレイヤー1は人、プレイヤー2は犬として表現されます。

十分訓練されたAI同士で迷路を競わせると、たいていの場合、ゴール前で僅差になります。

スクリーンショット 2018-02-21 7.53.18

これだとタッチの差でプレイヤー1(人)がプレイヤー2(犬)に勝っています。

当然、同点ということもあります。

スクリーンショット 2018-02-21 7.58.26

「伏」になっている部分は「人」と「犬」が同じ場所にいることを示しています。
仲良く袋小路にハマっているわけですね。

ちなみにこの「ゲーム」では、プレイヤーは後戻りすることはできません。
つまり勘違いして行き止まりにいったらそこでゲームオーバーです。

でも面白いのはここだけではありません。

このゲームで訓練したニューラルネットワークがランダムな動きをするプレイヤーと対決すると、AIが手を抜いたようなプレイをすることがわかったのです。

スクリーンショット 2018-02-21 7.50.52

このゲームの勝敗は、どちらが先にゴールしたか、ではなく、どちらがよりゴール(右下)に近い位置にいたか、で評価されます。

上図はプレイヤー1(人)がAI、プレイヤー2(犬)がランダムです。

この状態だと何度やっても、ランダムなプレイヤーが相手だと、AIは手を抜いているとしか思えない、雑なプレイをするようになります。

この状態を彼は「AIは格下相手に手を抜くようになった」と解釈しています。

また別の解釈もありえます。
このゲームの場合、盤面を共有しているので、実はAI同士が対戦しているときは、「互いに協力しながら迷路を解いている」とも言えるのです。

相手がランダムだと、学習したAIは自分の力を十分発揮できずにゴールにたどり着けなくなる、という解釈です。
だとすると、よく訓練されたパートナーAIが居たほうが、AIは本来の力を発揮しやすいとも解釈できるでしょう。

迷路は、人間が遊ぶ時もいきなり全体の図から一本の答えのルートを見つけるのは難しいゲームです。
だから遊びとして成立しているわけです。

深層強化学習の研究では、3D迷路の攻略が難しいことが知られています。

これは、人間が3D迷路を遊ぶときは頭のなかで3D迷路の情報を2D迷路にマッピングするからです。
巷で3D迷路と呼ばれている迷路の多くは、実際には2D迷路を3D視点で見たものです。本当の3D迷路なら上下左右にも分岐しなければなりません。これはかなり難しい部類です。

似た理由で、MinecraftのようなゲームをAIが遊ぶのはまだまだ難しいとされています。
強化学習のように、特定の目的や評価関数が設定しにくいからです。

ICM(Intrinsic Curiosity Module)のように、まだ見たことのない場面に対する好奇心を報酬として勝手に学習させる手法も出現してきましたが、AIがMinecraftのようなゲームを人間と同じように遊べるようになるにはまだまだ時間がかかりそうです。

AlphaZeroの方式そのままだと、一般的な問題を解かせようとするときにいくつか問題があります。
それは、盤面の解像度(情報量と言っても良い)が高すぎたり、取りうる選択肢が多すぎたりすると、プレイログを作るのに膨大な時間がかかることです。これはモンテカルロ探索木の欠点かもしれません。

迷路ならもっと古典的な方法で解くアルゴリズムはいくらでもあります。
わざわざ深層強化学習を使うまでもありません。

しかし、それでもAlphaZero方式の持つ可能性は非常に大きいと筆者は考えています。
基本的には、欠点が特定できれば解決策もわかってきます。

欠点そのものよりも、この最先端の道具をどんな仕事に使うことが出来るか、考えるだけでワクワクしてしまいます。

それに、AIの振る舞いを見て「手を抜いてる」ように見えたり、もしくはライバルと「切磋琢磨している」ように見えたりするというのも実に面白いポイントです。

こういう研究発表会というのは毎回新しい発見があるので実に楽しい時間です。

株式会社UEIでは、フロア増床に伴い、深層学習に挑戦してみたいエンジニアを募集しています。
深層学習をマスターするには、仲間とデータと計算資源のある会社で勉強するのが近道です。ぜひご検討を。
UEIの求人ページ

WirelessWire Weekly

おすすめ記事と編集部のお知らせをお送りします。(毎週月曜日配信)

登録はこちら

清水 亮(しみず・りょう)

ユビキタスエンターテインメント代表取締役社長CEO。1976年新潟県長岡市うまれ。6歳の頃からプログラミングを始め、16歳で3DCGライブラリを開発、以後、リアルタイム3DCG技術者としてのキャリアを歩むが、21歳より米MicrosoftにてDirectXの仕事に携わった後、99年、ドワンゴで携帯電話事業を立上げる。'03年より独立し、現職。'05年独立行政法人IPAより天才プログラマーとして認定される。

RELATED TAG