2019年、Googleの”戦略級AI”はどこまで進んだか(そしてなにができないか)

新潟県長岡市生まれ。1990年代よりプログラマーとしてゲーム業界、モバイル業界などで数社の立ち上げに関わる。現在も現役のプログラマーとして日夜AI開発に情熱を捧げている。

正月早々大きなニュースが飛び込んで来た。

DQN(ブロック崩しの攻略)、AlphaGo(囲碁で人間のトッププレイヤーに勝つ)と立て続けに成功を重ねて来たGoogle傘下の英DeepMind社が囲碁よりもさらに複雑なリアルタイムストラテジーゲーム(RTS)、「StarCraft2(SC2)」で人間に勝つという快挙を成し遂げたというのだ。

AlphaGoの場合、日本国内にもプロ棋士がたくさんいたので、AlphaGoの凄みについての解説は散見されたが、StarCraft2というかなり古いゲームで人間に勝利することの意味が大多数の人たちにとってはよくわからない、というのが正直なところではないだろうか。

「StarCraft」は1998年に発売されたPC用のリアルタイムストラテジーゲームで、これをリメイクしたものが2010年に発売された「StarCraft2」である。

なぜGoogleがこれを囲碁に続く題材に選んだのかといえば、韓国を中心に発したeスポーツで人気のゲームであり、また、単に人気があるだけでなく、軍団を組織し、偵察し、資源を確保し、研究してテクノロジーを進化させ、防御陣地を構築する戦略面と、実際に軍勢を率いて敵の陣地に攻め込む戦術面の両面が要求される頭脳的ゲームだからだろう。

囲碁は正直言って、理解するのが難しく、人間にとって「囲碁で勝った」ことの凄みがいまいち理解できない。ゲームになると間口はより広がる。その意味で、AIの「賢さ」を理解しやすいレベルにもっていくために、SC2は理想的な題材だったのだろう。

SC2向けのAI開発の歴史は古く、中国のTencentなどが挑戦しているが、人間のトッププレイヤーに勝ったというのが本当だとすれば、初の快挙である。

そこで筆者らは、ギリア社内で最もSC2に詳しいケヴィン・クラッツァーにGoogleがAlphaStarと呼ぶ戦略級AIの凄みを解説してもらうことにした。

ケヴィン自身も熱心なSC2プレイヤーであり、一時期彼が母国のドイツに戻っていたときなどは、筆者も個人的にケヴィンからSC2をプレイするよう勧められたことがある。

筆者もSC2ではないが、同じくリアルタイムストラテジー(RTS)ゲームのAge of Empiresシリーズなどは学生時代に仲間と集まって夜通しで遊ぶ程度には親しみがある。

RTSの面白さというのは、マップがランダムなことと、相手の本拠地がどこにあるのかわからないこと、内政を高めつつどんな戦略で相手の陣地に攻め込むための兵科を決定し、生産するかということを考えるところにある。

スタークラフトの場合、人間に近い科学文明を基盤とした種族のテラン、強靭な肉体を武器とした人海戦術のザーグ、強い信仰と精神波を武器としたプロトスのうちひとつを選んで戦う。

種族によって生産可能な武器や得意な戦術は全く異なり、相手の種族によって戦術を変えなければいけない。

囲碁とSC2は複雑さにおいてどのくらい違うかというと、囲碁の場合、初手のパターンは19*19=361でしかないが、SC2の場合、少なくともマップサイズは153×148、スタート時の持ち駒(Probe)が12、移動の指示が3種類あるため、移動コマンドだけで815,184パターンあり、囲碁に比べて圧倒的に複雑なことがわかる。

まだDeepMindから論文が発表されていないから詳細はわからないが、DeepMindの発表エントリから類推されるネットワーク構成は下図のようになるそうだ(ギリアインターン妹尾くんによる予想)。

このネットワークを完成させるために、Auto Regressionによって行動パターン数の爆発を防ぎ、Transformer(Attention is All you Need)によってピクセルとピクセルの間の
関係性(どれが資源でどれが味方でどれが敵かなど)を学び取り、Pointer Networkによって出力次元数を可変にし、Centralized value Baselineによって分散したエージェントの学習を効率化するなどの工夫がされている。

その結果、プレイヤーを揺動したり、人間業ではない緻密な戦術でプレイヤーを翻弄したりといった頭脳的なプレイができるようになった。これは率直に言って驚異的である。
興味のある人はぜひニコ生のタイムシフトをご覧いただきたい(http://live2.nicovideo.jp/watch/lv318387933)

というわけで、相変わらず派手派手しいDeepMindの発表だが、SC2のプレイヤーであるケヴィンからするとDeepMindが「StarCraft2をマスターとした」と主張することには明らかな問題点がある。

まず、今回のAlphaStarが実現したのは、あくまでも固定のマップで、プロトス族同士が対戦した場合に限ったもの。200年分くらいのプレイをしているが、同じマップで200年もプレイすれば強くなるのは当たり前で、当然ながら人間は毎回違うランダム生成されたマップで8年程度(しかも寝たりご飯を食べたりする時間を割り引けばもっと少ない)学習したに過ぎない。

200年プレイしても固定マップで特定種族の学習しかできないとするとまだまだ課題は多そうだ。

また、仮に全てのパターンを網羅した学習をしようとすると・・・

マップが固定の場合でも最低9億円弱の予算が必要になる。もちろんGoogleは社内経費だからもっと安く済ませているだろうが、これではeスポーツの賞金が1000万円でも90年間優勝し続けなければもとがとれない。

しかし従来はより単純化された囲碁のようなゲームでしか人間に対する優位性を示せなかったが、人間でも間口が広いゲームに対して深層強化学習が有効ということが証明されたのは間違いない。

ともかれ戦略級AIはここまで来たのだ。課題はまだ多いが、人類が国家戦略の一部をAIに委ねるようになる日もそう遠くないだろう。

2019年、Googleの”戦略級AI”はどこまで進んだか(そしてなにができないか)

Newsletter

Related Articles