深層強化学習AI時代の”人間”の仕事

清水亮 ryo_shimizu

新潟県長岡市生まれ。1990年代よりプログラマーとしてゲーム業界、モバイル業界などで数社の立ち上げに関わる。現在も現役のプログラマーとして日夜AI開発に情熱を捧げている。

2022年は、AIはあまりニュースの話題にのぼらないだろうと思う。
なぜならば、もはやAIを用いることは当たり前になってきているからだ。
バズワードとしてのAIは2021年で終わった感がある。

一方で、AIの仕事は、うまくいけばいくほど地下に潜る性質がある。
すなわち、競争相手にどうやっているかを探られないように巧妙に隠す必要があるからだ。

次にニュースになるものがあるとすれば、AIがコンシューマ製品に搭載された時だが、たとえば「スマホにAI」は既に入っているのでニュース性がない。「ゲーム機にAI」が入っているのは当たり前であり、「テレビにAI」ももはや新鮮味がない。

アカデミズムの世界では、少し前までは、「ディープラーニングと組み合わせればとりあえず査読を突破する」という現象があらゆる分野で起きたが、今はそれだけでは難しい。

ビジネスにおいても、AIをバズワードとして一点突破するというのが難しいフェーズに突入している。
このフェーズにおいて、AIをどうビジネスに活用するかというのは考えるのも難しい。

たとえば、製品やサービスにAIを組み込むだけでニュースになる時代はもうすぐ終わる。

1960年代は、ルノーとシトロエンが「コンピュータによって設計された」自動車を売り出した。
当時はそれが物珍しかったのだ。

今、デザインにコンピュータを使うことは当たり前であり、ルノーにいた技術者、ピエール・ベジェとシトロエンの技術者、ド・カステリョによるバーンスタイン基底関数を用いた曲線方程式による美しいカーブは、今この原稿を読んでいるあなたの読むフォントのあらゆる部分にさえ用いられている。

今時、コンピュータを設計に用いるのは当たり前である。

このことから学ぶべきは、「バズワード」の時代が終わると、その後に本格的な普及段階が来るということだ。
実際、「コンピュータ」は大きく高価で、軍隊や政府や自動車会社くらいでないと買えなかった時代から、小さく軽く安くなり、1970年代には「パーソナルコンピュータ」なる商品が現れ始めた。

コンピュータは1940年代には存在自体が国家機密であり、1950年代から少しずつ民間に降りていき、1970年代にマニアが買えるものになり、1990年代にはごく普通の人でも使えるものになった。今日、コンピュータを使わない人の方が少数派だろうし、仮にスマホなどのコンピュータを持っていなくても、間接的にコンピュータの恩恵に預かっていない人類は、ほぼ皆無だろう。

同じように、AIも「AIを使って作りました」というバズワードの段階から、AIを使うことでどのような社会的インパクトが生まれるか考える、いわば潜伏期に入っており、最終的にはAIという言葉を使わずともAIを使っていることが当たり前になる。たとえばiPhoneを誰も「コンピュータ」とは呼ばないように、この変化は、言葉が表面上から消え失せ、水面下に潜った時に威力を発揮する。

さて、筆者の経営する会社が創業時から特に力を入れているのは深層強化学習という分野である。
創業して5年になるが、当時も今も、深層強化学習を実用化しようとする会社は皆無に近い。しかし筆者がなぜ深層強化学習に着目したかといえば、深層強化学習こそが人類の次なる進歩への扉を開くゲームチェンジャーだと信じているからだ。

深層学習(ディープラーニング)が登場した時、ほとんどの人は見せかけの成果に騙されて、それを過小評価しようとした。
たとえば「画像にしか使えない」「複雑なことはできない」「実際のところ役に立たない」「単なる統計である」という誤った理解が後をたたなかった。

今日では、そんなことを言えば笑い物になる。

しかし深層学習は、それ単体では「すごく進化したセンサー」に過ぎない。
人の姿形を認識し、感情を認識し、言葉を認識する。

認識はするし類推もしてくれるが、それだけである。
それだけでもものすごい進歩なので世界中の企業や政府がこぞって研究リソースを投じたのだが、大方の予想を裏切って深層学習は本当に成果を出してしまっている。

たいがい、この手の政府肝いりの研究分野というのは、いい線まで行ってズッコけるという歴史を繰り返してきた。我が国で言えば、旧通産省のΣプロジェクトや、第五世代コンピュータ、超電導など、苦い思い出とともに記憶されている。

特に我が国で言えば第五世代コンピュータ、いわゆる「AI」の研究は茨の道の連続だった。

だから、そうした苦い経験をしてきた先輩たちが「ちょっと有望そうな技術が出てきたからって飛びつくと馬鹿を見るぞ」と警句を発した気持ちも理解できなくはない。

しかし大方の予想を裏切って、深層学習はついに一線を飛び越えてしまったのだ。
筆者自身、2013年頃から本格的に仕事でニューラルネットを扱い始め、もうすぐ10年になるが、AIへの認識が当時とは大きく変化している。

一つのポイントとしては、当時とは違って、AI(ここでは深層学習された人工ニューラルネットをそう呼ぶことにする)が、できることとできないことがハッキリしてきたこと。

振り返れば当時からハッキリしていたのだが、当時は成果にばかり目がいってしまい、きちんと切り分けて理解することができなかった。

まず第一に、AIが学習できるのは、「微分可能な問題」だけである。
つまり、「微分不可能な問題」は学習できない。

当時騒がれていたビッグデータが実際にはあまり役に立たなかったのはこの性質のためだ。
つまり、「大量のデータだけ」あったとしても、そのデータをどう読み、どうしたいかという解釈がセットで存在していなければ学習することができないのだ。

たとえばよく使われるデータサイエンスの練習問題として、「年齢、収入、職種などから貸付可能金額を類推する」というものがある。

これは、実は「微分可能」な問題である可能性が高い。
明らかに借金の返済能力と収入や職種には相関関係がある。

芸能人は収入が高いが、不安定なのでどうしても返済能力を無条件に高評価する訳にはいかない。
反対に、収入そのものは低めでも公務員は安定しているので返済能力が高い、という評価は、ある程度はまでは信憑性を持って受け入れてもらえるだろう。

「返済できるかどうか」という部分が微分可能なので学習できるし、実際にこれは学習可能な問題として知られている。

反対に、「とにかく大量のデータがあるから、これをAIに食わせて何かわからないか」という相談を受けた場合、ほとんど成果を出すことができない。

目的もなく集められたデータを目的もなく分類しても、「分類された」という事実が示されるだけでそこから意味のある成果に繋げることは難しい。

これが最近のディープラーニングに対する一種の「なあんだ、それしかできないのか。がっかり」という印象につながっている。

ディープラーニングはあくまでも微分可能な問題しか解くことができない。
したがって、「そのデータをどう読み解くか」はある程度人間が考えてやらなければならない。

ところが、微分可能かどうかわからない問題を、微分可能にする方法が一つだけある。
それが深層強化学習だ。

深層強化学習がその圧倒的威力を見せつけたのは、2015年にGoogle傘下のDeepMind社が開発したアルファ碁の快進撃だ。

そもそも、囲碁の戦略というのは、それ単体では微分不可能な問題である。

ある盤面にいた時に、どこに自分の石を打てば良いか。
それを示すことができるなら苦労はしない。

実際、最初期の囲碁プログラムは、過去の人間の棋譜を元に、「この局面ではこう打つ」ということを学習していった。
この方法だと、定石を学ぶことはできるが、それだけで人間に勝つというのは難しい。

この方法で学習できることは、「この局面ではこう指した人間が多かった」というだけで、ほどほどの相手にはなっても強い相手にはならない。

ところが、アルファ碁は、深層学習を強化学習という古典的なアルゴリズムと組み合わせることで限界を突破することに成功した。

「ある局面でどう打つのが正解か」ということがその時点でわからないのであれば、遠い将来まで辿っていって、「ここに打ったら結局勝つ確率が高まったのか、低まったのか」ということを逆伝搬させて学習する、というのがそのアイデアの根本にある。

つまり、盤面を単独の「入力」としてみれば、「どこに打てばいいか」を決められないので微分可能にはならないが、そのもっと先の未来において、「勝った/負けた」という結果まで行けば微分可能である。

したがって、「負けた」盤面の時に、手を遡って行けば、「どうして負けたのか」「どの局面でどこに打ったから負けたのか」ということを突き止めることができるようになった。

そうなれば、過去の局面で「ここに打っては行けない」という、微分可能な問題に変換される。

優れたアイデアだった。
最初期のアルファ碁は人間の過去の棋譜をもとに学習していたが、すぐに棋譜を全く使わず、AI同士で対戦するだけで勝手に進化するアルファ碁ゼロが開発された。興味深いのは、アルファ碁ゼロは、アルファ碁より遥かに短い時間でアルファ碁を超える強さを身につけたことだ。

アルファ碁ゼロは、人間の棋譜から学習した初期のアルファ碁を三日で追い抜いた。さらに、囲碁だけでなく将棋やチェスも攻略できるアルファゼロが開発され、アルファゼロは二時間で最強の将棋AIを超え、四時間で最強のチェスAIを超え、8時間でアルファ碁ゼロを上回る強さを獲得した。

深層強化学習は、微視的(ある局面でどう打てばいいのか正解がわからない)には微分不可能な問題でも、巨視的(ゲーム全体で勝利したい)には微分可能な問題を解くことができる。

しかも、解くための具体的な方法は一切人間が支持する必要はなく、むしろ人間の判断を学習させると性能が落ちるという結果になっている。

ということは、これからの人間の役割は、深層強化学習AIが学習するために現実の問題を落とし込むことがメインになっていくはずである。

たとえば、会社に深層強化学習AIを組み込むことを考えてみる。わかりやすくするために店舗経営を例に取ろう。

店舗経営をする場合、考えなくてはならないのは、「何を仕入れるか」「いくらで仕入れるか」「いくらで売るか」「どのように売るか」「店員は何人が適切か」「バイトのシフトは誰がどのように組むか」と、いくらでも決めなければならないことがあり、しかもどれも「どうすればいいのかわからない」つまり、微視的には微分不可能な問題である。

しかし、最終的な目的が「会社の利益の最大化」であれば、巨視的には微分可能な問題に変換できる。
そして、最初の段階では「会社の利益の最大化」を目指した結果、新しく問題が発生するとする。

たとえば極端な低賃金で働いてくれるバイトが必要になるとか、極端に安いが質は低い製品を仕入れるようになるとか、極端に高い価格で売ろうとするといった、非現実的な解決策をAIが提案してきた場合、人間の経営者は新しい制約条件を次々と加えていく。

深層強化学習AIは、制約条件をいくら加えられても文句を言うことがない。
ひたすら、制約を満たすための方法を24時間寝ずに必死で考えるだけである。

深層強化学習AIが実際には何をしているのかというと、一番わかりやすいイメージは、映画「アベンジャーズ/インフィニティ・ウォー」におけるドクター・ストレンジがやったことだ。

ドクター・ストレンジは絶対者であるサノスに対抗する方法を探るため、1400万通りの未来を見にいく。
1400万通りの未来の中から、唯一、サノスに勝利する未来を探し当て、自らはサノスに指パッチンで消される。そして続く「エンドゲーム」でまさにドクター・ストレンジの見た1400万分の1の未来、アベンジャーズたちの勝利が掴み取られる。

深層強化学習AIは、言い方を変えれば、「”無限にある可能性の未来”の検索エンジン」である。
しかも面白いのは、普通のAIと違って、「なぜ今そうすべきなのか」を全部証拠として示すことができるところだ。
ここがドクター・ストレンジと違う、深層強化学習AIの親切なところだ。

そのかわり、業務に役立つ深層強化学習AIを作るのはとても難しい。
AIそのものへの知識はもとより、業務プロセスや数理モデル化の知識と経験が必要になる。

これから先、人間の役割は、「仕事とは何か」を考え、「自分の本当の目的は何か」を定義し、巨視的に微分可能な状態を作り出すことにある。そこまでできれば、あとはAIがどうすればいいのか教えてくれる。今すべき判断だけでなく未来への道筋までも。

ひょっとすると、「人間はどうあるべきか、幸福とは何か」を考えるような哲学の重要性が改めて見直されるかもしれない。

深層強化学習AI時代の”人間”の仕事

Newsletter

Related Articles