スクリーンショット 2016-08-24 7.40.06

AIは人間をどのように"拡張"するか

How to augment human by AI

2016.08.24

Updated by Ryo Shimizu on 8月 24, 2016, 07:38 am JST

 昨年の夏は非常に活発だったAI関連のニュースが、ちょうど一年経過してやや沈静化しています。

 コーネル大学図書館の提供する世界的論文アーカイブarXiv.orgでは、昨日も10編の新規論文が発表されており、依然研究は活発ですが、昨年のように毎日のように人工知能関連の新しい成果報告がはてなブックマークのようなメディアで話題になる、というほどではなくなってきています。

 とはいえ、昨年話題を集めた畳込みニューラル・ネットワーク(CNN;Convolutional Neural Network)も、今やリカレントニューラル・ネットワークの一種であるLSTM(Long Short Term Memory)と組み合わさったConvolutional LSTMへと当たり前のように進化し、先週発表された論文を読むと、3D Convolutional LSTMというのも出てきたようです。

スクリーンショット 2016-08-24 6.45.57
出典:https://github.com/chrischoy/3D-R2N2

 この世界はめまぐるしく進歩を続けているのは間違いないですが、毎週のようにさまざまな企業が深層学習への取り組みに対して新しい発表を行うという段階は過ぎたようです。

 むしろ出揃ってきた様々な魅惑的な道具、つまり畳込みニューラル・ネットワークやオートエンコーダ、LSTMやConvolutionalLSTMといった道具立てをどのように製品に活かしていくか、それを追求する段階に入っているということです。

 筆者らも、Chainerで学習させた単純なニューラル・ネットワークやオートエンコーダによって学習したニューラル・ネットワークを、C++言語の実装に落としこむ実験をしてみました。

 その結果、実用的に使うためには、きちんとネイティブ化した方が良いということもわかりました。もちろん仮説としてはそうなのですが、実際にネイティブ化するとどの程度のパフォーマンス向上が得られるか知るための指標になりました。

スクリーンショット 2016-08-19 23.37.00

 上図は筆者らがChainerで学習させたニューラル・ネットワークをC++言語に変換し、Intel Core i7プロセッサ用に最適化させた時のベンチマーク結果です。

 もとになったのは、5層のニューラル・ネットワークをオートエンコーダで学習させたものです。次元は784→400→100→49→16→3と減っていくようになっています。

スクリーンショット 2016-08-24 6.57.55
 

 オートエンコーダの学習には膨大な時間を要しますが、学習済みのオートエンコーダを利用して端末側で利用するにはネイティブ化されたコードの方がこの実験により実際にかなり効率的だということがわかりました。

 Core i7プロセッサは比較的高価なので、これをそのままインファレンスとして使うことはあまり想定できないでしょうが、RaspberryPiや組込み機器に搭載されるARMなど、機能あたりの消費電力が気になる場面ではネイティブ化は有効でしょう。

 これはひとつの例に過ぎませんが、他にも既にDSP(デジタル信号処理)チップで畳込みニューラル・ネットワークをハードウェア実装するCEVA社のような例もあります。

 既にここまで来ているということは、深層学習が単なるバズワードではなく、本格的な実用段階の準備に入ったと考えて間違いないでしょう。

 それでも実際に深層学習の成果を何に活かせばいいのか、今の段階では各社手探りが続いています。

 筆者の所属する株式会社UEIにも、毎日のように深層学習に関して大小様々な相談が持ち込まれますが、一番有効に効きそうなのは「今どうしても人間が必要と言われている作業があるのだけれども、単純産業だし、熟練した人にしかわからないものがあって、これを半分でも自動化できたらとても助かる」というようなものです。

 要は泥臭い作業の半自動化です。
 深層学習が泥臭い作業を半自動化するということで、既に実用的に使われている例でいえば、ドワンゴのケースがあります。

 ドワンゴは日本でもっとも進んだ人工知能研究者を擁する民間企業のひとつです。東京大学と連携したドワンゴ人工知能研究所が設置されているだけでなく、社内の生え抜きで構成された知能情報セクションでも独自に深層学習をサービスへ取り入れる取り組みをしています。

 その中でも興味深いのは、「ニコニコ生放送のネガティブコメント検出」への深層学習の応用です。

 ニコニコ生放送は、ご存知の通り、動画のライブストリーミング映像にコメントがリアルタイムで合成されるサービスですが、場合によっては番組の都合で、出演者を不快にさせるようなコメントを非表示にする必要があります。

 これを従来は人力で行っていたそうですが、ここに深層学習技術のひとつ、LSTMを利用したネガティブコメント判定を導入することで、従来に比べて極めて効率的にネガティブコメントを判定できるようになったそうです。

 これにより、例えばそれまで常時8人が目視監視していたネガティブコメントのうち、「絶対にシロ(問題ない)」のコメントは自動的に表示して、「グレー、またはクロ」のコメントは人為的に抜き出す、ようにすることで、3人まで監視要員を減らせる、といった成果が出たそうです。

 この成果は昨年末に開催されたChainer Meetup Vol.2で発表されました。

 このように「完全に人工知能まかせにはしづらいだろうけど、少しでも手間が省ければ御の字」という案件に関して、現状のAIは非常に大きな強みを発揮します。

 ドワンゴのケースの興味深いところは、人間がやっている作業そのものが、人工知能をさらにブラッシュアップさせるための教師データ(学習用データ)の作成にもなっていることです。

 つまり、AI化というのは、ある日突然行われるというよりも、少しずつ人間の生活に浸透していって、気がつくとあちこちにAIが偏在するようになっているだろうということです。

 映画や漫画などでは、もの凄いAIというのがある日突然生まれて、それは生まれた瞬間から賢くて、なんでも吸収していって、いつしか人類の敵になる、というイメージが語られます。

 しかし実際の人工知能研究者の方々に取材をすると、そんなイメージを誰も持っていないことがわかります。

 そもそも学習のためには膨大な計算リソースや電力が必要だし、それが際限なく暴走することは原理的に言ってあり得ないというわけです。

 例えば、仮に凄いAIの萌芽が生まれたとしましょう。
 このAIが自分の生まれたサーバから外に出るためには、まずハッキングを覚えなければなりません。

 自然に生まれた人間が何の知識もなしにハッキングができないのと同様、AIも知識がなければハッキングできません。

 現状のAIの延長線上に人間と全く同じように思考し、成長できるAIが仮に生まれたとしても、そのAIは知識をネットでしか仕入れることができないのです。だとすれば、まず最初にやるべきは、そのAIにはKids Yahooしか見せない、という手もありますし、プログラミングという概念に触れさせないとか、まあいっそネットを見せないという手もあります。

 どんなに優れた人間でも、実力行使の方法がなければ産まれた場所から外に出ることはできないはずです。

 それでも、何らかの方法で"彼女"がハッキングを覚え、外の世界(ほかのコンピュータ)に自分の複製を作ることに成功したとしましょう。

 それが何テラバイトになるかわかりませんが、そもそもそれが動作可能なコンピュータというのは多くありません。

 また、それが動作するためのフレームワークが相手方のコンピュータにインストールされているとも限りません。

 そしてハッキングした結果、"彼女"がとても賢く自分の複製を他のコンピュータにコピーし、動作させることが仮にできたとしても、"彼女"の複製が学習を継続するのは極めて困難です。

 そのへんのパソコンではとりあえずなにも学習できないからです。

 すると"彼女"は自分が学習を続けるために大規模なGPUクラウドを探してネットを彷徨い続けるわけですが、当然ながらGPUクラウドは高価なため、どれも厳重に守られています。それこそ人間のハッカーでさえ手も足も出ないような、最終的にはソーシャルハックに頼らざるをえないような場所で厳重にプロテクトされているはずです。

 まあそう考えると人間と同等程度の知能しか持たないAIが、勝手に知能を持って人間の管理から逃げ出したり、自分の複製をあちこちつくって人間に敵対したりというのはそもそも荒唐無稽もいいところです。

 それでもひとつの夢として、SF映画に出てくるような、巨大な超知能としてのAIがNSAだかCIAだかの地下室にあって、それに相談に行く相談者の行列ができるということがもしあれば、それはそれで面白いなあとは思います。

 筆者がイメージするAIとの生活は、それよりはだいぶ落ち着いています。
 それは、見えない妖精さんです。

 Siriの問題点は、見えることだと思います。
 つまりSiriという擬似AIの存在が強く意識されてしまうことです。

 この種の研究をヒューマンエージェントインタラクションといいますが、要するに擬人化した人格であるSiriに、人間が話しかけるという形態です。

 Siriが思ったよりウケなかったのは、みんな心のなかでどことなく「欲しかったAIは、別にこういうのじゃないんだよなあ」と思ったからではないでしょうか。

 SiriはAIというよりも音声駆動の携帯電話です。そしてボイスコマンドはいまや珍しくもなんともないわけです。ある意味で想像を超えたことがなにもないわけですね。

 なぜならば、Siriは人間のように見せているから。
 でも人間のように見せれば見せるほど、人間ではないという部分が強調されます。

 あるべきAIは、影に隠れて、人知れず人間をアシストする守護霊のようなものだと思います。

 AIがあることを意識させず、ただユーザーが自分の能力が拡張されたと感じるポイントが一日に一回くらいある、使っているときは使っていることそのものを意識することなく、しかし使い終わると明らかに自分の能力がダウンしたと感じるようなものになるでしょう。

 これは眼鏡やコンタクトレンズと同じイメージです。
 眼鏡をかける人は、朝起きて眼鏡をかける度に「眼鏡は素晴らしい(ないと困る)」と思うはずです。なぜなら眼鏡は無電源で人間の資格能力を拡張できるからです。

 AIがどのような形で人間の思考をサポートするようになるか、まだわかりませんが、たとえばニコ生のケースのようにコメントを自動的に判別してくれるというのはひとつの形態として充分あり得るでしょう。

 漫画ドラゴンボールに出てくるスカウターにしても、あれがどういう原理のものかはよくわかりませんが、似たようなものは畳込みニューラル・ネットワークで再現可能なのではないかと思います。

 要するに視覚情報から相手の「強さ」を推定する回帰問題を解くニューラル・ネットワークが内蔵されているというイメージです。回帰問題を解くニューラル・ネットワーク、つまり相関関係から強さを推定するAIなので、未学習の対象であってもおおよその強さがわかることになります。

 もちろん、スカウターが根拠とするのは視覚情報だけではないかもしれませんが、あれも一種のAIによる人間の能力拡張の例と言えます。

 もっとも、劇中のサイヤ人たちはスカウターで「強い」と表示されてもその表示を信じないのであんまりうまくAIを活用しているとは言えないんですけどね・・・。

 まあ一気に下世話な話に移りますが、わかりやすく誰でも欲しいと思うだろう応用製品は「恋愛スカウター」とでも言うべきものでしょう。

 すなわち、目の前の相手がこちらに脈があるのか、ないのか、冷静な第三者の眼としてAIが相手の表情や仕草、音声を解析し、「イケる」「今日はやめとけ」などのアドバイスをしてくれるだけでも、人間はAIに感謝するのではないかと思います。

 いわば「空気を読めない人が空気を読めるようになるAI」です。

 こういうAIが浸透すると、思わぬ出会いや恋愛が生まれたりして、少子高齢化の抑止力になる・・・というのは半分冗談ですが、こういうものがあったら初期のAI応用製品(オモチャ)としてはだいぶ、人気が出ちゃいそうですけどねえ。

WirelessWire Weekly

おすすめ記事と編集部のお知らせをお送りします。(毎週月曜日配信)

登録はこちら

清水 亮(しみず・りょう)

1976年新潟県長岡市うまれ。6歳の頃からプログラミングを始め、16歳で3DCGライブラリを開発、以後、リアルタイム3DCG技術者としてのキャリアを歩むが、21歳より米MicrosoftにてDirectXの仕事に携わった後、99年、ドワンゴで携帯電話事業を立上げる。'03年より独立し、現職。'05年独立行政法人IPAより天才プログラマーとして認定される。

RELATED NEWS

RELATED TAG