会話で接客するロボット、アーティフィシャルエグゼビターの開発

2021.04.08

Updated by Ryo Shimizu on April 8, 2021, 07:26 am JST

昨日から、東京ビッグサイトの青海展示場で、「第5回AI・人工知能EXPO【春】」が開幕した。
初回から色々な形で出展を続けている筆者も、気がつくとディープラーニングゾーンで最大規模の展示ブースとなっていて驚いた。

2017年にソニーCSLとスタートしたギリア株式会社も、家庭教師のトライ様の学習診断AIを皮切りに実績が積み上がってきて、こうして展示会に発表できる事例が増えてきた。

特に初日に注目を集めたのは、スマートポスト、要はハイテク版街路灯である。
これのポイントは、街路灯とカメラと通信装置が一体化しているところで、災害時などに各地の状況を把握したり、スマホを充電したり、WiFi拠点になることが想定されている。

また、自治体に自分や家族の顔を登録しておくと、カメラに顔を見せるだけで家族の生存確認や、家族の生存が確認された位置を液晶に表示する機能までついてる。

こうした商品は、まさしく災害大国であるこれからの日本になくてはならない設備だと思う。

さて、筆者が管轄する研究開発部のブースでは、いつものように開発中の製品や実験を公開している。
今年は強化学習したサッカーと、接客用会話ロボットの展示を行った。

今回はソニーインタラクティブエンターテインメント様の協力を得て、ロボット玩具toioを8台接続したiPhoneで8つのニューラルネットを同時に動かし、サッカーの試合を戦わせる展示を行った。シミュレーション環境で学習したものを現実のロボットに落とし込むというのは、「やればできそうだが実際にやるのは結構大変」なものの良い例である。

筆者が直接開発に関わったのは、接客ロボットの方だ。

このロボットを作ろうと思った動機は、AIは製品や機能の説明が難しいものが多く、アルバイトの説明員では十分な説明ができないことから、部分的にでもAIロボットに聞くことができれば大きな手助けになると思ったからだ。

実際、前回の展示会ではコンパニオンさんを雇うのをやめ、全て社員で対応しようとしたが、今度はお客様が大量に来すぎて捌けなくなってしまった。

そういう切実な事情から生まれたものなので、最初は「どう接客するべきか」ということに注力して研究した。

また、その過程で、オーナーのワンオペで客が増えると捌ききれなくて困っているワインバーがあり、ワインの提案などの接客もディープラーニングの強みを生かして実装できそうだ、という目論見もあった。

ディープラーニングを得意とする会社だから、ディープラーニングだけで接客する会話が作れないか実験したが、すぐにだめだとわかった。

会話AIは、時折差別的な発言が問題視されたりすることがあるが、あれはそもそも、会話文をAI自体に生成させているから起きる問題である。

ディープラーニングの良いところは、開発者の想像もつかない結果を時折生成してくれるところなのだが、文章の生成に適用すると完全に間違ったことを言い始めたり、矛盾したことを言い始めたりしてコントロールできなくなる。

そこで、ディープラーニングは人間の曖昧な表現の意図を汲み取ることや、自然言語の構文解析をする部分だけに集中させて、従来よりも柔軟で高機能なスクリプトを書けるハイブリッドの会話エンジンの開発に着手した。

我々がAIIMLと呼ぶ独自のスクリプト記述言語は、一般のチャットボットで用いられているAIMLとは異なり、ディープラーニングによるサブシステムやデータベースへのアクセスが容易になっている。AIMLはArtificial Intelligence Markup Languageであるが、AIIMLは、Artificial Illusional Intelligence Markup Languageの頭字語だ。重要なのは知性(intelligence)ではなく錯覚(illusion)なのであると言うコンセプトだ。

音声認識と音声合成は現在のところGoogleのAPIを有償で使っているが、これはいつでも他のものに代替可能なモジュールだ。
キャラクター表示部分はVRMとHTML5で、ブラウザだけからも使うことができる。

展示では、コロナ対策も考えてフットペダルを押している間だけ人間の声を聞くようにした。

参考展示した目的は、来場者が実際にこうした(少し不気味にも思える)人間の形をしたインターフェースに対してどんな言葉を投げかけるか、そのデータ(言葉)を収集するためで、これを案件化するためではなかった。

ただ、作ってみてわかったのは、最も重要なのは、スクリプトだと言うことだ。
スクリプトを実際に書きながらエンジンの修正をしなければならないが、チャットボットのスクリプトと言うのは、プロのライターが書くことはほぼないので、よくできたスクリプトというのは、SiriとAlexaしかない。それにしても、SiriもAlexaも接客を目的としていないのでそのままでは使えない。

結局、大量の文章が書けて接客ができてディープラーニングとプログラミングができる人間でないと良いスクリプトが書けない。
そのうちスクリプトの記述法が安定してきたらそこまで専門性はいらなくなるはずだが、この条件に当てはまるのは会社では僕と布留川英一しかいないので、二人であーでもないこうでもないと言いながら開発することになった。

結果、AI分野では新書1.5冊分に相当する15万字程度のスクリプトを書くことができた。
ここまで書けるようになると、記述法が安定してきてAIIMLの文法や仕様にも反映させることができる。

AIIMLはPythonでプラグインを書けるようになっているので、自分なりに効率的な記述法を試したり、一部分をExcelにして読み込んだり、好きなように拡張できる。

音声インターフェースだけではなく視覚的なインターフェースが重要なのは、人間は、筒のようなものが室内にあったとしても、それに話しかけることはなかなかしない、と言うことだ。

これは、自社で全ての会議室にGoogleアシスタントを置いた時、余計な時に会話に割り込んできて、必要な時には存在していることを忘れてしまうということがあったので、人の形をしたもの・・・専門用語ではヒューマン・エージェント・インタラクションと呼ぶが・・・はどうしても必要だったのだ。

会場ではオフになっているが、ユーザーの体の動きも検知して、ロボットの前から立ち去ったら自動的に会話を終了するような仕掛けも入っている。

このロボット、アーティフィシャルエグゼビター(人工展示説明員)のプロトタイプを我々は「GheliaM(ギリア・エム)」と呼ぶことにした。

このロボットは、単に会話によって省力化を達成することを目的とするのではなく、人間の知性の輝きを反射して輝き、さらに人間の知性の隠れた能力を照らし出す鏡のような役割を持っている。

会話ロボットは今後、もっと面白い方向に発展していくだろう。

おすすめ記事と編集部のお知らせをお送りします。（毎週月曜日配信）

登録はこちら

清水亮（しみず・りょう）

新潟県長岡市生まれ。1990年代よりプログラマーとしてゲーム業界、モバイル業界などで数社の立ち上げに関わる。現在も現役のプログラマーとして日夜AI開発に情熱を捧げている。

Siri開発者が次世代AIアシスタント技術「Viv」をデモ

AIは監視資本主義とデジタル封建主義を完成させるか

フジテレビの凋落と八百万(やおよろず)のAI

[PR]セキュアなエッジデバイスとブロックチェーンでIoTデバイスの真正性を確保、NECがサービス提供へ

PREVIOUS
NEWS

セキュアな共同利用型オフィスを「認証」、安全なリモートワーク環境の目安に

「私たちは言葉を食べている」食品言語学のススメ

NEXT
NEWS