人間に対するのと同じような感覚でロボットと対話するためにはマルチモーダル対話技術が必須になる

マルチモーダル対話（読み）まるちもーだるたいわ

人間がコミュニケーションで日常的に使う、音声、文章（自然言語）、身振り、手振り、表情、視線など複合的な手段（マルチモード）を使ってコンピュータに対話形式で処理を実行させようという考え方。

人間に対するのと同じような感覚でロボットと対話するためにはマルチモーダル対話技術が必須になる

2019.01.23

Updated by Test TESTER on January 23, 2019, 10:42 am JST

関連記事: あうんの呼吸で対話する人工知能「Aung-AI」をどうデザインするか？　－シンギュラリティ・サロン第11回公開講演会リポート－

関連項目: スマートフォンが「安心デバイス」になるのは多種多様なセンサーを持っているからである; 深層学習によって「知性」を獲得するはずの彼｜彼女は「知のフランケンシュタイン」なのだろうか

ロボットというべきかアンドロイドというべきか、あるいはレプリカントかヒューマノイドか、なんと呼ぶかはいずれそのうち収まるところに収まるとしても、これらと人間と同じような感覚で対話するためには、彼｜彼女たちにも人間と同じ種類と感度を持ったセンサーが必要になるはずだ。それがないと彼｜彼女にはこちらがどういう状態にあるかわからないのだから、こちらが何を言ってるのか理解不能になるはずだ。
たとえば、よくあるシーンだが、真冬あるいは極寒の地のテントで二人きりになったときに「寒いね」と言っても彼｜彼女に気温センサーがついてなかったら「ああそうなんですか」という返事しか期待できない。まして「こっちにおいでよ温めて上げる」なんて気の利いた返事はどう考えたって無理である（期待したくもないが）。
そもそもそういう返事ができるためには、それなりに大量の映画を見るとか小説読まないといけないという話も当然あるのだが、それは深層学習させれば数時間もかからずにできるようになると思う。が、たとえいくら学習して知識を溜め込んでもセンサー（現実を感じ取るデバイス）がなければ知識の使いみちがない、という悲劇というべきなのか喜劇というべきなのか、わからないが、ともかく「宝の持ち腐れ」になってしまう。

追記｜ところで下の写真のキャプションにある「アトムくん（仮称）」とは、日本マンガ・アニメのレジェンド、手塚治虫（てづかおさむ）さんの代表作『鉄腕アトム』のことである。で、ふと「鉄腕アトムにはどんなセンサーが仕込まれていたのか、なんせ1950年代初頭の作品だからなぁ、センサーのセの字もないんじゃないか」と思ったのだが、とんでもない。Wikipedia（href="https://ja.wikipedia.org/wiki/鉄腕アトム）には「アトムの（中略）人工皮膚は（中略）２つのタイプの数千個のセンサーが埋め込まれている。」とある。さすが手塚治虫、さすが医学博士、さすがレジェンドである。が、Wikipedia以外でこの情報は見つからないので正確である保証はできません。
ついでと言っては失礼ですが、こんなの（https://atom2020.jp）もあります。

これをアトムくん（仮称）の目の前に突き出してどういう反応をするか見てみたい。

音楽と映像のマルチモーダル・コミュニケーション（改訂版）

岩宮眞一郎
九州大学出版会 (2011/07)

｜3,600円（本体）
｜A5判
｜220p
｜9784798500591
▼専門化が進んだ分野らしくて新書のような入門書は見あたりません。この本はマルチモーダル全体ではないようですが、そのほうが読んでいて面白い、なにかヒントが得られるのではないかと思います。

人間に対するのと同じような感覚でロボットと対話するためにはマルチモーダル対話技術が必須になる

音楽と映像のマルチモーダル・コミュニケーション （改訂版）

音楽と映像のマルチモーダル・コミュニケーション（改訂版）