マルチモーダル対話 (読み)まるちもーだるたいわ
人間がコミュニケーションで日常的に使う、音声、文章(自然言語)、身振り、手振り、表情、視線など複合的な手段(マルチモード)を使ってコンピュータに対話形式で処理を実行させようという考え方。
2019.01.23
ロボットというべきかアンドロイドというべきか、あるいはレプリカントかヒューマノイドか、なんと呼ぶかはいずれそのうち収まるところに収まるとしても、これらと人間と同じような感覚で対話するためには、彼|彼女たちにも人間と同じ種類と感度を持ったセンサーが必要になるはずだ。それがないと彼|彼女にはこちらがどういう状態にあるかわからないのだから、こちらが何を言ってるのか理解不能になるはずだ。
たとえば、よくあるシーンだが、真冬あるいは極寒の地のテントで二人きりになったときに「寒いね」と言っても彼|彼女に気温センサーがついてなかったら「ああそうなんですか」という返事しか期待できない。まして「こっちにおいでよ温めて上げる」なんて気の利いた返事はどう考えたって無理である(期待したくもないが)。
そもそもそういう返事ができるためには、それなりに大量の映画を見るとか小説読まないといけないという話も当然あるのだが、それは深層学習させれば数時間もかからずにできるようになると思う。が、たとえいくら学習して知識を溜め込んでもセンサー(現実を感じ取るデバイス)がなければ知識の使いみちがない、という悲劇というべきなのか喜劇というべきなのか、わからないが、ともかく「宝の持ち腐れ」になってしまう。
追記|ところで下の写真のキャプションにある「アトムくん(仮称)」とは、日本マンガ・アニメのレジェンド、手塚治虫(てづかおさむ)さんの代表作『鉄腕アトム』のことである。で、ふと「鉄腕アトムにはどんなセンサーが仕込まれていたのか、なんせ1950年代初頭の作品だからなぁ、センサーのセの字もないんじゃないか」と思ったのだが、とんでもない。Wikipedia(href="https://ja.wikipedia.org/wiki/鉄腕アトム)には「アトムの(中略)人工皮膚は(中略)2つのタイプの数千個のセンサーが埋め込まれている。」とある。さすが手塚治虫、さすが医学博士、さすがレジェンドである。が、Wikipedia以外でこの情報は見つからないので正確である保証はできません。
ついでと言っては失礼ですが、こんなの(https://atom2020.jp)もあります。
岩宮 眞一郎
九州大学出版会 (2011/07)
|3,600円(本体)
|A5判
|220p
|9784798500591
▼専門化が進んだ分野らしくて新書のような入門書は見あたりません。この本はマルチモーダル全体ではないようですが、そのほうが読んでいて面白い、なにかヒントが得られるのではないかと思います。