主要スマートスピーカー/AIアシスタントを比較してみた

画像はイメージです　original image: © beeboys - Fotolia.com

主要スマートスピーカー/AIアシスタントを比較してみた

2018.01.27

Updated by Ryo Shimizu on January 27, 2018, 12:14 pm JST

19958891_10156809659415752_8334171208471162161_n

自分の自宅にAlexaが来て、オフィスにもぜひ欲しいと思っていてもなかなかAmazon Echoの二個目の招待が来ないので、Google Homeを買った(この招待メール戦術は誤りではないか?　ヘビーユーザーも大事にしてほしい)。

Google HomeはChromecastと連動できるので、自室にある液晶テレビにChromecastを接続し、「OK Google、ディープマインドの動画を再生」と指示すると、実際にビデオが再生される。あんまり細かいことを頼もうとすると二言目には「すみません。お役に立てそうにありません。もっと勉強します」と音を上げる。基本的にGoogleアシスタントは根性がない。

Googleアシスタントは極めて融通が利かない。これが、Amazon EchoのAlexaだとかなりの発言の揺れにも対応している。

Alexaは、話し方をだいぶラフにしても対応することができる。「アレクサ、カレンダーに今夜七時に会食の予定を入れて」とか、けっこう長い命令でもちゃんと解釈してくれるが、Googleの場合、かなり厳密にしゃべらないと解釈に常に失敗する。まるでこっちがロボットにされているようだ。

ちなみに普段オフィスで使用しているMicrosoft Surface StudioにもCortanaというアシスタントが搭載されている。「コルタナさん」と話しかけると反応するが、

「コルタナさん、YouTubeでディープマインドの動画を再生して」と頼むと、「ユーチューブでDVDの動画を再生」という謎の検索キーワードでBingを検索した結果を表示する。だめだコリャ

やはり一番よくできてるのはアレクサで、なにがいいって、会話シナリオの作りこみだろう。

Googleアシスタントにしろ、Siriにしろ、アレクサにしろ、コルタナにしろ、最近の大メーカーが「AI」的なものとして売り込んでいる「アシスタント」は、すべて僕が言う第二世代のAIであり、ここ数年話題の深層学習の成果はほとんど組み込まれていない。しいて言えば音声認識のところに多少は使われているかもしれないが、会話の内容そのものは、古き良き80年代のジョークソフトウェアと大差ない。

要は会話ボットであり、昔ながらの人工無能の焼き直しに過ぎない。

今更こんなことを言っても仕方がないが、僕は高校生のころ、人工無能こそ未来のコンピュータのフロントエンドである、という主旨の記事を書いたことがある。僕は中学から高校にかけて人工無能に夢中だったし、同級生に遊ばせてはゲラゲラ笑っていた。

ただし人工無能というのは、シナリオの作りこみが出来を大きく左右する。人間の会話からどの部分を拾うか、どこを広げるかということが大事になるし、これを構築するにはウィットに富んだ会話センスが要求される。

世の中の大半のAIアシスタントと呼ばれるソフトウェア群が、実際には頭の中身が空っぽのマヌケな人格もどきに思えるのは、その原理にいかに崇高かつ複雑なプログラムがあろうと、作られたシナリオが非人間的なものであるならば当然だし、それと対応する人間も非人間的な対応を要求されるからだ。

Siriが出てきたときにこれが「人工知能」と呼ばれることには抵抗があった。それがまったく知性の片鱗のようなものを持っていないことはほとんど明らかに思えたからだ。そして実際にSiriはそのようなものだった。

それからAlexaが出てGoogle Homeが出て、Cortanaが出てきたとき、いつのまにか「人工知能」という言葉は市民権を得るようになっていた。僕が人工知能に真の「知能性」を感じたのは深層学習だけだが、こうした深層学習をほとんど全く使っていないAIもどきが、実は意外と役立つ道具であることがなんとなくわかってきた気がした。

今のところ、こうしたアシスタントたちは単なる音声リモコン以上でも以下でもないが、音声リモコンが音声キーボードになり、音声キーボードで音声プログラミングをするようになる時代は意外と遠くないのかもしれない。

例えば、たとえば料理中に「アレクサ、タイマー五分」と言ったりする。目覚まし時計の設定はプログラミングであるという増井俊之流の定義に従えば、これは音声プログラミングと言える。

とはいえ、まだまだスマートスピーカーにねらった通りの動作をさせるのはコツがいる。

Google Homeにひどく腹が立つのは、自分が聞き間違っただけなのに「ごめんなさい」とわざわざ言うところだ。Alexaは単に認識ミスを無視する。

相手が人間だったらどうだろうか。よく聞き取れなかったら、聞かなかったことにして聞き流すのが普通だ。これが円滑に音声で意思疎通をする方法として知られているはずなのだ。

だから、Alexaと話すのはGoogleアシスタントと話すのに比べて極端にストレスが少ない。

しかし、Googleアシスタントは「OK Google、sin0.5π」と聞くと即座に「答えは1です」と答える。ビジネス上のアシスタントとしてはなかなか有能なのだ。もちろん実用的にはもうちょっとなのだが、声で計算をお願いして声で答えてもらうのはなかなかだ。

「OK Google、余弦定理を教えて」とかには反応しないし、自然対数eを何乗しろ、とかもダメだった。しかしsin(サイン)とcos(コサイン)には対応しているのはすごい。

英語には対象を男女問わず「オフィス・ワイフ」という言葉があるが、まさしくGoogleアシスタントはそんな感じだ。融通が利かないのもまあそれなりにリアルである。

気分的にはAlexaは本命の恋人や家族に近く、Googleアシスタントは秘書(実際の人間の秘書はもっとはるかに優秀で融通が利く。少なくともいまのところは)、Siriは異性の友達、Cortanaはペットのような感じである。

Cortanaの役に立たなさは異常なレベルで、MSではCortanaを使ってアポ調整をしたりしているらしいが、よくそんな恐ろしいことができるなと思う。

少なくともこうしたアシスタント機器の登場によって、ようやく不特定話者の音声認識が実用的なレベルに到達してきたな、ということはよくわかった。

僕はよく、computerという英単語は「計算する人」という意味でもともと使われており、それがいつのまにかデジタル・コンピューターを意味するようになり、職業としてのコンピュータは忘れ去られた、という話をよくする。

それと同じように、「アシスタント」という言葉は、いまのところ「補佐する人」という意味でつかわれているが、そのうち単にAIのことを指すようになるのかもしれない。

例えば、取引先に「アシスタントから日程調整のメールを送付させていただきます」とアシスタントにccをつけて送ったとき、そのアシスタントが人間であるかどうかはどうでもいいではないか。

そのアシスタントに人間のような名前がつけられていて、丁寧な言葉を話し、それなりの融通を利かせてくれて、快適にアポ調整ができるとき、それは本当に人間である必要があるのだろうか。

いつの日か、知らないうちにあなたが接している誰かの「アシスタント」が、人間でなくなっていてもそうおかしくはない。

おすすめ記事と編集部のお知らせをお送りします。（毎週月曜日配信）

登録はこちら

清水亮（しみず・りょう）

新潟県長岡市生まれ。1990年代よりプログラマーとしてゲーム業界、モバイル業界などで数社の立ち上げに関わる。現在も現役のプログラマーとして日夜AI開発に情熱を捧げている。

「Skype Translator」プレビュー版の登録受付開始 - 英語ースペイン語の会話翻訳から実装

ビッグローブがAndroid搭載IoT端末を提供、AI活用ソリューションなど法人向けに

セキュリティ人材不足と増大する脅威対応を生成AI活用で解決へ、NTT Comが新ソリューション

[PR]東北経済の種を蒔く仙台市の中小企業・スタートアップ支援の取り組み

PREVIOUS
NEWS

自動運転に関連した海外メディアの報道　2018年1月第四週

既存の車を手軽にセキュアなコネクテッドカーに変身させる方法とは――ソリトンシステムズ、IIC

NEXT
NEWS