• 執筆者一覧Contributors
  • メルマガ登録Newsletter
NVIDIAへの痛烈な一撃! リアルタイム音声応答APIを1/4の価格で提供 感情表現も可能に

NVIDIAへの痛烈な一撃! リアルタイム音声応答APIを1/4の価格で提供 感情表現も可能に

Updated by 清水 亮 on October 2, 2025, 17:15 pm JST

清水 亮 ryo_shimizu

新潟県長岡市生まれ。1990年代よりプログラマーとしてゲーム業界、モバイル業界などで数社の立ち上げに関わる。現在も現役のプログラマーとして日夜AI開発に情熱を捧げている。

SambaNovaは、米AIスタートアップ企業のHume AIと提携したことを発表した。Hume AIは感情表現を含む音声合成や既存の人物の発音を模倣するボイスクローニング、全く未知の人物の音声を作り出すボイスクリエーションといった音声合成技術に特化したスタートアップで、CEOのアラン・コーウェン氏はUCバークレーで心理学の博士号を習得した後、GoogleのAI部門において感情コンピューティングチームを率いていた異色の経歴の持ち主。

2021年に設立された同社では、AIが人間の感情を理解し、共感する能力を持つことが、今後のAI技術の発展において不可欠であると考え、感情知能を持つAIの開発を推進しているという。

今回の提携で、これまでOpenAIが提供してきた音声のリアルタイム応答を可能にするRealtimeAPIと同等以上の機能を1/4の価格で提供できるという。

今回、Hume AIのCEO、アラン氏が来日したので、SambaNovaのオフィスで詳しい話を聞いた。彼らにとってアメリカの次に大切な市場は日本だという。

この組み合わせが、特に日本の開発者や企業にとって「事件」とも言えるほどのインパクトを持つ理由が、彼らの話から明らかになった。結論から言えば、人間とAIのコミュニケーションのあり方を根底から覆す可能性を秘めた技術が、世界中のどこよりも速く、そして驚くほど安価に日本で利用可能になるのだ。

もはや「音声合成」ではない。「感情」を理解し話すAI

まず筆者が度肝を抜かれたのが、アランCEOが披露したHume AIのデモンストレーションだ。普段一般に知られている「テキスト読み上げ(TTS)」に比べると、非常に感情表現が豊かに感じる。

既存のTTSモデルでも、感情表現に配慮したものがなくはない。しかしどこかわざとらしさや抑揚のつけ過ぎといった問題を含んでいる。「ないよりはマシかもしれないけど、これだけあれば十分」という感じではない。しかし、Hume AIのそれは、頭ひとつ抜けている感じがする。ただし、この世界では、この程度の差は追いつかれたり追い抜かれたりするのは時間の問題だろう。

デモでは、わずか数秒の音声からその人の声質やアクセントをコピーする「ボイスクローニング」や、テキストプロンプト一つで「うんざりした様子のカウボーイ風の女性」といった全く新しいキャラクターボイスを創り出す「ボイスデザイン」が次々と実演された。驚くべきはその品質だ。単に声が似ているのではない。喜び、戸惑い、嫌悪といった感情のニュアンスまでが再現される。

その秘密は、Hume AIが採用する「スピーチ・ランゲージ・モデル」にある。これは、テキストを音声に変換するのではなく、音声から直接次の音声を予測・生成するSpeech-to-Speechのアプローチを取る。テキストという中間表現を挟まないことで、人間の会話が持つ独特の「間」やイントネーション、感情の機微を失うことなく、極めて自然で低遅延な対話を実現している。

特に印象的だったのは、近くリリースされるという日本語モデルだ。既存の音声AIにありがちな、いかにも機械的な「アナウンサー口調」はそこにはない。まるで人間と話しているかのような自然な抑揚とペースは、OpenAIのRealtime APIよりも自然に感じる。日本の多くのユーザーが待ち望んでいたものだろう。ほとんどの人は、電話越しだったらこの差を感じることは難しくなるかもしれない。アランCEOは「日本の顧客は品質への要求が非常に高い。だからこそ、我々の技術が評価されると信じている」と自信を見せる。

「世界最速」の秘密はSambaNovaにあり

この魔法のようなAI体験を、なぜHume AIは安定して提供できるのか。その答えは、もちろん独自の推論ハードウェアを持つSambaNovaの存在だ。

SambaNovaは、GPUとは異なる非ノイマン型アーキテクチャを持つ独自のAIプロセッサー「RDU(Reconfigurable Dataflow Unit)」を開発する企業だ。彼らの強みは、大規模言語モデルの推論処理における圧倒的な低遅延と電力効率にある。最近ではSambaNovaの会長でもあるLip-Bu Tan氏がインテルの会長に就任するなど、その技術力と将来性は折り紙付きだ。

そして、今回、Hume AIの日本語モデルは、日本国内に設置されたSambaNovaのサーバー上で稼働するという。

アランCEOはこう語る。

「物理的な距離は、遅延に直結します。日本のユーザーが私たちのサービスを使うとき、データは地球の裏側まで往復する必要がありません。つまり、日本のユーザーは、私たちの最先端の音声AIを世界で最も速く、快適に体験できるのです」

品質、遅延、コスト。AIサービスに求められるこの3つの要素を、Hume AIとSambaNovaのタッグは極めて高いレベルで満たそうとしているのだ。

OpenAIの「4倍安い」。開発者にとってのゲームチェンジャー

では、これだけの高品質なサービスは、さぞ高価なのだろうか? その問いに対する答えは、衝撃的だった。

「OpenAIのリアルタイム音声APIと比較して、我々のサービスは4倍安い

さらに、Hume AIの優位性は価格だけではない。OpenAIでは不可能なボイスクローニングやボイスデザインといった高度なカスタマイズが可能で、オープンソースの言語モデルと自由に組み合わせることもできる。

これは、日本の開発者コミュニティにとってまさにゲームチェンジャーとなりうる。コールセンターの自動応答、インタラクティブなゲームキャラクター、有名人の声を使ったオーディオブック制作、あるいは全く新しい対話型アプリケーションまで、これまでコストや技術的な制約で諦めていたアイデアを一気に現実のものとする可能性を秘めている。

嬉しいことに、この未来の技術を試すのに、順番待ちの必要はない。Hume AIの公式サイト(hume.ai)にアクセスすれば、誰でもすぐに無料クレジットでその実力を体験できるとのこと。

以前、OpenAIのRealtimeAPIの利便性に驚いてはみたものの、いざ実際に会社のWebページで営業窓口みたいなことをさせようとするとそのAPI利用料の高さがネックとなってなかなか導入に踏み切れないなということがあった。OpenAIのAPIを使うと、時給に換算すると1500円くらいになり、それが一人ならまだしも複数の顧客が大勢訪問した時にちゃんと対応するのが難しいからだ。

しかし、HumeAIなら時給500円程度で音声応答ができるということになる。これは画期的な安さだと思うし、これならちょっとしたインバウンド営業にも使えそうだ。

何より、NVIDIA一強だった時代から考えると、全くのダークホース的存在だったSambaNovaのような非ノイマン型のアプローチによる推論の高速化・高効率化によってAPIの提供価格が著しく安くなるのは福音と言える。

また、当のOpenAIも、NVIDIAからAMDに一部乗り換える動きも出てきている。

何でもかんでもNVIDIAという時代はいよいよ終焉に差し掛かっている。
これからが本当の競争の始まりと言えるのかもしれない。

Tags