WirelessWire News Technology to implement the future

by Category

パーソナルAIの出現 / 誰でも無人島にパソコンに入れたAIを持っていける完全オフラインAIの時代

2024.08.22

Updated by Ryo Shimizu on August 22, 2024, 14:09 pm JST

今朝ほど公開した筆者の個人Noteが、早くも反響を呼んでいる。ある程度は予想はしていたが、この盛り上がりぶりは本欄でも言及するに足ると思ったので久々に筆を取った。

Huggingfaceが今週発表した「Speech-to-Speech」は、音声のみでAIとリアルタイム応答する「ローカルAI」の先駆けだった。

ただし、動作にはNVIDIAの高価なGPUが前提とされていて、お世辞にも「誰でも使える」というレベルには達していなかった。

しかし、その二日後には「Macだけで完全ローカルで動作可能」な派生バージョンが公開された。

ただし、これらは全て英語のみでの応答を想定しているため、いまいち自分で毎日使おうという気持ちにならなかった。そこで日本語化を試みたが、これが意外と難航し、久しぶりに徹夜でコードを書くハメになった(その前にゴールデン街で4時間くらい烏龍茶を飲んでいたが)。

その成果が、speech-to-speech-japaneseである。

日本語認識にはReazonSpeechを使い、内部言語モデルはLlama3-Swallow-8BのMLX版(8ビット量子化)を使い、発話モデルはMeloTTSを使用した。

ただ、MeloTTSは日本語以外の文字(アルファベットなど)が発音できないので多少の工夫が必要だった。

こうして出来上がったものは、完全に日本語で応答できるローカルモデルとなった。筆者の知る限り日本では初めてだろう。まあ大したことをやったわけではない。もとの構造そのものはhuggingfaceが作った英語版があって、それを日本語に変えただけだ(それでも徹夜することになるとは予想外だったが)。

これは、もちろん始まりに過ぎないが、いくつか自分で工夫を加えながらカスタマイズできるという点では新しいことがいくつもある。

たとえば発話。デフォルトではMeloTTSを使っているが、これは女性の声で、しかもどことなく外国訛りの感じがする。これをファインチューニングして好みの声に変えることもできるし、Macのsayコマンドを使うようにしてもっと発話を自然にすることもできる。もしくはずんだもんのような、親しみやすい発話に改造することも自由自在だ。

重要なのは、オープンで、ローカルで、カスタマイズ可能(ハック可能/ハッカブル)であることだ。
これを動かすのにもはやインターネット接続は必要ない。

将来的には、3万字以上の文字を生成できるLongWriterやプログラムに強いコード生成LLMなどを組み合わせつつ、自分だけの知識(ブログや過去の書籍など)を与えてローカルでRAG(Retrieve And Generation;与えられた知識をもとに検索と生成を組み合わせる手法)を組んで「自分の分身」のようなAIを作ることもできるし、それらを組み込んだMacを無人島に持っていくこともできる。太陽光発電と組み合わせれば無人島で無限にAIと会話できる。

こうなるとメモリがいくらあっても足りない。筆者のMacBookPro M2 Max/32GBでこのspeech-to-speech-Japaneseを動かすと14GBくらい消費する。もっと大きいLLMをサブで動かそうとすればもっと多くのメモリが必要になるだろう。

そうするとMacBookPro M3の128GBメモリ版などが欲しくなってくる。
本当はM4 MaxかM4 Ultraを待ちたいところだが、ローカルで動くことの価値というのは非常に高いので、いますぐ新しいMacを注文したい衝動にかられてしまう。

もしも噂通り、年内にAppleTVサイズのMac Miniが出るとしたら、それも有力な候補だ。背中に担いでしまえば電源さえなんとかすればいくらでも動くようにできる。

最近登場したCopilot+PCも、NPU(ニューラル処理ユニット)がいまのところ全く活用されていないようだが、同じようにローカルでLLMや音声認識・音声合成が動く可能性も開けてきた。

Apple Vision Proも、同じチップを積んでるので将来的には同じものが動く可能性もある。もちろんiPhoneでも完全ローカルで音声応答可能なAIが動くようになるだろう。

また、ローカルで動く以上はこれまでのように「万人に向けた」AIを作る必要はなくなる。
まずは自分が、自分の欲しいようにカスタマイズした「自分だけのAI」つまり「パーソナルAI」を作る時代がやってきたと言って良い。

これまでもローカルで動くLLMは存在していたが、常に何か物足りなかった。
僕がテレビや映画で散々見てきたAIと違うからだ

それが今はっきりとわかった。それは音声で応答できなかったからだ。
古今東西、しゃべる車も宇宙戦艦も、ドラえもんもコロ助も全て音声で応答していた。それができないものをどうも頭の中で「本当の知性である」とピンと来なかったようだ。

今、筆者は、ローカルで動かすべく色々と気になるLLMを片っ端からMLX化している。
これらをローカルで組みあわせて、自分が欲しいAIにカスタマイズしていくつもりだ。

すべての推論や計算をAIに行わせる必要はなく、「今何時?」みたいな質問だったら、AIが受け取る前にこっちで処理してカスタマイズしてやればいい。そこが最高なのである。すべてをブラックボックスに委ねる必要はない。

それで改めておもったのだが、AIの本質に「顔」はそれほど必要ない。人間は目を閉じることはできるが耳を閉じることはできない(手で塞がない限り)

それからわかるように、実は視覚的知性よりも聴覚的知性のほうがより人間に近く感じられるのである。

しかも素晴らしいのは、これはもはや一部の人だけが持てる高価な機械だけで動くのではなく、誰でも買えるパソコンで動くことだ。

これを機に世界中の若者や子供たちが「自分だけのAI」、つまり「真のパーソナルAI」を作る新時代の遊びに没頭してくれることを願ってやまない

WirelessWire Weekly

おすすめ記事と編集部のお知らせをお送りします。(毎週月曜日配信)

登録はこちら

清水 亮(しみず・りょう)

新潟県長岡市生まれ。1990年代よりプログラマーとしてゲーム業界、モバイル業界などで数社の立ち上げに関わる。現在も現役のプログラマーとして日夜AI開発に情熱を捧げている。

RELATED TAG