WirelessWire News Technology to implement the future

by Category

DeepSeek狂奏曲

2025.01.30

Updated by Ryo Shimizu on January 30, 2025, 08:35 am JST

DeepSeekという中国製のモデルが世界を席巻している。
OpenAIが有償で提供するo1より高性能だとか、OpenAIの規約に違反した方法で学習されているとか、色々あるのだが、それを噂する人々が不正確な情報に基づいてピーチクパーチクやっているだけなので基本的にメディアにはほぼ出鱈目な情報しか出ていない。

まず、整理しておきたいのは、DeepSeek(特にV3とR1)とは何か、ということだ。

DeepSeek-V3は、GPT-4o相当のAIであり、オープンウェイト(AIの学習結果=重みが公開されている)で公開されている。オープンソースではない。
DeepSeek-R1は、o1相当のAIであり、こちらもオープンウェイトで公開されている。

オープンウェイトで公開されているモデルは、色々な人が「蒸留」や「量子化」という手段を使ってより高速化したり、低容量化したりできることが特徴で、特にDeepSeek-R1の1.58ビット量子化モデルであるDeepSeek-R1-GGUFは、本来は80GBのVRAMを8基搭載したマシンが二台必要だったのが、80GBのVRAMを2基で動作させることができるようになっている。これはかなり画期的なことであり、しかもこれまでAIの推論に必要とされていた大量の浮動小数点数積和演算、つまり行列の掛け算と足し算が、ただの整数の足し算(と引き算/コンピュータにおいては同じ操作)に集約された。

この1.58ビット量子化という手法そのものはMicrosoftが先鞭をつけた技術で、奇しくもその論文中に「GPUではない新しい形の半導体が必要になるだろう」と書かれているのだが、実際にその威力を目の当たりにすることになった。

筆者もDeepSeek-R1の1.58ビット量子化モデルを試してみたが、その性能に舌を巻いた。
もちろんフルスペックのDeepSeek-R1よりも精度はかなり落ちるが、完全にローカル環境で、今でも二千万円くらいの予算があれば構築できる環境でこの規模のモデルが動くところは圧巻だし、かなり正確に答えてくれる。

「量子化」と「蒸留」は違う。「量子化」は計算精度を変えるということで、「蒸留」はあとで説明するが、「異なるモデルに再学習する」ということだ。量子化でも蒸留でも精度が劣化する可能性は高まるが、今回の1.58ビット量子化は、部分的に大胆な量子化を行うことで、ほとんど性能を劣化させずに88%に相当する部分を量子化することに成功した点がエポックメイキングだった。(元記事)

ところで、DeepSeekシリーズの学習にはOpenAIの出力が使われているという噂がある。
実際に、DeepSeekに「あなたを開発したのは?」と聞くと「OpenAIです」とか「Microsoftです」とか返ってくる。これはChatGPTやCopilotに質問した時と同じ反応なので、多分、OpenAIの出力を何らかの形で学習に使っているのだろう。そこが「オープンソース」ではない所以なのかもしれない。

OpenAIの利用規約では、ユーザーがAIの出力を使って対抗するモデルを学習することを禁止している。
だからこれが「不正な学習データ」で学習されたという主張があちこちでみられるようになった。

実は中国のモデルがこうした利用規約をしばしば無視して学習されるのは今に始まった事ではない。
そもそも、利用規約での縛りは、損害賠償項目まで書いてないと、サービス提供側にできるのは、「サービスの利用停止」措置だけだ。

しかしそもそもOpenAIのサービスと同等以上の性能を持つAIを手にした人が、OpenAIのサービスを使い続けたいと思うかどうかは疑問だし、この規約には罰則が足りてない。
AIが生成したデータには、著作権は認められない。これは今や世界的コンセンサスになりつつある。そもそもOpenAI自体が、ウェイトはおろか、学習に使ったソースを公開していない。
多くの会社がOpenAIを著作権侵害で訴えているが、著作権侵害の可能性があるデータで学習して有償サービスを提供しているOpenAIはDeepSeekを訴えることができるのか。

米国法では訴えることはできるかもしれないが、相手は中国の会社である。これが一筋縄では行きそうもないのは誰でも理解できる。

DeepSeekが示したのは、「こうすればできる」という方法の提示であり、色々な会社がこれに続いて独自の大規模言語モデルを訓練できることになる。DeepSeek-R1の「オープンになってない部分」を保管するOpen-R1のようなプロジェクトも始まった。

また、ChatGPTの学習結果を使って訓練されたモデルは、何もDeepSeekだけではない。
LlamaをChatGPTの出力データで再学習したVicunaや、中国のQwenといったモデルも、ChatGPTの生成データを学習していると言われる。

AIの世界では、こうした「他のモデルの出力結果を学習する」という手法がよく知られており、俗に「蒸留」と呼ばれる。

生成AIは、もともと適切な設備さえあればいくらでも蒸留できてしまうという欠点があり、かねてから生成AIそのものを知的財産にするのは難しいということは議論されていた。

筆者も第三次安倍内閣の際に、知的財産戦略本部隷下の「新たな情報財検討委員会」において、委員として「AIは蒸留されうる」という話をした。

「蒸留されうる」ということは、AIそのものをいくら保護しても、守れないということになる。
かといって、法律で蒸留を禁止した場合、さまざまな研究が停滞してしまうことになる。

コストをかけて訓練した生成AIが、競争相手にあっさりと蒸留されてしまっては元も子もない。
この問題点については当然、OpenAIも認識していたため、苦肉の策で利用規約に「他の生成AIへの蒸留は禁止」という項目を盛り込んだ。これは、西側諸国の会社や組織には意味がある牽制だったが、もしも手段を選ばずAIでトップに上り詰めようと思ったら、最初に無視されるであろう項目であることは明白だった。

かといって、アメリカ合衆国でAIの蒸留を法的に禁止することはかなり難しいだろう。「どこまでOKか」という線引きが難しいためだ。

これは長い間(と言ってもここ三年ほどだが、生成AI業界にとっての1年は、通常のテクノロジーにおける10年に相当する時間差がある)、西側諸国はこの「利用規約」というルールを守ってきた。今回は、たまたまDeepSeekが、出自に関するアンラーニング(学習したことを忘れさせたり上書きする技術)を行っていなかったため、誰がみてもわかる形で蒸留の疑いが出てきたが、もう少し注意深く悪意を持って作れば、全くそれと気づかれないような学習は容易にできる。トークナイザーを少し細工すればいい。

かねてから筆者が主張しているように、「生成AIに大金を投じても、それがオープンアクセスなものである限り、一夜にして価値を失うリスクを持つ」ことをもっと市場は認識する必要がある。

実はこの点に関しては、NTTやNECがとっているような、「クローズドLLM戦略」の方が正しい。みすぼらしいが、理に叶っている。オープンアクセスにすれば必ず蒸留される。蒸留されれば、訓練に使った金は水の泡と化す。
DeepSeekがOpenAIの百聞の1規模の予算で同等の性能のAIを作れたのはある意味当然で、それは蒸留にいかにコストがかからないかを示している。

また、実際のところDeepSeekのAPIの方がOpenAIのAPIよりも使い勝手がいいということもある。

まず、従量課金なので毎月高額な利用料を払わなくて済むし、同じAPIキーで大量にアクセスしても軽いのでブロックされない。デフォルトで6万トークンを読めるようになっているので、OpenAIのせせこましいティア3とかティア5とかの制限に悩まされなくて済む(OpenAIは、毎月の利用料金に応じてティアが区別され、特定のティア以上じゃないとAPIの制限が極端に激しくなる)。

中国に全ての情報がいくことが不安なら、A100やH100などの80GBクラスのGPUを二台搭載しただけのマシンか、もっと安い4090(24GB)を6台搭載したマシンがあれば1.58ビット量子化モデルをローカルで動かすことができる。このマシンは、500万円もあれば作れるだろう。

性能面に目を瞑れば、蒸留したモデルや量子化したモデルをApple Siliconを搭載したM4 MacBookProで動かすことも可能だ。

また、最近はQwenも100万トークン使えるようになったり、400万トークン使えるMiniMax-Text-01のようなオープンウェイトモデルが続々と登場してきた。こうなると、OpenAIのAPIは随分と見劣りする。扱うトークン数が増えれば増えるほど、トラフィックは増大し、クラウドは不利になる。

そして扱えるトークン数が多くなればなるほど、学習する必然性は無くなっていく。今のLLMは「インコンテキストラーニング」というものが主流だ。実際に学習させるのではなく、プロンプトに答えを含ませてしまうのだ。そうすれば確実に欲しい答えが得られる。

DeepSeekを株式市場におけるゲームチェンジャーだと捉える人がいるが、筆者から見ると、単にそれに気づかなかった人が不勉強だっただけだ。その兆候はかなり前から見られていたし、DeepSeek以前からQwenなどは同様にすごい性能を誇っていた。

この流れは、技術革新というよりも、市場の「目が覚めた」という状態であり、AI半導体バブルは、しばらく戻らないだろう。

より重要なのは、1.58ビット量子化で、実用的なモデルが登場したということだ。この単純な事実は、もっと深刻に受け止めなければならない。

最近、中国でバカ売れしてるのが、AX630Cという、低消費電力のAIプロセッサだ。
これはわずか4GBのメモリしか持っていないが、音声認識とLLM推論、音声合成ができる。これも整数で計算している。

先ほど述べたように、「学習」が必要な時代は終わりを迎えつつある。
文章生成ならインコンテキストラーニング、画像や動画生成ならリファレンス画像やリファレンス動画をもとによりクリエイターの意図を的確に伝える時代が到来している。

これからは学習ではなく推論が遥かに重要になる。推論が重要な時代には、必要なプロセッサはもはや(どう考えても)GPUではない。
SambaNovaのようなデータフロープロセッサや、GroqのようなLLM専用推論エンジンの必要性がどんどん増してくるだろう。

特に、大量の加算機があれば計算がこなせる1.58ビット量子化の恩恵は、例えば論理回路上にハードコードされた重みなどで威力を発揮するだろう。それはより低消費電力で、ボタン電池で動作し、生活のありとあらゆるところに入り込む。
文字通り、真の意味で、「モノのインテリジェント化」が果たされ、IoTは異なる意味を持つ。つまり、「Intelligent of Things」だ。これはインターネットがないところでも活動できる知性である。深海でも、深宇宙でも。

今日は久しぶりにゲンロンカフェでイベントをやる。AI研究者でありながら、現在は東京大学文学部に所属する大向教授とこの話を深掘りすることになるだろう。



WirelessWire Weekly

おすすめ記事と編集部のお知らせをお送りします。(毎週月曜日配信)

登録はこちら

清水 亮(しみず・りょう)

新潟県長岡市生まれ。1990年代よりプログラマーとしてゲーム業界、モバイル業界などで数社の立ち上げに関わる。現在も現役のプログラマーとして日夜AI開発に情熱を捧げている。

RELATED TAG