WirelessWire News Technology to implement the future

by Category

ホームブリューLLMの時代

2023.12.13

Updated by Ryo Shimizu on December 13, 2023, 13:11 pm JST

AIの自家醸造(ホームブリュー)が世界的に流行りつつある。
最も有名なのはCivitAIのような、さまざまなキャラクターや衣装、ポーズをフィーチャーしたものだろう。

civitaiのサイトに行けば、世界中の趣味人が作った「自家醸造の」AIモデルを眺めることができる。GPU搭載マシンがあれば、ダウンロードしてきて自宅で「自家醸造」することもできるし、Civitaiにお金を払えば誰かの自家醸造モデルを使って違う絵を描くこともできる。

こうした自家醸造モデルの多くは、LoRAという形式で配布されている。LoRAはより規模の大きなAI(この連載ではニューラルネットを単にAIと呼ぶ)を部分的に微調整するもので、ファイルサイズを小さく抑えながら自分のやりたいことを実現することができる。

面白いのは、ベースとなるモデルとLoRAの組み合わせを変えると同じLoRAでも異なる表情の表現ができることで、アニメ風のベースモデルにアニメキャラクターの容姿を学習させたLoRAを、実写モデルをベースに変化させると、まるでアニメキャラクターが実写化したかのような効果が得られたりするところだ。

この組み合わせは非常に複雑なので常にうまくいくとは限らないが、そこも含めて「自家醸造」AIモデルの魅力と言えるだろう。

画像についで最近流行の兆しが現れているのが、大規模言語モデル、いわゆるLLMの自家醸造である。
LLMの自家醸造は画像に比べるとより巨大な計算機を必要とする。

画像のファインチューニングに必要なVRAM容量が14GBくらいだとすると、大規模言語モデルのファインチューニングに必要なVRAMの容量は48GBから640GBと幅広い。

試しに最近話題になったMixtral-8x7Bというモデルをtrlという手法でファインチューニングさせてみているが、A100 80GBx4でそれぞれ50GBずつくらいのメモリを消費していた。

言語モデルを自家醸造する場合、問題になるのはデータである。
画像モデルをファインチューニングする場合は、せいぜい数枚から数十枚の画像があればいいのだが、言語モデルとなるとそうはいかない。

例えば筆者は過去の自分の著作をかき集めてもせいぜい100万字程度にしかならない。
これでは「自家醸造」するには少し心許ない。

特に最近は200Kトークンのような長いコンテキスト長の自家醸造が増えてきていてるので、これだけ長くて一貫性のある文章がどこにあるかといえば結構難しい。

すると、結局ネットに落ちているWikipediaや青空文庫のような情報しか食わせるものがなくなってしまうのである。
しかしデータそのものに差別化がない状態ではそんなに良い結果に繋がらない。

少し前に流行ったバズワードである「ビッグデータ」も大規模言語モデルを作る際には全く役に立たない。
LLMが学習するのに望ましいデータとは、「ある意図と一貫性を持って収集された意味のあるデータ」でなくてはならない。

理想的なのは、教科書や百科事典などいろいろな知識が矛盾なく網羅されているようなものだ。
逆にいえば、そのようなデータセットがあれば自動的に良質なLLMが自家醸造できるようになる。

LLMの自家醸造にかかる時間は一日から三日間くらいが相場のようだ。計算機は多ければ多いほどいいが、手元に占有すると遊んでいる時間の方が長くなってしまう傾向がある。

今年は画像生成モデルから動画モデル、そしてLLMの可能性に注目が向いたが、来年は「どのようなデータをどのように作るか」ということに主眼が写っていくだろう。

もはやLLMは特別な人だけが作るものではなくなってきているのだ。

WirelessWire Weekly

おすすめ記事と編集部のお知らせをお送りします。(毎週月曜日配信)

登録はこちら

清水 亮(しみず・りょう)

新潟県長岡市生まれ。1990年代よりプログラマーとしてゲーム業界、モバイル業界などで数社の立ち上げに関わる。現在も現役のプログラマーとして日夜AI開発に情熱を捧げている。

RELATED TAG