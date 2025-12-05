ローカルLLMのためのプライベートWeb検索エンジンを作った

ChatGPT に代表される生成AIを「なんとかローカルで動かしたい」という欲望は、エンジニアなら一度は抱くものだと思う。

「クラウドに一切つながずに、自分のPCだけで完結するAIアシスタント」。響きだけなら最高だ。

しかし、いざやってみるとすぐに壁にぶつかる。

モデルはローカルで動いても、「知識」はローカルにないのである。

ローカルLLMにもWebの知識は必要だが…

LLMは大量のテキストで事前学習されているとはいえ、「いま」「ここ」で必要な具体的な情報はだいたいWebにある。

ちょっとマニアックなエラーコードの意味

特定ツールの最新ドキュメント

つい最近アップデートされたライブラリの仕様

こういったものは、事前学習済みLLMの「過去の記憶」ではなく、Web検索しないと出てこない。

つまり、「完全ローカルで動くAI」を作ろうとしても、結局どこかのタイミングで Web検索エンジンに頼らざるを得ない。

では素直に、LLMからクラウドの検索APIを叩けばよいか？

…となると、次の問題が出てくる。

検索APIは「使えば使うほどお金がかかる」

最近は各社が検索APIや「AI向け検索サービス」を提供している。品質も良いし、簡単に使える。

だが、だいたい従量課金である。

ローカルLLMと組み合わせて「会話の裏側で毎回Web検索する」ような仕組みにすると、

LLMがそこそこ賢く振る舞えば振る舞うほど、検索APIの利用料金が青天井で増えていく。

ローカルでLLMを回しているのに、

水道の蛇口のように「検索API課金」がチョロチョロではなくドバドバ流れ続ける、という本末転倒な状態になる。

検索履歴から「何を考えているか」までバレる問題

もうひとつ、見逃せないのが プライバシーの問題 だ。

普通にクラウドの検索エンジンを使えば、

「どんなキーワードで何をどれだけ調べたか」という履歴は、当然ながら相手側に残る。

個人であれ企業であれ、

どんな技術を調べているのか

どの分野に興味があるのか

いま何に悩んでいるのか

といったものが、検索ログを見れば透けて見える。

せっかくLLM本体をローカルに閉じ込めて守っていても、検索履歴がダダ漏れでは意味がない。

「モデルもデータもローカル。検索クエリまでローカルで完結したい」

というのが、本気でプライバシーを考えるなら自然な発想になる。

アイデア：Webを「前もって」丸ごとベクトル化して持ってくる

そこで発想を変えた。

検索するたびにクラウドに聞きに行くのではなく、

「検索の元ネタ」そのものをあらかじめローカルに持ってくればいいのでは？

具体的には、次のような構成を考えた。

クラウド上でWebクローラーを動かす 通常の検索エンジンと同じように、Webページをクロールして集める 各ページの本文テキストを抽出し、埋め込み（ベクトル化） する LLM用の埋め込みモデルなどを使って、内容をベクトルに変換 そのベクトル群をクラウド側のデータベース（ベクトルDB）に保存 一定のタイミングで、そのベクトルDBを 丸ごとローカルにコピー する ローカル環境では、コピーしたベクトルDBに対して

完全オフラインのベクトル検索 を行う

こうすると、

「Webを調べる」という行為自体は、ローカルで完結する

ローカルLLMは、このローカルベクトル検索エンジンを叩くだけでよい

クラウドと通信するのは「定期的なベクトルDBの同期」だけで、

検索クエリや対話内容は一切クラウドに送られない

という状態が作れる。

クラウド側：10ノード＋GPUで1日100万ページをインデックス

もちろん、Webページを1枚1枚手で集めてベクトル化するわけにはいかない。

そこで、クラウド側にはそれなりのインフラを用意することになる。

今回の実験では、ざっくりと次のような構成にした。

クローラー用ノード：10台 URLキューを分散して、ひたすらHTMLを取りに行くマシン群

GPUマシン：1台 クローラーが取ってきた本文テキストを受け取り、埋め込みベクトルを生成する係



アーキテクチャとしては、

クローラーがHTMLを取得 パーサーが本文を抽出（広告やナビゲーションなどをできる限り除去） テキストをGPUノードに送り、埋め込みを計算 ベクトルとメタデータ（URL、タイトル、タイムスタンプなど）をベクトルDBに保存

といった、シンプルだがそこそこスループットの出るパイプラインを組んだ。

この構成でFreeAI社の持つAIスーパーコンピュータ継之助を中心に実験したところ、1日あたり約30万ページをインデックス することに成功した。もちろんWeb全体から見ればまだまだ一部だが、「個人用検索エンジン」にしては十分野心的な規模である。

ローカル側：「自分専用のWeb」を持ち歩く感覚

クラウド側でインデックスされたベクトルDBは、定期的にスナップショットを取ってローカルに持ってくる。

サイズはそれなりに大きいが、最近のストレージ事情を考えれば、TB級までは現実的な範囲だ。

ローカル環境では、

LLMに質問する

質問内容からクエリ（テキスト）を作る

ローカルのベクトルDBに対して類似検索を行う

ヒットしたページ要約や抜粋をLLMに渡して回答を生成させる

という流れになる。

ここで重要なのは、

検索APIへのリクエストが一切発生しない

よって 従量課金もない

そして 検索クエリも含めて、外に一切出ていかない

という点だ。

言い換えると、

「ある時点のWebの断面」を、自分のマシンの中にまるごとコピーしておいて、

それをLLMと一緒に使う——そんな感覚のシステムになっている。

もちろん課題もあるが、「方向性」としてはアリ

実際には、まだまだ課題も多い。

どの範囲のWebをクロールするのか（全Webは現実的ではない）

更新頻度をどうするか（全部を毎日クロールし直すのは難しい）

ライセンスやrobots.txtなど、法的・倫理的な配慮

データ量が増えたときのインデックス管理や、検索速度のチューニング

など、真面目にやろうとすればするほど設計ポイントは増える。

それでも、「ローカルLLM×プライベート検索エンジン」という組み合わせは、

次のような意味で非常に面白い。

クラウド依存を減らしつつ、情報の鮮度もある程度保てる

従量課金の呪縛から逃れられる

何を調べたかという 知的なプライバシー を自分の側に取り戻せる

「検索もローカルに持ってくる」という発想

これまで、「検索」はクラウド側にあるのが当たり前だった。

だが、LLMがローカルで動くようになってきた今、

モデルだけでなく、検索インフラそのものを分割する

「クロール＆インデックスはクラウド、検索と利用はローカル」

という形は、十分に検討に値する。

クラウドとローカルの役割をうまく分担させることで、

コスト・プライバシー・利便性のバランスを取り直すことができる。

今回、10ノード＋GPUという構成で1日100万ページをインデックスする実験に成功したことで、

「個人でもここまでの規模感の“自前検索エンジン”を持てる」ことが見えてきた。

ローカルLLMを本気で育てたいなら、

次に必要なのは 「ローカル検索をどう作るか」 だ。

そのためのひとつのアプローチとして、

「プライベートWeb検索エンジン」を作ってみた、という話である。

