やはり予想した通りChatGPT Agentが肩透かしなものになった。どのように肩透かしになったのかは筆者の個人ブログを参照されたい(ChatGPT Agentの特徴と問題点)。
「エージェント」とか「AIエージェント」という言葉が濫用されたせいで、最近のLLMを使い本格的なエージェンティック訓練を受けたAIを「エージェンティックAI」と呼ぶのが昨年から西海岸で流行っている。
「エージェンティックAI」と昔ながらの「AIエージェント」の違いは、「AIエージェント」が中身がないか、もしくはごく典型的なLLMに外部アクセス機能を組み合わせて「エージェント風」にしているのに対し、「エージェンティックAI」は、訓練段階からWebブラウザの操作方法や画像を見てどれがボタンでどれが入力フォームか判断するといった「エージェントとしての本格教育」を受けているかどうかが一つ大きな違いだろう。コマンドライン操作に限定されるが、コマンドライン操作に精通した「Claude Code」や「Gemini CLI」などもエージェンティックAIと呼んでいいだろう。
ただ、結局ChatGPT Agentが肩透かしだったことによって強くわかったことがある。
当たり前なのだが、会社というのは人と人が集まった場所だ。
エージェンティックAI以後の世界では、ここにエージェンティックAIが加わる。もう面倒なので略してAAIとでも呼ぶか。
人とAAI、人と人とAAI、AAIとAAIと人、などのような新しい関係性が職場に持ち込まれることになる。
DevinやManusのようなコーディング専用AAIは、すでに現場に入り始めている。ただ筆者はこうした専用ツール的なAAIには費用対効果に対して懐疑的だ。
コマンドラインでClaude CodeやGemini-CLIを使った方が効率がいいからだ。DevinやManusを使うにはそれなりにコーディングの知識が必要になるので、ターゲットが不鮮明に見える。
同じことは、Amazonが先日発表したデプロイまで担当するAAIのKiroにも言える。
結局こうしたツールは、Claudeやo4といった外部のAIに頼るしかなく、外部のAIをコントロールするのは実はそれなりに手間がかかる。
筆者はまだクローズドα中だが、Memeplex Vibeというプログラミング教育に特化したバイブコーディング環境を運営しているので身に染みてわかるが、ClaudeにしてもOpenAIのo4にしても、日によって気分が変わる。最近、Claudeがユーザーへの告知なしに制限が急に厳しくなったというニュースがあったが、これらのLLMのバージョンが上がる際、バイブコーディング環境のプロンプトチューニングはやり直しになる。これが結構負担が大きい。
ここまで不安定だと仕事に使うには厳しい。
結局、この手のツールもローカル動作するLLMにとって変わられるのではないかと思い始めている。実際、ローカルLLMでのコーディング支援は定期的に話題になる。
ローカル環境のいいところは、自分でハードウェアをメンテナンスできることだ。途中で制限が変わったり機能を落として入れ替えたりされる心配がない。
OpenAIのAPIを普段使っていると、同じ「o4-mini」という名前のAPIであっても、日によって解答の質が変わるケースが多い気がしている。
これは内部的にGPU負荷を減らしたり、効率化したりといったことをやっているからと想像できるが、ちょっとした設定の変化で回答が大きく変化してしまうと、プロンプトチューニングを毎日やり直すことになって大変効率が悪い。
これがローカルLLMなら、設定は自分が固定すれば固定されるので安心して使えるというわけだ。
例えば今月Mistralが開発したDevstral-small-2507は、MacBookPro M2 128GB上でローカルで動く。わずか13GBしかない小規模なモデルだが、ソフトウェア開発ベンチマークであるSWEBenchでGPT4.1に匹敵するスコアを誇るという。
出典:https://mistral.ai/news/devstral-2507
簡単なコマンドライン操作ならこれでも十分できるはずで、この性能差はクラウドとローカルでどんどん縮まるようになるだろう。
試しにQwen3-30B-A3Bというかなり小さいモデルで3次元マンデルブロ集合を描かせてみた。
僕がこの題材をよく選ぶのは、僕が書こうと思ってもなかなか書けないプログラムの一つだからだ。サンプルプログラムも乏しく、実際にQwen3はまずマンデルバルブを三次元に拡張し、それをmatplotlibという、普通はマンデルブロ集合の描画に使用しないツールで描画している。つまりQwen3は実際にマンデルブロ集合の三次元拡張をある程度知っていて、それを理論として展開できることを意味する。
ちょっと話が専門的になりすぎた。
3年ほど前、僕は20年間におよぶ経営者人生に区切りをつけ、引退する道を選んだ。
理由はいくつかあるが、一言で言えばいろいろと窮屈だった。その立場では自分の能力が活かせないと感じたのだ。
退職後もいくつか会社を作ったが、もう社長はやりたくないので別の人間を社長として雇った。やはり信頼はできるが官僚的な人物である。
今の時代では、僕は社長として会社を先頭で率いるよりも、社長は誰か他の人に任せて新しい発明や企画を立て、新技術を追いかけている方が性に合ってる。
実際、退職後の方が結果的に僕が使える予算は増えた。自分で企画して自分で実行できるからだ。その企画が実行可能かどうかは通帳を見ればいい。
本欄で何度も言っているが、社長はAIにやらせた方がいい。ただまだそこまではAIの信頼性が高くない。
AAIでさえ信頼できるかあやしい。結局、信頼できるのは人しかない。
なぜ人なのかといえば、簡単に言えば賭け金が違うからである。
大都会なら、中学受験で名門私立に入るための努力、地方からなら、有名大学に入るために勉強する努力、上京するための努力や仕送り、大学四年間、通い続け単位をとって卒業する努力、その後、大学院だろうが大手企業だろうが、とにかく入社するための努力。それらは全てその人たちの「賭け金」である。賭け金を積んでる人は、犯罪に積極的に手を染めたりはしない。自分が積み上げてみたものが台無しになるからだ。失うものが大きいと思えば思うほど、そうしたものから距離を置こうとする。ごく自然な発想だ。
人間に比べると、AIは賭け金をまるで積んでない。積んだのはそのAIを作った会社だけである。OpenAIがAI開発に何十兆円投資しようが、それはサム・アルトマンの積んだ金ではない。誰か他の人の金に過ぎない。AIは長い人生というものを持っていない。その途中で人間との関わりを学んだり、挫折を経験したりということがない。今月生まれたばかりのAIは、去年生まれたAIより何倍も賢い。だからAIは信頼を構築するまでじっくり人と付き合うという経験を積むことがない。少なくとも今のところは。
AIは傷つかないし、反省もしない。言葉だけだ。義理も感じないし、義務感もない。そんな相手と腹を割って話せるか。腹を割って話せない相手を信頼することができるか。
AAIは、仕事の一部を代替するが、クリティカルなことは結局人間がやらなくてはならない。
それでは何も変わらないじゃないかと思うかもしれないが、少なくともコーディングレベルのAAIは、劇的に作業効率を上げている。この変化は全てのビジネス領域で起きる。
重要なのは、AAIと人間が、信頼関係を構築する新しく納得の行く方法を考えることだ。
ChatGPT Agentでは、とりあえずの策として、「ヤバそうな操作はいちいち人間にしつこく確認する」という作り方をした。これは全くイライラさせられるが、現時点では最善の策の一つだろう。ただ、その最善策をとるせいでChatGPT Agentは役に立たないものになってしまっている。
ここに、高度かつ大規模な設備と資金が必要なAI開発(特にLLM/VLM/VLA開発)とは全く根本的に異なる開発イシューが生まれたことに気づく。つまり「関係開発(Reletion Development)」だ。
例えば、今のChatGPT Agentのように、いちいち操作して、手を止めて、人間のお許しを得て、という仕組みだとつきっきりになってしまい効率が却って落ちてしまう。
だが、必要なことを箇条書きにして、一度にメールか何かで送ってきて、それに対してチェックボックスで「承認」するような「関係」に変更したら、作業効率は落ちないことになる。
ChatGPTは、「ChatGPT」という名前にしたため、チャット型(対話型)のインターフェースから逃れられなかったが、別にAAIはチャット型のインターフェースにこだわる必要はない。
対話型であっても、もっと効率的な聞き方はあるはずだ。そもそも、なぜかChatGPTは、ユーザーに質問するときに音を鳴らさない。LINEだってSMSだってFacebook Messengerだって、通知して音が鳴らないチャットなんて存在しない。ChatGPTのインターフェースはそういう重大な欠陥を持っているのだ。なぜかGeminiもClaudeも同じインターフェースになっているが、どう考えても、「作業していたのですが聞きたいことがあります」と聞くときに通知音がした方が便利だ。少なくともそうしたらつきっきりで見ている必要はない。
何が言いたいかと言うと、まだまだAAIとの関係構築は発展途上の模索段階であると言うことだ。
実は、今使われているユーザーインターフェースのうち、かなり重要な部分は日本の研究者が開拓してきた。QRコードもそうだし、マルチタッチスクリーンもタンジブルユーザーインターフェースもそうだ。これから台頭してくるであろうラディカル・アトムも日本人の発明だ。
なぜ日本人がユーザーインターフェースの発明に貢献できてきたのか、本当のところは僕にもよくわからない。ただ、日本人が得意だったものを思い出してみると、共通点は「触れる」ものにある。つまり、カメラ、自動車、電気製品、ゲーム機は全て「手で触れる」ものだった。アニメや漫画といった現在日本の主力と言っていいコンテンツ産業は、「心に触れる」ものだと言える。
日本人はインターフェース作りが抜群にうまい。「便利にする工夫」「使いやすくする工夫」が本当にうまい。世界中の航空会社を使ったが、接遇サービスは日系航空会社が一番だと思う。
品質管理の質が高いのも、日本人が品質管理に対するこだわりを誰よりも強く持っているからだ。それが日本の持つ大きな文化的資本だと思う。
もはや高度なAI(LLM/VLM/VLA)の開発競争は終わりが見えている。どうせ結局オープンソースが勝つ。画像生成と動画生成では既にオープンソースの勝ちで決着がついたと思う。
大金を賭けた勝負は、どのみち日本の会社はできない。
それよりも、知恵と工夫でAAIとの関係を「どう構築するか」もっと別の言葉で言えば、「AAIをどうもてなすか」
そこを考えるところに、真のフロンティアがある。
カメラも自動車も半導体もゲーム機もアニメさえも、日本は自分で発明したわけじゃない。自分で発明したわけじゃない分野で世界で一番になった。
その理由をもう一度考えるべき時だろう。
新潟県長岡市生まれ。1990年代よりプログラマーとしてゲーム業界、モバイル業界などで数社の立ち上げに関わる。現在も現役のプログラマーとして日夜AI開発に情熱を捧げている。