AIスクレイパーボットへの対策と開かれたウェブのジレンマ

yomoyomo yomoyomo

雑文書き／翻訳者。1973年生まれ。著書に『情報共有の未来』（達人出版会）、訳書に『デジタル音楽の行方』（翔泳社）、『Wiki Way』（ソフトバンククリエイティブ）、『ウェブログ・ハンドブック』（毎日コミュニケーションズ）がある。ネットを中心にコラムから翻訳まで横断的に執筆活動を続ける。

Linuxやフリーソフトウェアについてのウェブマガジンの老舗であるLWN.netが、今年の2月に「AIスクレイパーボット禍との戦い」という文章を公開しています。

LWN.netのようなウェブサイトの運営には多くの課題が伴いますが、近年、生成AIシステムのモデル訓練のために、インターネット全体からデータを掻き集めようとするAIスクレイパーボットへの対策が新たに加わりました。

LWN.netの共同創始者であるジョナサン・コーベットは、「予期せぬ厄介事」、「現代の疫病」とAIスクレイパーボットへの嫌悪感をあらわにしながら、問題のあるボットのrobots.txtへの追加（→徹底したrobots.txtの無視）、一定の制限値を超えた場合に意図的に性能を低下させるスロットリングや、反応を故意に遅らせるターピット（→文字通り数百万ものIPアドレスを利用し、特定のアドレスを1週間で2～3回以上使用しないなどアクセスの巧妙化）といった真っ先に思いつく対策が機能しないことを解説しています。

最後の手段として、スクレイパーボット対策の強化を進める商用のコンテンツ配信ネットワーク（CDN）の利用をコーベットは挙げます。最終的にはそれに頼るかもしれないと書きながらも、トラフィック（および読者）を別の仲介業者に晒すことは望ましくないと考えるため、気が進まないようです。

現状、スロットリングとサーバー設定の調整を組み合わせることで、AIスクレイパーボットの阻止はできないながらも、サイトの正当な運用への干渉は防げていますが、状況は時間とともに悪化する一途です。このネット全体に関わる問題は、持続不可能な状態にますます近づいている、とコーベットは飽くまで悲観的です。

LWNは、インターネットにサイトを立てる自由が喜びだった時代に生れた。その自由はその後、様々な形で後退を余儀なくされたが、それでも大部分は今も健在である。しかし、複雑なサイトを運営する唯一の手段が、ごく少数の大手CDNプロバイダー（おそらくそれぞれ独自のAI計画を持っている）の背後に隠すしかない段階に達したら、ネットは実に悲しい場所になるだろう。人間は追い出され（もちろん、それを良いことだと考える人もいるかもしれないが）、互いが近親相姦的にページをスクレイピングし合うAIシステムだけが残ることになる。

AI企業のスクレイパーボットの「行儀の悪さ」を指摘する声は数多くありますが、その苛烈なスクレイピングの背景に、AIの学習に必要な高品質データがじきに枯渇するという予測、いわゆる「2026年問題」があるのは間違いないでしょう（もっともその後、高品質データの枯渇期間は、2026年から2032年の間と予測は修正されていますが）。

そうしたAI企業への怨嗟の声も多く聞かれますが、ウィキペディアンとしても知られるソフトウェアエンジニア、ライターのモーリー・ホワイトは、「『待って、それは違う』：生成AI時代の自由でオープンなアクセス」において、真の脅威はAI企業がオープンな知識を利用することではなく、知識を自由にするにするプロジェクトをAI企業が潰すことだと訴えます。

彼女は、ウィキペディアなどのオープンコモンズプロジェクトのコンテンツが企業によって搾取されるのを真に当たりにし、「ちょ待てよ」と言いたくなる例を列挙しますが、自由なライセンスで公開された作品が、特にビッグテックによるAIトレーニングのために利用される様を見て、支配権を取り戻そうと考えるのは自然な反応だと認めます。

しかし、そのために作品のライセンスをより制限的なもの（非営利指定）にしたり、有料にしたり、公開そのものを止めてしまうのは、当初築こうとしたコモンズ（共有地）そのものを破壊する危険をはらんでいるとホワイトは指摘します。

つまり、自由かつオープンなアクセスの利点を維持しつつ、「ちょ待てよ」と言いたくなるあらゆる可能性を防ぐライセンスを作るのは不可能ですし、スクレイパーを排除する有料ペイウォール、サイト登録などのコンテンツゲートの導入は、共有地を閉ざす行為であり、本来共有財となるべきコンテンツへのアクセスを困難だったり高コストにします。

しかし、現実にAI企業は既にウィキメディア財団のインフラに膨大な負荷を強いており、帯域幅の観点からもコストがかかるだけでなく、膨大なトラフィックを処理するシステムの維持や改善には専任のエンジニアが必要なため、二重の負担がかかっているとも言えます。

この問題は当然ながらウィキペディアに限った話ではなく、マイケル・ワインバーグによる報告書「AIボットは文化遺産をオフラインに追いやっているか？」で、AIモデルの訓練用データセットを構築するためのスクレイピングが、GLAM（美術館、図書館、アーカイブ、博物館）のサーバーを過負荷状態に追い込み、時にコレクションをオフラインに追いやっている実態、つまりはコモンズが可能にする基盤の解体の危機が明らかにされています。

ワインバーグは、この現状に対してAI企業との新たな交渉枠組みの構築を提案していますが、ホワイトもそれは可能と考えているようです。

黄金の卵を産むガチョウを絞め殺す結果にならないよう、これらの企業はコモンズの持続的な健全性を最優先に考え始めるのが極めて賢明だろう。また我々も、AI企業が突如として奇跡的に正気に戻ったり、集団で良心に目覚めたりするのを期待しないほうが賢明だ。そうではなく、AI企業が創作者側の条件に従ってこれらのレポジトリに関与することを強制する仕組みを確実に整備しなければならない。

その実現方法としてホワイトは、AI企業にウィキメディア財団がホストするデータの利用を認める一方で、有料の高容量回線経由での利用を義務付けるWikimedia Enterpriseを例に挙げています。同じく知的コモンズを扱う非営利団体であるCreative Commonsが発表した、コンテンツ管理者が自分の作品をAIのトレーニングにどのように利用できる／できないかを指定することを可能とするフレームワークであるCC signalsも、AI時代の新たな社会契約の試みの一つです。

しかし、CC signalsに対する当初の反応は芳しくありませんでした。それにはCreative CommonsはクリエイターよりもAI企業のほうを向いていないかという疑念、そもそもAI企業への働きかけは無駄なのだからお気持ち表明以上の意味はあるのか？という懐疑があったように思います。

Creative Commonsもこの反応を受け止めたフィードバックへの回答を公開していますが、ホワイトが主張する、インフラコストに対する公正な補償、帰属表示と新たな参加者が基盤となるコモンズへの還元を実現する、同意と補償に関する法的枠組みの実現は道遠しと言わざるを得ません。

当然ながら、「同意と補償に関する法的枠組み」を実現しようとする動きは他にもあります。AI企業が採用すれば大規模なデータライセンスを可能にするReal Simple Licensing（RSL）は、既にReddit、Quora、Yahoo、Medium、そしてオライリー・メディアといった主要ウェブパブリッシャーの支持を得ています。

RSLはrobots.txtファイルに条件を記載する機械可読なライセンス契約の規格です。これもデータスクレイピングの技術的、法的基盤を構築する試みで、条件交渉や使用料徴収を行う集合的ライセンス組織のRSL Collectiveが既に設立されていますが、問題はやはり主要AI企業が交渉のテーブルにつくかどうかです。

RSLの開発者であるエッカート・ワルサーは、Netscapeで初期のRSS規格の開発にも携わった人物ですが、古参がウェブのエコシステムを守るために立ち上がるという構図は、インターネット広告の手法「ペイドサーチ（paid search）」を発明したビル・グロスが、生成AIの収益化エンジンを構築しようとする試みにも当てはまります。

Googleは、その「ペイドサーチ」の手法を採用して検索の巨人となったわけですが、今や生成AIがそのビジネスモデルを破壊しようとしており、Google自身、検索結果画面で完結する「ゼロクリック検索」を推進し、Googleからウェブサイトへのトラフィックがゼロになる日が現実的に近づいてきた感があります。

ビル・グロスはその現実を踏まえ、AIクローラーがコンテンツを収集して再利用する際にパブリッシャーに報酬が支払われる仕組みを確立し、AIの回答エンジンの文脈で機能する広告ソリューションを構築することを目指しています。それはAIが支配するインターネットにおける広告のあるべき姿を考えることでもありますが、ビル・グロスが「AI時代のペイドサーチ」を実現できるかは分かりません。

ここまで各種の交渉枠組みや規格の紹介をしてきましたが、現時点で現実に力を持っているように見えるのは、CDN大手のクラウドインフラプロバイダーCloudflareによる試みです。

Cloudflareは、3月にAIクローラーを無限生成迷路に閉じ込める「AI Labyrinth」、そして7月にはウェブサイトがAIボットにスクレイピングの料金を請求できるマーケットプレイス「Pay per Crawl」を発表しています。

ワタシ自身は当初、Cloudflareの「Pay per Crawl」という一種の実力行使を、パブリッシャーが求めるクロールの対価を実現するもっとも有力な手段であり、現時点で「AI時代のペイドサーチ」にもっとも近いのではないか、と比較的好意的に見ていました。

しかし、昨年「BlueskyやThreadsに受け継がれたネット原住民の叡智」で紹介したマイク・マズニックがTechDirtに寄稿した「我々はAIを阻止するためにオープンなインターネットの周りに壁を築きつつある――そして、それはすべてを破壊することにつながるかもしれない」を読んで、唸ってしまいました。

マズニックの文章は、長年オープンなインターネットを求めて戦ってきた人々が、今やそのインターネットが壁で囲まれ、アクセスを制限されるのを歓迎しているという話から始まります。行儀が悪く著作権に関して野放図なAI企業に打撃を与えるなら、それも致し方なしというわけです。

しかし、それは自分たちが擁護してきた原則そのものを脅かす重大な誤りだとマズニックは訴えます。インターネットのアクセスが、オープンなプロトコルやユーザの選択ではなく、ゲートキーパーやペイウォールによって制御されるのをよしとするのは、大手テック企業の手中にさらに多くの権力を集中させることになるというのです。

そして、そのクローズドなインターネットへの移行は、Cloudflareの「Pay per Crawl」機能の開始により加速したとマズニックは指摘します。彼自身、その発表に最初興味をそそられたのを認めます。突然AI企業から、Techdirtの8万本以上の記事の対価を受けられたら嬉しいでしょう。

支払いを集約する料金所を設置する側が往々にして大きな力を握るのは歴史上繰り返されてきたことであり、Cloudflareはこれでかなりの利益を得る可能性が高いとマズニックは指摘します。そして彼が強調するのは、そうした料金所を設置する集約業者、仲介業者が腐敗しがちというやはり歴史の教えです。

例えば、CloudflareはAI企業のPerplexityが、非公開のクローラーを密かに使用し、ウェブサイトのクロール禁止の指示を回避したと非難しました。この報道には多くの人が怒りを表明しましたが、詳細を辿るとCloudflareが、Perplexityの全く異なる活動をクロールと混同していたことがうかがえるとマズニックは指摘します。

Cloudflareは、robots.txtファイルで自動クロールだけでなく個々のユーザークエリまで制御しようとしており、それはウェブの仕組みそのものを破壊する行為だと、マズニックは自身がTechdirtで編集作業に利用しているLLMツールが、最近サイト読み込みを拒否されるケースが増えていることを例に説明しています。AIトレーニングをブロックするだけでなく、ウェブコンテンツにアクセスして分析するという正当な個人利用さえ阻むのは、創作者の権利保護ではなく、公開されたものが誰もがアクセスできるというウェブの基本理念を破るものだというわけです。

そして、RedditがInternet Archiveをブロックした事例を挙げ、そうした混同による巻き添え被害がAI企業をこえて広がりつつあり、その背景にユーザ生成コンテンツがAIライセンス契約による収入源になり得るという経済的動機があることを指摘します。

マズニックは、これはオープンなインターネットから大きく遠ざかり、「クロールには料金を払え」だけでなく「クリックするにも料金を払え」という、あらゆるオンラインアクセスが有料化する世界へ向かっていると危惧を表明します。

続けてマズニックは、AI企業が恩恵を受けるという恐れから、研究者やジャーナリストや市民社会に利益をもたらすコモンズを自ら破壊する事例を挙げ、こうした状況は、ウェブがもはやそれほどオープンでないことを示しており、その事実を考えると胸が痛む、と嘆きます。

ますます多くの人がAIに対する条件反射的な反発を示し、開かれたウェブの死を招きかねない形でウェブへのアクセスを制限し、ウェブの「有料アクセスモデル」がさらに進む可能性が高まっているが、これは我々の大半が後悔する結果ではないかとマズニックは訴えます。

その先にあるのは何か？

巨大プラットフォームがライセンス契約と技術的制限を通じてアクセスを支配し、AI企業がアクセスできないよう公共アーカイブが無力化され、個々のユーザーが現代的なツールを使ってウェブコンテンツにアクセスし、分析できなくなるインターネット。Google、マイクロソフト、Metaが数十億ドル規模のライセンス契約で特別アクセスがを許される一方で、他のすべての人々――研究者、ジャーナリスト、中小企業、個人ユーザー――が締め出される世界だ。

オープンウェブの力と魅力は、すべての人に開かれアクセス可能だった点にあり、誰が利益を得るか、どの技術でコンテンツにアクセスするかで例外を作り始めた時点で、我々はその原則を完全に放棄したことになる、というマズニックの強硬な主張に賛成しない人もいるでしょう。その彼も、AIの学習データやクリエイターへの報酬に関する正当な懸念を無視すべきではなく、新しいビジネスモデル、より優れた帰属表示システム、創作者への報酬の革新的なアプローチが求められていることを認めており、問題意識はモーリー・ホワイトをはじめとしてこの文章で取り上げた取り組みと重なるのが分かります。

彼の文章を読んでいて、いくつかのジレンマを実感しました。ウェブ上のコモンズを守るための施策がウェブの開放性を放棄することにつながる危険性がその一つですし、それはEUのインターネット政策に顕著ですが、（米国の）ビックテックをなんとか縛ろうとGDPR（EU一般データ保護規則）などの法律を作れども、それに本格的に対応する体力のある企業はビッグテックだけであり、結果としてその監視資本主義の強化につながってしまうというジレンマもあります。

マイク・マズニックのオープンなインターネット、開かれたウェブに対する情熱には、同い年生まれのネット原住民として共感するところが多々ありますが、果たして若い世代、それこそTikTokなど少数のプラットフォームこそがインターネットである若い世代に通じるだろうかと疑問に思ったりもします。

そして、それは「ワールドワイドウェブの父」ティム・バーナーズ＝リーの「私がワールドワイドウェブを無料で提供した理由」を先日読んだときにも感じたことだったりします。

なんだか、戦争体験者がいなくなった後に戦争の悲惨さと平和の尊さをどう語り継ぐかといった話みたいにも思えたりしますが――

Tags

AIスクレイパーボットへの対策と開かれたウェブのジレンマ

Newsletter

Related Articles