2026年に入ってから、ニュースパブリッシャーがInternet Archiveへのアクセスを制限する動きが加速しています。The GuardianやThe New York Timesが相次いでクローラーをブロックした背景には、AIによるスクレイピング問題がありました。
この流れが続くと、インターネットの「歴史」そのものが失われかねません。何が起きているのか、整理してみました。
Internet ArchiveのWayback Machineとは
まず前提として、Internet Archiveは1996年に設立された非営利団体で、ウェブページのスナップショットを保存する「Wayback Machine」を運営しています。1兆を超えるウェブページのスナップショットが保管されていて、過去のウェブサイトがどんな姿だったかを確認できる貴重なアーカイブです。
研究者、ジャーナリスト、歴史家にとっては欠かせないリソースで、「リンク切れ」になった情報を辿る手段としても広く利用されています。
なぜニュースメディアがアクセスを制限し始めたのか
問題の根源は、AI企業がトレーニングデータを収集する手段としてInternet Archiveが利用されうることです。
The Guardianのビジネスアフェアズ責任者Robert Hahn氏によると、アクセスログを分析した結果、Internet Archiveのクローラーが頻繁にコンテンツを取得していることが判明したそうです。直接的にAI企業に利用された証拠はないものの、構造化されたデータが大量に保管されているアーカイブは、AI企業にとって「格好のデータソース」になりかねないという判断から、予防的にアクセスを制限したとのことでした。
The Guardianは記事ページをWayback MachineのURL一覧やAPIから除外する措置を取りましたが、トップページやカテゴリページのアーカイブは引き続き許可しています。完全なブロックではなく、段階的な対応という形ですね。
The New York Timesは「完全ブロック」を選択
一方、The New York Timesはさらに踏み込んだ対応を取りました。Internet Archiveのクローラーを完全にハードブロックし、robots.txtにもarchive.org_botを追加して排除しています。
Financial Timesも同様に、ペイウォール付きコンテンツに対するあらゆるボットのアクセスをブロックしています。OpenAI、Anthropic、Perplexity、そしてInternet Archiveのボットも例外ではありません。
こうした動きの背景には、2023年以降のAIブームがあります。大規模言語モデルのトレーニングに大量のテキストデータが必要とされる中、ニュースメディアのコンテンツは質の高い学習データとして非常に価値があるんですよね。
「善意の巻き添え」問題
オールドドミニオン大学のコンピュータサイエンティスト、Michael Nelson教授は興味深い指摘をしています。
「Common CrawlやInternet Archiveは広く『善良な存在』と認識されているが、OpenAIのような『悪者』に利用されている。LLMに支配されたくないという全員の反発の中で、善良な存在が巻き添えを食らっている」
これは本質を突いた指摘だと感じました。Internet Archiveは情報の民主化という崇高なミッションで運営されていますが、そのオープンさがAI時代には脆弱性になってしまっているわけです。
インターネットの歴史が失われるリスク
Internet Archiveの創設者Brewster Kahle氏は、「パブリッシャーがライブラリを制限すれば、一般市民が歴史的記録にアクセスできなくなる」と警告しています。
実際、ウェブサイトの平均寿命はわずか数年と言われていて、Internet Archiveがなければ多くの情報が永久に消失していたはずです。ニュース記事のアーカイブが制限されることで、将来の研究者やジャーナリストが過去の出来事を検証する手段が失われる可能性があります。
特に「情報の無秩序化(information disorder)」が深刻化している現代において、過去の正確な記録を保持することの重要性はますます高まっています。フェイクニュースの検証に過去のアーカイブが使われるケースも多く、この機能が損なわれることの影響は小さくありません。
技術的な対策は可能なのか
一つの解決策として、Internet ArchiveがAIクローラーとアーカイブ目的のクローラーを技術的に区別する仕組みを導入することが考えられます。しかし、現実的にはこれは難しい課題です。
robots.txtやAPIアクセス制御でできることには限界がありますし、AI企業が様々な手段でデータを取得しようとする中で、「善良なクローラー」と「悪意あるクローラー」を完璧に分離するのは困難です。
プライバシーとデータ保護の観点からは、Chrome拡張機能がブラウジングデータを監視する問題や、Clearview AI顔認識技術の監視社会リスクなど、関連する議論が多方面で起きています。
まとめ
AIスクレイピング問題を背景に、ニュースパブリッシャーがInternet Archiveへのアクセスを制限する動きが広がっています。これは短期的にはコンテンツ保護の観点で理解できますが、長期的にはインターネットの歴史的記録が失われるリスクを孕んでいます。
「善意の巻き添え」という構図は、AI時代のオープンデータを巡る本質的なジレンマを示しているように感じます。パブリッシャーの権利保護と、公共の利益としてのアーカイブ。この両立をどう実現するかは、今後のインターネットの在り方を左右する重要な課題です。
詳しい経緯はNieman Labの記事で確認できます。