Webアーカイブは情報保存の要です。しかし、2026年2月にArchive.todayが大問題を起こしました。英語版Wikipediaから全面禁止されたのです。約69万件のリンクが影響を受けました。この事件はアーカイブの信頼性を揺るがしました。そこで、この記事ではArchive.today禁止騒動の経緯を解説します。また、Webアーカイブ運用の法務と信頼性も整理します。

Archive.today禁止騒動の経緯

まず、何が起きたのかを整理しましょう。Archive.todayはWebページの保存サービスです。Wayback Machineの代替として広く使われていました。しかし、2026年1月に深刻な問題が発覚しました。

具体的には、DDoS攻撃への加担です。Archive.todayはCAPTCHAページを悪用しました。訪問者のブラウザから攻撃を実行していたのです。攻撃対象は研究者のブログでした。なぜなら、その研究者がArchive.todayの資金源を調査していたからです。

さらに深刻な問題も判明しました。アーカイブ内容の改ざんです。運営者が保存ページの内容を書き換えていました。具体的には、研究者の名前を無関係なページに挿入していたのです。つまり、アーカイブの信頼性そのものが崩壊しました。

その結果、Wikipediaは行動を起こしました。2月7日から20日にかけてRFC(意見募集)を実施しました。そして、2月20日に全リンクの禁止を決定しました。影響は甚大です。具体的には、68万9,987件のリンクが対象です。ユニークURLは56万7,260件あります。さらに、36万4,142ページに影響が及びました。なお、代替としてWayback Machineが推奨されています。また、GhostarchiveやMegalodonも候補に挙がっています。

Webアーカイブの著作権リスク

Archive.today騒動を機に法的課題も注目されています。まず、著作権の問題があります。多くのWebサイトは著作権で保護されています。しかし、デジタルアーカイブには法的根拠が不明確です。特に営利目的のアーカイブはリスクが高いです。

Internet Archiveはフェアユースの防御を整えています。たとえば、オプトアウト機能を提供しています。また、robots.txtの除外基準も尊重しています。さらに、非営利の研究目的を明確にしています。しかし、最近の判例は厳しい方向です。

具体的な事例を見てみましょう。2025年9月、Internet Archiveはレコード会社と和解しました。金額は6億2,100万ドルです。また、2020年の「National Emergency Library」訴訟でも出版社が勝訴しました。つまり、アーカイブの法的リスクは高まっています。だからこそ、サービス運営者は法的基盤の強化が急務です。

GDPRの「忘れられる権利」との関係

EUではGDPR第17条に「消去権」があります。しかし、例外規定も存在します。具体的には、第17条3項です。公益目的のアーカイブは消去権の対象外です。また、科学・歴史研究目的も例外です。さらに、表現の自由との衝突がある場合も例外となります。

ただし、地理的な制限があります。2019年の欧州司法裁判所の判決は消去権をEU内に限定しました。つまり、グローバルには適用されません。また、消去権は主に検索結果の表示に関するものです。そのため、アーカイブからの完全削除とは別の問題です。

なお、許可ベースのアプローチにも課題があります。IIPCの調査によると、サイトオーナーへの回答率は30-50%です。多くは拒否ではなく無回答です。したがって、許可を得ること自体が難しいのです。

Webアーカイブの信頼性を確保する方法

では、組織はどう対応すべきでしょうか。まず、複数のサービスを併用しましょう。単一サービスへの依存はリスクです。たとえば、Wayback MachineとGhostarchiveを併用します。次に、アーカイブの完全性を検証する仕組みが必要です。具体的には、ハッシュ値で内容が変わっていないか確認します。

さらに、重要なコンテンツは自組織でも保存しましょう。外部サービスだけに頼るのは危険です。また、引用時にはアーカイブの日付を明記しましょう。加えて、定期的にリンク切れを確認する運用も大切です。

特に、サービス選定の4つの基準を押さえましょう。第一に信頼性です。改ざんの可能性がないか確認します。第二にコンテンツの完全性です。第三に法的基盤の強さです。非営利組織のサービスが有利です。第四に長期的な持続可能性です。

AIスクレイピングがもたらす新たな脅威

新たな脅威も浮上しています。大手出版社がアーカイブをブロックし始めました。たとえば、NYタイムズはクローラーを完全にブロックしました。なぜなら、AI企業がデータを学習に使う懸念があるからです。

しかし、これはニュースの長期保存を脅かします。実際、記事がオフラインになれば永久に失われます。つまり、AI時代のアーカイブは新たなバランスが必要です。特に、出版社の権利とアーカイブの公益性の両立が課題です。

まとめ

Archive.today禁止騒動は大きな教訓を残しました。アーカイブの改ざんは致命的な問題です。だからこそ、複数サービスの併用と完全性の検証が不可欠です。また、著作権訴訟やGDPRの動向もチェックしましょう。さらに、AIスクレイピング問題も見逃せません。このように、法務、技術、倫理の3つの視点が必要です。特に、アーカイブを引用や証拠に使う場合は信頼性の確認を徹底してください。