Project Fx 2.0

怪文書と備忘録を書きます

Yahoo!ジオシティーズのサイトをできる限りアーカイブしたい話

ピジョンホール計画に関する備考


ここからAdventCalender記事

本記事は受験生 Advent Calendar 2018 10日目の記事らしいですよ。真っ当な受験生の皆さんはこんな記事なんか読んでる暇があったら勉強してください。真っ当じゃない受験生の皆さんは受験生(その2) Advent Calendar 2018を書きましょう。
なお本記事は実はまだ未完成なので、予告なしで突然追記・修正がされるかもしれません。

初めての方はよろしくお願いします、そうでない方はいつもありがとうございます。ゆみやという人です。コレが人生初のAdvent Calendarになるとは予想してなかった。
ネタのつもりで「受験生 Advent Calendarとかないんですか」とツイートした直後、既に存在してると教えてもらった時の衝撃は言葉にできないほどデカかったですね。マジであるとは思わなかったよ!sksatさん何しとんねん!とハイになった結果、深夜テンションで参加登録ボタンをポチってしまった訳です。この適当すぎる参加経緯から私の人生の行き当たりばったりさがよくお分かりいただけるかと思います。さて、受験生と言えば怪文書怪文書と言えば受験生!!ということで、早速怪文書を投稿していきたいと思います。(前置きが長い)

今回の怪文書の主題は「Yahoo! ジオシティーズ」(Geocities Japan)です。
ホントは関数電卓について駄文を書き連ねる予定だったんですが、それは来年の受験生 Advent Calendarで書くことにします()


皆さんは「ジオシティーズ」というものをご存知でしょうか?私の周囲では知らない人が結構いてびっくりしました。 Twitter廃人の方々の中には、9月末にやたら「ジオシティーズ」という単語がTLに流れてきてたのを覚えている方もいらっしゃるかもしれないですね。

正式名称は「Yahoo! ジオシティーズ」といい、その名の通りYahoo! JAPANが運営しているもので、端的に言うと無料でホームページを公開できるサービスです。 90年代から2010年頃まで盛んだった、日本特有のホームページ文化を支えたサービスの一つでもあります。

2018年9月末、このYahoo! ジオシティーズ(以下「ジオシティーズ」と略記)が、2019年3月いっぱいで提供終了されることが発表されました。 私はジオシティーズ上で公開されているサイトをできる限り保存する計画を個人的に進めているのですが、その話を部活でしたところ「ジオシティーズが終了すると何が困るのか」についてかなり質問されたので、この怪文書をその回答としたいと思います。
また、私はこの計画を「ピジョンホール計画(Project Pigeonhole)1と名付けているので、以下でもその名前を使います。いちいち名前つけるのが厨二臭い?それっぽい名前つけるのは男のロマンなんだよツッコむな ピジョンホール計画は、ジオシティーズで公開されているホームページ(特に移転の発表がされていないもの)をできる限り保存し、(各ページの著作権はページ作成者に帰属することと削除依頼先を明記した上で)公開することを目的とした計画です。

ジオシティーズがなくなると困るの?

超絶困ります。 理由を以下に列挙します。

  1. ジオシティーズ上で公開されている特定のホームページにしかない情報が大量にある
  2. 管理人の生きた証を遺す(闘病記など)
  3. 日本のインターネット文化の一部が丸ごと消え去る恐れがある

以下、順に説明します。

1. ジオシティーズ上で公開されている特定のホームページにしかない情報が大量にある

書いてある通りです。とは言ってもイメージがしづらいと思うので、例を挙げて見てみましょう。

  • 世界飛び地領土研究会(飛地)
    ジオシティーズのサイトの中でも特に有名なページです。世界各地に存在する「飛び地」について、ディープな研究記事が大量に置かれています。
  • 文字コードリスト(ポケモン版)
    知り合いから教えてもらったURLです。内容は記事名の通りですが、このサイトには他にもポケモンのバグ解析情報が満載で、その道の人にとってはきわめて有用なページのようです。
  • ドラえも
    かつてネット上で一世を風靡した、ふたば発のWeb漫画です。現在は更新停止中で、作者が生きているのかどうかすら不明です。
  • TEAM酷道
    酷道」ブームの火付け役となったサイトです。作者はジオシティーズ終了をご存知とのことですが、移転するかはまだ未定のようです。
  • プログラミングの小部屋
    先日Qiitaでバズった「7行プログラミング」を扱ったサイトです(当該Qiita記事中にもリンクあり)。

これらのサイトはあくまでも一例で、実際にはもっと幅広いジャンルのサイトが大量に公開されてます。特に影響が大きそうなのは、古いゲームの攻略記事/バグ解析/裏技、Flash黄金期の遺産の数々、2chの過去ログまとめ、版権作品の二次創作、すでに消えたページのミラーサイトなどでしょうか。上に挙げた中だと「世界飛び地領土研究会」や「文字コードリスト(ポケモン版)」が好例ですが、その道の人にとっては超絶有益な(場合によってはなくなると困る)サイトが結構な数あるのです。みんなも自分の好きなジャンルについて扱ったジオシティーズのサイトがないか探してみ?絶対にいくつかはヒットするから。そして俺に教えてくれ、保存するから。

さて、こうしたページは長年更新が止まっているものが大量にあります。その理由は様々ですが、代表的なものは「ホームページの管理・更新が面倒なのでやめた」「飽きた」「パスワードを忘れた上メルアドも変わったのでログインできなくなってしまった」「作者が亡くなった」などですね。これらの理由で更新が止まったページは、移転がなされる可能性が非常に低い(あるいは移転不可能)です。そうなると、それらのページに載っている情報は完全に消え失せてしまう訳です(時々「インターネットアーカイブがあるから大丈夫やろ!!」みたいな意見を見かけますが、WaybackMachineだってあらゆるサイトをクローリングしているわけではないから漏れがありますし、クローリングされててもURLが分からなければそもそもアーカイブにも辿り着けません)。そういった悲劇は、何としても避けられるべきではないでしょうか。

2. 管理人の生きた証を遺す

上でも多少触れましたが、管理人が亡くなっていて更新がストップしたページもあります。分かりやすい例は「闘病記」ですね(逝去したことが家族や友人によって追記されているものも結構ある)。そうした闘病記の例を挙げてみます。

余計なお世話と言われればそれまでですが、こういった方々の生きた証が消えてしまうのは何だかなぁという感じがします。

3. 日本のインターネット文化の一部が丸ごと消え去る恐れがある

まんまです。先述したように、ジオシティーズは2010年代初頭まで続いた日本のインターネット文化を支える役割を果たしていました。そのジオシティーズが終了するということは、日本のインターネット文化史に大きな穴を空ける大事件と言っても過言ではないのです。個人的には2019年問題と呼称すべきとも思っています。後世の歴史学者のためにも...というのは流石にオーバーな表現かもですが、それくらい重大な出来事なのです。上でも軽く触れましたが、Flash黄金時代の遺産たる作品の数多くがジオシティーズに眠っていますし、版権作品のイラストや二次創作も同じです。私は当時のネット文化を直接知っている訳ではないですが、その残滓の大部分をこのまま消してしまうのは非常に勿体ないと思います。

アーカイブについて困っていること

最初は「トップページをwget --recursiveすればええだけやん!楽勝やな」と思ってたんですが、調査を進めるうちに

  • Flashに埋め込まれたリンクからでないと飛べないページがあるサイト(Flashを解析しないといけないのでwgetでは対処できない)
  • JSで読み込まれるリンクがあるサイト(これはまだどうにかできる範囲)
  • そもそもindex.htmlから辿り着けないページがあるサイト(どうしろっちゅうねん)

みたいなのが相当数あることがわかり、どうしたもんかなぁという感じになっています。

また、保存すべきサイトのURLをどうやって収集するかという大きな課題があります。 現状では、

といったものを元に収集しているのですが、正直こういった探し方では探せるURLに限界があります。URLを自動収集するようなクローラを作る技術力は私にはありませんし、万一作れたとしても機械的な収集だと数が多すぎてとても私一人の手には負えません。というわけで、この記事をご覧のあなたにお願いがあります。 あなたの知っているジオシティーズのサイトを教えてください。 どことなくWikipediaの「寄付のお願い」っぽいな

この文章を読んで「俺もやってみたいな」「手伝ってみてもいいかな」と思った人は、コメントしてもらえると嬉しいです。受験生の筆者を手伝ってくれる、そこのお前の協力待ってるぜ!!


  1. Pigeonholeという「動物の名前が入った」「辞書に載っている」「固有名詞ではない英単語」を使ったのは、ケプラー予想の証明プロジェクト「フライスペック(Flyspeck)計画」に倣ったものです。また、「書類箱」「内容やクオリティに関係なく(適当に)仕分けする」といった意味もあるようで、そういった面でも相応しい単語だと思っています。