J-CAST ニュース ビジネス & メディアウォッチ
閉じる

【あのネットサービスは今】(番外)
消えたサイトを後世に残す 国立国会図書館の「WARP」

   ネットサービスの栄枯盛衰をシリーズで追ってきた「あのネットサービスは今」だが、国立国会図書館のインターネット資料保存事業「WARP(Web Archive Project)」は、そうした「消えた」ウェブサイトを後世に残そうという取り組みを進めている。

   ウェブアーカイブ(Web Archive)とは、ウェブサイトの情報を収集・保存し、未来に伝える事業。国民の短中期的なウェブ情報へのアクセスを保障するとともに、歴史資料として後世に残す長期保存が目的だ。

  • 国立国会図書館「WARP」のスクリーンショット
    国立国会図書館「WARP」のスクリーンショット
  • 国立国会図書館「WARP」のスクリーンショット
  • ウェブサイトが見つからないときに表示される「このサイトにアクセスできません」

「平成の大合併」で1500市町村のサイトが消えた

   日本では国立国会図書館が2002年から実施しており、「インターネット上で公開されている数多くの有用な情報資源を、文化遺産として将来の世代のために保存」している。国の機関や地方自治体、独立行政法人、大学、祭りなどのイベント、電子雑誌などが保存対象だ。

   ウェブサイトの情報は度々更新・削除される。例えば、首相官邸のウェブサイトは、内閣総理大臣が交代するたびに内容が更新される。過去の情報も残されてはいるが、公開当時のままでは残っていない。また、平成に入って全国で行われた「平成の大合併」では、約1500の市町村のサイトが消失した。

   ウェブ情報の収集頻度は、国の機関が月1回、それ以外は年4回、イベントサイトは開催直後に行っている。東日本大震災などの大規模災害時には、通常より頻繁に収集された。同じウェブサイトを定期的に保存することで、サイトの移り変わりを時系列で見ることができるようになる。

今なお最も高い関心が集まる「国会事故調」

   2016年3月末の時点で、WARPに保存されているタイトル数は1万886件、累積保存件数は10万2891件、データ量は705.9テラバイト、ファイル数は約40億に及ぶ。

   2016年7月の月間アクセスランキング1位は、2012年10月25日に保存された「東京電力福島原子力発電所事故調査委員会(国会事故調)」で、アクセス数は4万3779。すでに国会事故調のサイトは消えているが、今なお多くの人が、原発事故に関心を寄せていることがわかる。

   同館によると、WARPで集めた国の機関サイトの1000万ファイルの中から過去5年分の残存状況を分析したところ、URLの約60%がなくなっているという。さらに残っているもののうち、5年前のファイルと内容が少しも変わらずに残っていたのは31%で、ほとんどが時間の経過と共に内容が変化している。

   ウェブアーカイブには膨大な数の情報が蓄積されており、公開するためには著作権や個人情報など多様な観点から検討しなければならないが、収集・保存しても利用されなければ意味がないのも事実。同館では、発信者から許諾が得られたものに限りインターネットで公開、そのほかは館内で公開している。