牛島研究室OnLineへPHPで書かれています。

 

PHP・ウェブアーカイブ:2006年

ページ内のリンク

ウェブアーカイブの要件

  • ウェブアーカイブ:
    ウェブ情報を自分のコンピュータに保存することを、ウェブアーカイブと呼ぶことにします。
  • ウェブアーカイブの要件:
    1. ディレクトリ構造を保持する:
      元のウェブページが有していたディレクトリ構造を保持すること。
    2. 外部ファイルも同時にダウンロードする:
      元のウェブページで指定されている外部ファイルのうち、そのページで使用されている全ファイルも同時にダウンロードすること。
    3. ファイルパスを相対パスに書き換える:
      オフラインでも表示できるように、必要に応じてファイルのパスは相対パスに書き換えること。
    4. 文字コードを自動的に変換する:
      ウェブアーカイブで使用する文字コードは、Shift_JISに統一する。
      これは、これまでに蓄積されたウェブアーカイブとの関連を重視した暫定的な決定です。将来、EUCに変更する可能性もあります。
  • 404 file not found 問題

ウェブアーカイブのためのPHPスクリプト

  • 2006/04/04時点:完成したスクリプト
    1. asahi.comのhealth用に開発したツール:汎用仕様
    2. wikipedia用に開発したツール:特殊仕様
  • 500行程度のPHPスクリプトを書くだけで、自動的にウェブアーカイブを作成させることができます。
    PHPのすごさは、少ない行数で高い機能を実現することが簡単にできる点です。
    プログラムを書くことが私の本職ではありません。ですから、プログラムのエレガントさや完成度よりも、開発に取られる時間を少なくするほうが大きな問題です。
    必要だと思ったらプログラムを書くけれども、そのプログラムはとりあえず動いていればいい、問題が出てきたらそのつど修正すればいい。アドホックにそう割り切っています。そんな私にとって、PHPは最適の言語です。
    イスラエルの学生に乾杯!