牛島研究室OnLineへ
  USI情報システム on WAMP  

 

UIS:ハイパー事典辞書

概要

構想ないし由来

  • 事典や辞書の類も他の本と同じようにスキャンしてFBに保存します。
  • 通常の本の場合には、
    • ページを繰りながら読む
    • 読みながらノートを取る
    • 目次から拾い読みをする
    • 索引から拾い読みをする
    といったことができれば十分でしょう。
    こうした機能を備えた本をハイパーブックと命名しました。
  • しかし、事典や辞書の類はハイパーブックでは不十分です。
    いや不十分というよりも、用途や利用目的が違うといったほうがよいでしょう。
    事典や辞書はハイパーブックにしただけでは使い物にならないのです。
  • では、事典や辞書にはどういう機能を与えないといけないのでしょうか。
    事典や辞書は「引く」ものです。
    スキャンしたブックに「引く」機能を持たせたものをハイパーDICと呼ぶことにします。

「引く」機能

  • 事典には分冊になっているものもあります。数巻程度のものから百科事典のように何十巻にもなるものもあります。分冊になっている事典はここでは除外することにします。
    一冊に収まっている事典や辞書で、まず「引く」機能を実装する方法を考えることにします。
    本が1冊ということは「ブック内ページリンク」ですから、手持ちで使えるのは「索引ページ形式」です。
    この形式だけで済ませることができれば、それがベストです。
    結論から言えば、この形式を使うだけでコンピュータに辞書を引かせることができます。

作り方

  1. すでにハイパーブックにしてあること。
    全ページの画像がFBに登録されていること。
  2. FB:トリミング一括処理
    FBに保存されているページ画像を作業ディレクトリにコピーします。
    ページ画像をトリミングして見出しの部分だけの画像にします。
    ポイントは一括処理です。辞書のページ数は2000を超えることもざらですから、手作業は無理です。
  3. OCR:
    OCRにかけて文字コードに変換します。
    OCR上で第一次の校正を行ないます。
    完璧に校正する必要はありませんが、あまりいい加減だと第二次校正で苦労することになります。
    私の経験から言うと、目をさらのようにして入念に校正する必要はありません。各行をざっと見ながら気づいた個所はすべて校正するのがベストです。 mozi_dic.txtに保存。
  4. PHP:
    索引ページ形式を応用して、辞書ページ形式にする。 dic_page.incに保存 文字列(カタカナ・アルファベット)からページ数を返すスクリプト