牛島研究室OnLineへ
  USI情報システム on WAMP  

 

CVサンプル:OCRツール

新機能

本のページが表示されています(PAGEモード)。 右端のメニューからOCRボタンをクリックします。
OCR用の設定画面が小さなウィンドウで開きます。
OCRにかけるページの範囲を指定します。
ボタンを押すと、該当ページがOCRの作業ディレクトリに自動的にセットされます。
また、認識結果を保存するテキストファイルも自動的にセットされます。
[start_page]-[end_page].txt
_content.txt
設定を確認して、 OCRのアプリケーションを起動する画面です。 その他に、いくつかのツールも呼び出すことができます。 OCR認識が完了した後で使います。
自動整形ツール:目次用
自動整形ツール:ページ一覧用
こうした小道具を整えることで、使い勝手が飛躍的に向上します。
OCRが起動した画面です。
OCRにかけるファイルを指定する画面です。 必要なファイルは既にセットされていますから、全ファイルを選択します。
OCRの認識結果の画面です。
画面が大きく左右に分割されています。
左側が画像で、右側が認識結果です。
シンクロ表示になっています。
OCR認識中の画面です。
一回に処理できるファイル数は50です。
画像の読み込みに約30秒かかります。
OCRにかかる時間はファイルの状態によってまちまちですが、文字だけのページであれば1分30秒程度です。
所要時間は「50ページが2分」というのが一応の目安です。
OCRの認識結果は、編集してDBに保存します。
新機能:OCR索引
OCRの認識結果をページごとに分割して、FBに保存するツールを作成しました。処理は完全に自動化されています。
これを使えば、任意の検索語に対してその語が登場するページ数を取得することができます。 これは索引の機能ですから、OCR索引と命名することにしました。
さらに、FBならGDSに検索させることができます。 GDS上で検索をかけてもページがヒットするようになりました。