Deprecated: Assigning the return value of new by reference is deprecated in /home/users/2/floppy.jp-999953/web/kagakusukimono/class/View.php on line 25

Deprecated: Assigning the return value of new by reference is deprecated in /home/users/2/floppy.jp-999953/web/kagakusukimono/class/View.php on line 30

Warning: Cannot modify header information - headers already sent by (output started at /home/users/2/floppy.jp-999953/web/kagakusukimono/class/View.php:25) in /home/users/2/floppy.jp-999953/web/kagakusukimono/class/View.php on line 81
科学好き者の日々::OCR

OCR

150ページ位のマニュアルをテキストファイルにしました。

もともとは印刷されたマニュアルなので、スキャナーで取り込んで、OCRのソフトでテキスト化します。

OCRソフトはあまり使っていないのですが、今回使ってみて認識率が結構よくなっているのに驚きました。

普通の文はほとんど誤りなくテキスト化します。
表もそれなりに(誤りがすぐ判る程度に)テキスト化します。

実はもとの紙はバインダーに綴じてあった紙だったので、綴じ穴も●と認識されてテキスト化されてしまいました。
これをとるのに検索と置換で検索は●置換で空白を選び実行します。

誤変換するのが i(小文字のアイ)l(小文字のエル)I(大文字のアイ)1(数字のいち)で目でみても間違いやすいものね。

意外な誤変換で重要なのは小さな「っ」です。行つた(行った)やつた(やった)など目でみるぶんにはそれほど変わらないのですが、スクリーンリーダは 「行った」 は 「いった」と読みますが 「行つた」は「ぎょうつた」と読んでしまうので,訳が分からなくなってしまいます。

これらを検索と置換で置き換えます。
沢山あるものと、これは沢山ありそうだと思ってやってみると、2つくらいしかなかったりで、ちょっとがっかりもしてしまいます。

結局3日位かかりました。


Calendar
<< May 2024 >>
SunMonTueWedThuFriSat
   1234
567891011
12131415161718
19202122232425
262728293031
search this site.
tags
archives
recent comment
recent trackback
others
admin