ホームページ目次1997年前の話次の話

最近のOCRはちゃんと文字認識できるのでしょうか

1997年9月12日

今週は、またあちこちに出没しなければならなくなってしまって、ホームペー ジの更新がままならない週であった。

といっても、出没以外にも、良く分からない調査とか、製品選択の意見を求 められたり、人様のホームページ作成の支援をしたり、最後には娘の使ってい る古いノートパソコン(PC9801NS/A)にソフトを追加してくれとの要請があった りで、なかなかこれでも忙しいのである。

調査は結構手間がかかって大変である。このところ、OCRのチェックをい ろいろやっているのである。まあ、調査しようとした製品の情報をまとめてお こう。

私が使うのではなく、調査依頼されて、まあまあの値段で認識率の高い製品 を探しているのである。認識させるものは、印刷された新聞、小冊子などがほ とんどで、あまり複雑なレイアウトのものはない。内容的には、政治・経済・ 文化などが中心になる。まあ、非コンピュータ的な内容ばかりである。

完璧な認識を狙っている訳ではない。入れるべきデータが本何冊分もあるは ずなのであるが、これを手で入れると大変である。作業が軽減できればいい程 度の考えである。条件としては、5万円以下で、できるだけ認識率の高いもの が良い。認識結果がWord97に取り込めることが望ましい。

それで、とりあえず、あれこれ調べてみた。というか情報蒐集してみた。

読んde!!ココ、エプソンのスキャナに添付
まだまだ能力不足。オマケにしては良いとか。

『字由自在』、バーズ情報科学研究所、6980円
漢字は認識できるものの、『平仮名』の認識の悪さには驚嘆すべきも のがある。濁点のあるものは殆ど落す。読み取り時の調整で若干良く なったりするが、悲惨なレベルである。漢字の認識率は99%以上あ るかもしれないが、平仮名の認識率は90%に遠く及ばない。
よって、完全にボツである。まあ、値段が値段だから、納得。

OKREADER、住友電工、14800円
未確認。お試し版ダウンロード無し。

『読取革命』、パナソニック、19800円
未確認。お試し版ダウンロード無し。

OmCRオムロンソフトウェア、19800円
それにしても、ネーミングの発想が単純ですね〜。 未確認。お試し版ダウンロード無し。
特徴は、単なる文字イメージの認識ではなく、日本語処理を応用する ことで認識率を高めたとある。

『e.Typist』メディアドライブ、29800円
未確認。いくつかのスキャナにバンドルされているようだ。機能限定 版らしい。

『認識工房』ライオス・システムズ、29800円
お試し版をインストールして使ってみた。まずまずであるが、満足と いうところまでは行かない。
製品版には、イメージのノイズ除去などの機能があるのだが、サンプ ル版では、ボタンを押すと『サンプルだから駄目よ』との警告が発せ られる。ノイズ除去されていないと、かなり認識が変になるので、サ ンプル版とはいえ、この機能は欲しかった。評価にならないではないか。
操作性はイマイチよりももうちょっと悪いなあ、という感じ

『読取物語』リコー、49800円(実売40000円程度)
これも、お試し版をインストールして使ってみた。認識率はかなり高 く、漢字、仮名も殆ど正確に認識される。新聞で文字が黒くなって潰 れかけているところなどを除くとほぼOKである。新聞で、5行以上 にわたって一切ミス無しということも多い。
認識で不安なところはで示される。こ の指定のないところは、ほぼ完全に正しいようであった。 になっていても、8割くらいは正しく 認識されていたようだ。
でも、文字イメージだけからの認識しかしていないようで、日本語と しての認識能力がちょっとでもあれば、たとえば単語だけでも認識で きれば、さらに正確さが向上すると思われた。
操作性はイマイチであった。

『WinReader PRO』メディアドライブ、198000円
ちょっと高すぎる。調査対象外。文字認識というより、ドキュメント システムを目指した製品のように見受けられた。
文字認識機能は『e.Typist』と同じなのだろか。

もっと多数のソフトがあるようで、WEBをさ迷っていたら、 明星大学知能情報室に OCR資料というのがまとめ てあったのだが、評価がなくて残念。

調べると調べる程泥沼になっていくようだ。性能と価格は、全体としては比 例の傾向にあるようである。

5万円程度までで、これはというOCRがあったら教えてくれると (^_^)


ホームページ目次1997年前の話次の話