87
ペーパーレスオフィスの秘密:OCRの最適化

約7年前にドキュメントスキャナーを使い始めて以来、何千ページもの書類をスキャンし、OCR(光学文字認識)ソフトウェアを使って検索可能なPDFに変換してきました。また、ペーパーレスオフィスについても多くの記事を執筆してきました。しかし、紙の使用量を削減しようとすると、必然的にハードディスクの使用量が増えてしまいます。そこで、スキャナーの設定とソフトウェアをどのように組み合わせれば、ハードディスクの使用量を最小限に抑えながら、最高品質のスキャン結果が得られるのか、考え始めました。

調査のきっかけとなったのは、一部のOCRアプリはスキャン画像のファイルサイズを大幅に増加させる一方で、他のアプリ(特にAcrobat Pro)はファイルサイズを縮小するという主張でした。スキャンした文書をiOSデバイスに保存して読み込む場合、ファイルサイズが小さいことは特に重要です。残念ながら、Adobeの499ドルのAcrobat Pro XI()はAppleScriptによる外部制御ができなくなり、OCRを実行するには面倒な手動クリック操作が必要になります。他のOCRアプリは本当にファイルサイズを膨張させているのでしょうか?そして、Acrobatを使わずにこの問題を回避する方法はあるのでしょうか?

何百回もの実験を経て、驚くべき結果に辿り着きました。詳細は以下をお読みください。結論だけ知りたい場合は「では、最適なポイントはどこにあるのでしょうか?」のセクションをご覧ください。

OCRの詳細

スキャンした文書を最初にPDFファイルとして保存すると、PDFラッパー内のビットマップ画像しか得られません。スキャナのソフトウェアには、スキャンの解像度(dpi、ドット/インチ)、カラーモード(白黒、グレースケール、カラー)、そしてスキャン画像に適用される圧縮率を決定する設定が備わっていることがよくあります。これらの設定はすべて、スキャンの外観だけでなく、OCRエンジンが処理する情報の品質にも影響します。OCRソフトウェアはPDF内のテキストを認識すると、そのテキストを画像と共に非表示のレイヤーに保存します。これにより、文書の元の外観を確認できるだけでなく、テキストの検索、選択、コピーも可能になります。

OCR ソフトウェアは、テキストの認識に加えて、画像をダウンサンプリング(解像度を下げて容量を削減)したり、圧縮率を変更したりすることがあります。これらの機能はユーザーが設定できる場合もあれば、ハードコードされている場合もあります。Acrobat Pro には、さらに別のオプションがあります。ClearScan という機能です。これは、すべてのビットマップテキストをカスタムフォント(容量を大幅に削減)に置き換え、元の画像を解像度のはるかに低い画像に置き換えます。ClearScan を使用すると、ほぼ常に PDF のサイズが最小限に抑えられますが、スキャンした画像が印刷後も元の画像とまったく同じに見えることを確実にしたい場合は、ClearScan は最適な選択肢ではない可能性があります。また、ClearScan を使用するということは、Acrobat の OCR エンジンに頼ることを意味します。これについては後ほど詳しく説明します。

自動ページ送り機能付きのドキュメントスキャナーを使えば、作業がスピードアップします。私は富士通のScanSnap iX500を使ってテストしました。

確かな統計データを得たかったので、解像度、カラーモード、圧縮率を様々な組み合わせで、いくつかの文書をそれぞれ数十回スキャンしました。次に、様々なRAWスキャンデータを4つの異なるOCRエンジンで処理しました。ABBYYの100ドルのABBY FineReader Express()、Acrobat Pro X、Smileの100ドルのPDFpenPro()、そしてDevon TechnologiesのDEVONthink Pro Office( )に組み込まれているABBYY FineReaderのバージョンです。テストした4つのエンジンは、Macで利用可能なOCRツールのごく一部ですが、最も人気のあるものの一つです。ファイルサイズ、OCR精度、画像忠実度について結果を検証しました。

OCRがファイルサイズに与える影響

ほとんどのデスクトップドキュメントスキャナーの光学解像度は600dpiですが、必要に応じてより低い解像度でスキャンすることもできます。テストには富士通のScanSnap iX500 ( )を使用しました。このスキャナーはネイティブ解像度が600dpiですが、ソフトウェアによる補間により最大1200dpiまで対応しています。圧縮率を除けば、1インチあたりのドット数を2倍にするとファイルサイズは4倍になり、さらに高解像度でスキャンするとスキャン時間も大幅に長くなります。つまり、ニーズを満たす最低解像度を見つけることが重要です。

 
ABBY FineReader Express は、設定をいじることができない簡素化されたインターフェースを提供します。

多くの変数が影響しますが、私の結果によると、白地に黒のテキストが中心の文書の場合、300dpiのグレースケールスキャンは、 OCR適用前の ページあたり約250KBから1MB(圧縮レベルによって異なります)まで圧縮されることがわかりました。白黒画像が最も小さく、カラー画像が最も大きく、グレースケールはその中間であることは言うまでもありません。同様に、解像度を上げるとファイルサイズは常に大きくなり、圧縮率を上げるとファイルサイズは小さくなります(圧縮率が低いファイルは、圧縮率が高いファイルよりも約3~5倍大きくなる傾向がありました)。これらはどれも驚くべきことではありませんが、私が驚いたのは、OCRソフトウェアが元のサイズをどのように変更するかということです。

いずれの場合も、PDFpenProは私の予想通り、元のファイルサイズをわずかに増加させるだけでした。つまり、画像はそのまま残し、テキストのみを追加しました。Acrobat Proは、デフォルト設定(ClearScanもダウンサンプリングも使用しない)では、カラー画像とグレースケール画像でPDFpenProとほぼ同じ動作を示しました。ほとんどの場合、ファイルサイズの増加はFineReaderよりもわずかに少なかったのです。しかし、白黒画像では、Acrobat Pro独自の圧縮処理によってファイルが縮小され、場合によっては90%も縮小されることもありました。

一方、FineReader Expressで画像も圧縮したところ、全く異なる結果になりました。白黒画像はサイズが大きく、場合によっては大幅に増加しました。例えば、77KBのファイルは343KBに、2.7MBのファイルは13.2MBにまで膨れ上がりました。グレースケール画像やカラー画像では、結果に一貫性がなく、ファイルによってはサイズが大きくなる一方で、他のファイルではサイズが小さくなることがありました。

スタンドアロン版のABBYY FineReader Expressでは画像の再圧縮設定を変更できませんが、DEVONthink Pro Officeに内蔵されているバージョンでは、選択した解像度へのダウンサンプリングや、グラフィックの圧縮レベルを設定できます。そのため、このバージョンのFineReaderを使用することで、PDFpenProやAcrobat Proで生成されたファイルサイズに近づくことができました。

DEVONthink Pro Office には、スキャンした画像の解像度と圧縮を調整したり、好みの精度レベルを選択したりできる ABBYY FineReader のカスタマイズされたバージョンが含まれています。

OCRの精度に影響する設定

解像度、カラーモード、圧縮率に応じて、私がテストした1ページのスキャンされた手紙のサイズは、OCR処理前で77KBから2.2MBまで変化しました。しかし、ファイルサイズが小さくなるとOCRの精度が低下するのであれば、これはあまり好ましいトレードオフではないかもしれません。そこで次の疑問が浮かびました。それは、どの設定とOCRエンジンの組み合わせが最も正確な結果をもたらすのか、ということです。

精度をテストするために、プレビューでPDFを開き、すべてのテキストを選択してBBEdit文書にコピーしました。次に、BBEditの比較機能を使用して、スキャンしたテキストと修正済みのモデル文書の差異をハイライト表示しました。可能な限りエラー数を数えましたが、スペースのみが異なる場合や、複数の単語が連続している場合など、エラーの数は主に解釈の問題でした。それでも、全体的な傾向は明らかでした。

解像度:私がテストした最低解像度(グレースケールとカラーは150dpi、白黒は300dpi)では、テストしたすべてのエンジンでOCRエラーが非常に多く、エラーを修正するよりも文書を再入力する方が効率的だったでしょう。精度は一般的に解像度を上げると向上しますが、直線的ではありません。例えば、300dpiのスキャンは150dpiのスキャンよりもはるかに正確でしたが、300dpiと600dpiのスキャンの精度の差はわずかでした。

カラーモード:白黒画像のOCR精度は、これまでのところ最も低かった。グレースケール画像はどの解像度でも白黒画像よりも優れており、300dpiのグレースケールスキャンは、600dpiや1200dpiの白黒スキャンよりもはるかに優れた結果となった。カラースキャンは、平均的にはグレースケールスキャンとほぼ同じ精度を示したが、非常に低い解像度の場合は例外で、その場合はカラースキャンはグレースケールよりも大幅に精度が劣った。

圧縮:画像に適用された圧縮率は、特に300dpi以上の解像度では、OCRの精度にほとんど影響を与えませんでした。最高レベルの圧縮率では、ぼやけた文字や斑点のある線画といったノイズが増えました。ノイズが最も多いスキャン画像でも完全に判読可能でしたが、ファイルサイズの増加はわずかで、中程度の圧縮率の方が見た目が良好だと感じました。

エンジン:私がテストしたツールの中で、FineReader(スタンドアロン版と組み込み版の両方)はAcrobat ProやPDFpenProよりもはるかに精度が高く、ほとんどのテストにおいてAcrobat Proは最も精度が低い結果となりました。Acrobat Proはファイルサイズが最も小さいものの、出力に必要な編集作業の量がファイルサイズの価値を相殺していると感じました。

では、スイートスポットはどこでしょうか?

これらの結果をまとめると、ファイルサイズとOCR精度の最適なバランスをとるには、300dpiのグレースケール、中圧縮でスキャンするのが良いでしょう。ただし、元の文書でカラーが重要な役割を果たしている場合は、カラーに切り替えますが、それ以外の設定はそのままにしておいてください。文書が白紙にプレーンテキストで印刷されている場合でも、白黒でのスキャンは避けてください。

OCRエンジンの選択肢を考えると、ファイルサイズが小さいとはいえ、Acrobat Pro(特にバージョンXI)は避けた方が良いでしょう。FineReaderは優れた精度を提供し、デジタル化した文書を利用する際に重要な考慮事項となります。DEVONthink Pro Officeに含まれているもののように、圧縮率とダウンサンプリングを調整できる組み込みバージョンを使用すれば、ファイルサイズの不一致による問題を回避できます。ダウンサンプリング(これはテキスト認識後に行われることを覚えておいてください)を制御できるツールであれば、設定を150dpiに調整し、圧縮品質を約50%にしてください。