PDF OCRベンチマーク
PDFラクのPDF OCRを、文字選択できない画像PDFで確認します。 OCRは便利ですが完全ではないため、読み取りやすい文書と読みにくい文書の違いを見比べられるようにしています。
OCR確認結果
見本PDFに書かれている文字とOCR結果を、空白と改行をならして比較しました。 CERは文字誤り率で、小さいほど原文に近い結果です。段組みPDFでは文字そのものが読めても、左右カラムの順番が入れ替わるとCERが高く出ます。
| サンプル | 認識行数 | CER | 文字一致率 | 完全一致行 | 確認ポイント |
|---|---|---|---|---|---|
| きれいなスキャンPDF | 30行 | 0.0% | 100.0% | 26/28行(92.9%) | 日本語、英数字、金額、表の文字はおおむね読み取れました。文章は画像内の改行に合わせて分割されます。 |
| 薄いスキャンPDF | 28行 | 1.4% | 98.6% | 25/28行(89.3%) | 薄い文字でも読み取れましたが、「金額」が「金额」、「メモ」が「Xモ」のように誤認識する箇所がありました。 |
| 表と段組みのPDF | 37行 | 32.4% | 67.6% | 28/31行(90.3%) | 表の数値と本文は読み取れました。段組みでは左右カラムの文字順が混ざるため、結果確認が必要です。 |
サンプルの見た目
読み取りやすいPDF
- 文字が大きく、背景とのコントラストが高いPDF
- 傾きやぼかしが少ないスキャンPDF
- 1ページ内の段組みや装飾が少ないPDF