PDF OCRベンチマーク

PDFラクのPDF OCRを、文字選択できない画像PDFで確認します。 OCRは便利ですが完全ではないため、読み取りやすい文書と読みにくい文書の違いを見比べられるようにしています。

OCR確認結果

見本PDFに書かれている文字とOCR結果を、空白と改行をならして比較しました。 CERは文字誤り率で、小さいほど原文に近い結果です。段組みPDFでは文字そのものが読めても、左右カラムの順番が入れ替わるとCERが高く出ます。

サンプル 認識行数 CER 文字一致率 完全一致行 確認ポイント
きれいなスキャンPDF 30行 0.0% 100.0% 26/28行(92.9%) 日本語、英数字、金額、表の文字はおおむね読み取れました。文章は画像内の改行に合わせて分割されます。
薄いスキャンPDF 28行 1.4% 98.6% 25/28行(89.3%) 薄い文字でも読み取れましたが、「金額」が「金额」、「メモ」が「Xモ」のように誤認識する箇所がありました。
表と段組みのPDF 37行 32.4% 67.6% 28/31行(90.3%) 表の数値と本文は読み取れました。段組みでは左右カラムの文字順が混ざるため、結果確認が必要です。

サンプルの見た目

きれいなスキャンPDFのOCRベンチマークサンプル
きれいなスキャンPDF 日本語、英数字、金額、表を含む読み取りやすい画像PDF。
薄いスキャンPDFのOCRベンチマークサンプル
薄いスキャンPDF 低コントラスト、小さめの文字、わずかな傾きを含む画像PDF。
表と段組みのPDFのOCRベンチマークサンプル
表と段組みのPDF 表、2カラム、日本語と英語が混在する画像PDF。

読み取りやすいPDF

  • 文字が大きく、背景とのコントラストが高いPDF
  • 傾きやぼかしが少ないスキャンPDF
  • 1ページ内の段組みや装飾が少ないPDF