PDF OCRベンチマーク

PDFラクのPDF OCRを、文字選択できない画像PDFで確認します。 OCRは便利ですが完全ではないため、読み取りやすい文書と読みにくい文書の違いを見比べられるようにしています。

OCR用サンプルPDF

日本語、英数字、金額、表を含む読み取りやすい画像PDF。

低コントラスト、小さめの文字、わずかな傾きを含む画像PDF。

表、2カラム、日本語と英語が混在する画像PDF。

見本PDFに書かれている文字とOCR結果を、空白と改行をならして比較しました。 CERは文字誤り率で、小さいほど原文に近い結果です。段組みPDFでは文字そのものが読めても、左右カラムの順番が入れ替わるとCERが高く出ます。

サンプル	認識行数	CER	文字一致率	完全一致行	確認ポイント
きれいなスキャンPDF	30行	0.0%	100.0%	26/28行（92.9%）	日本語、英数字、金額、表の文字はおおむね読み取れました。文章は画像内の改行に合わせて分割されます。
薄いスキャンPDF	28行	1.4%	98.6%	25/28行（89.3%）	薄い文字でも読み取れましたが、「金額」が「金额」、「メモ」が「Xモ」のように誤認識する箇所がありました。
表と段組みのPDF	37行	32.4%	67.6%	28/31行（90.3%）	表の数値と本文は読み取れました。段組みでは左右カラムの文字順が混ざるため、結果確認が必要です。