要約
手書きのテキスト認識(HTR)は、特にページが共通のフォーマットとコンテキスト機能を共有するマルチページドキュメントでは、依然として困難なタスクです。
最新の光学文字認識(OCR)エンジンは印刷されたテキストに熟練していますが、手書きのパフォーマンスは限られており、多くの場合、微調整には費用のかかるラベル付きデータが必要です。
このホワイトペーパーでは、ゼロショット設定でマルチページの手書きドキュメントを転写するためのマルチモーダル大手言語モデル(MLLM)の使用を調べます。
コマーシャルOCRエンジンとMLLMのさまざまな構成を調査し、後者をエンドツーエンドの転写者として、および画像コンポーネントの有無にかかわらず、郵便局の両方として利用します。
ドキュメント全体のOCR出力と最初のページ画像のみを提供することにより、MLLM転写を強化する新しい方法「+First Page」を提案します。
このアプローチは、すべての画像を処理するコストがかかることなく、共有されたドキュメント機能を活用します。
IAM手書きデータベースのマルチページバージョンでの実験は、「+ファーストページ」が転写の精度を改善し、コストとパフォーマンスのバランスを改善し、1つのページからのフォーマットとOCRエラーパターンを推定することにより、サンプル外のテキストの結果を強化することを示しています。
要約(オリジナル)
Handwritten text recognition (HTR) remains a challenging task, particularly for multi-page documents where pages share common formatting and contextual features. While modern optical character recognition (OCR) engines are proficient with printed text, their performance on handwriting is limited, often requiring costly labeled data for fine-tuning. In this paper, we explore the use of multi-modal large language models (MLLMs) for transcribing multi-page handwritten documents in a zero-shot setting. We investigate various configurations of commercial OCR engines and MLLMs, utilizing the latter both as end-to-end transcribers and as post-processors, with and without image components. We propose a novel method, ‘+first page’, which enhances MLLM transcription by providing the OCR output of the entire document along with just the first page image. This approach leverages shared document features without incurring the high cost of processing all images. Experiments on a multi-page version of the IAM Handwriting Database demonstrate that ‘+first page’ improves transcription accuracy, balances cost with performance, and even enhances results on out-of-sample text by extrapolating formatting and OCR error patterns from a single page.
arxiv情報
著者 | Benjamin Gutteridge,Matthew Thomas Jackson,Toni Kukurin,Xiaowen Dong |
発行日 | 2025-02-27 17:21:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google