要約
文書比較は通常、そのコア技術として光学式文字認識 (OCR) に依存します。
ただし、OCR ではドキュメントごとに適切な言語モデルを選択する必要があり、多言語モデルまたはハイブリッド モデルのパフォーマンスは依然として制限されています。
これらの課題を克服するために、多言語ドキュメントに合わせた画像比較モデルを使用したテキスト変更検出 (TCD) を提案します。
OCR ベースのアプローチとは異なり、私たちの方法では、単語レベルのテキストの画像と画像の比較を使用して変更を検出します。
私たちのモデルは、ソースドキュメントとターゲットドキュメントの間で双方向の変更セグメンテーションマップを生成します。
明示的なテキストの配置やスケーリングの前処理を必要とせずにパフォーマンスを向上させるために、マルチスケールのアテンション機能間の相関関係を採用します。
また、モデルを評価するために、さまざまな言語で実際に印刷およびスキャンされた単語のペアで構成されるベンチマーク データセットを構築します。
私たちのベンチマーク データセットと公開ベンチマークである Distorted Document Images および LRDE Document Binarization Dataset を使用してアプローチを検証します。
私たちのモデルを、最先端のセマンティック セグメンテーションおよび変更検出モデル、さらには従来の OCR ベースのモデルと比較します。
要約(オリジナル)
Document comparison typically relies on optical character recognition (OCR) as its core technology. However, OCR requires the selection of appropriate language models for each document and the performance of multilingual or hybrid models remains limited. To overcome these challenges, we propose text change detection (TCD) using an image comparison model tailored for multilingual documents. Unlike OCR-based approaches, our method employs word-level text image-to-image comparison to detect changes. Our model generates bidirectional change segmentation maps between the source and target documents. To enhance performance without requiring explicit text alignment or scaling preprocessing, we employ correlations among multi-scale attention features. We also construct a benchmark dataset comprising actual printed and scanned word pairs in various languages to evaluate our model. We validate our approach using our benchmark dataset and public benchmarks Distorted Document Images and the LRDE Document Binarization Dataset. We compare our model against state-of-the-art semantic segmentation and change detection models, as well as to conventional OCR-based models.
arxiv情報
著者 | Doyoung Park,Naresh Reddy Yarram,Sunjin Kim,Minkyu Kim,Seongho Cho,Taehee Lee |
発行日 | 2024-12-05 13:04:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google