要約
光学文字認識(OCR)テクノロジーは、ドキュメントの画像からテキストを抽出し、効率的なデジタル化とデータの検索を促進するために広く使用されています。
ただし、複雑なドキュメントを扱う場合、テキストを抽出するだけでは不十分です。
そのようなドキュメントを完全に理解するには、複数のページにわたる複数のブロックと列のフォーマット、式、テーブル、読み取り順序など、その構造を理解する必要があります。
この包括的な理解は、検索、ドキュメントの質問応答、大規模な言語モデル(LLMS)およびビジョン言語モデル(VLM)をトレーニングするためのデータキュレーションなどの下流のタスクにとって重要です。
これに対処するために、幅広いドキュメントタイプを処理するために特別に設計された一般的なテキスト抽出ツールである\ ‘Eclairを紹介します。
画像が与えられた場合、\ ‘Eclairは、境界ボックスと対応するセマンティッククラスとともに、フォーマットされたテキストを読み取り順序で抽出できます。
これらの新しい能力を徹底的に評価するために、ドキュメントレベルのOCRおよびセマンティック分類のために、多様な人間が注目したベンチマークを紹介します。
\ ‘Eclairは、このベンチマークで最先端の精度を達成し、主要なメトリック全体で他の方法を上回ります。
さらに、確立されたベンチマークで\ ‘eclairを評価し、いくつかの評価基準にわたってその汎用性と強度を示します。
要約(オリジナル)
Optical Character Recognition (OCR) technology is widely used to extract text from images of documents, facilitating efficient digitization and data retrieval. However, merely extracting text is insufficient when dealing with complex documents. Fully comprehending such documents requires an understanding of their structure — including formatting, formulas, tables, and the reading order of multiple blocks and columns across multiple pages — as well as semantic information for detecting elements like footnotes and image captions. This comprehensive understanding is crucial for downstream tasks such as retrieval, document question answering, and data curation for training Large Language Models (LLMs) and Vision Language Models (VLMs). To address this, we introduce \’Eclair, a general-purpose text-extraction tool specifically designed to process a wide range of document types. Given an image, \’Eclair is able to extract formatted text in reading order, along with bounding boxes and their corresponding semantic classes. To thoroughly evaluate these novel capabilities, we introduce our diverse human-annotated benchmark for document-level OCR and semantic classification. \’Eclair achieves state-of-the-art accuracy on this benchmark, outperforming other methods across key metrics. Additionally, we evaluate \’Eclair on established benchmarks, demonstrating its versatility and strength across several evaluation standards.
arxiv情報
著者 | Ilia Karmanov,Amala Sanjay Deshmukh,Lukas Voegtle,Philipp Fischer,Kateryna Chumachenko,Timo Roman,Jarno Seppänen,Jupinder Parmar,Joseph Jennings,Andrew Tao,Karan Sapra |
発行日 | 2025-02-06 17:07:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google