Entry Separation using a Mixed Visual and Textual Language Model: Application to 19th century French Trade Directories

要約

辞書、ディレクトリ、さらには新聞など、繰り返し整理されたドキュメントから構造化データを抽出する際の主な課題は、ターゲット データベースの基本的なテキスト領域を構成するものを正しくセグメント化することです。
伝統的に、このような問題はレイアウト分析の一部として取り組まれ、主に (トップダウン) アプローチを分割するための視覚的な手がかりに基づいていました。
一部の凝集 (ボトムアップ) アプローチは、テキスト情報を考慮して同様のコンテンツをリンクし始めましたが、きめの細かい単位を適切に過剰に分割する必要がありました。
この作業では、19 世紀のフランスの貿易ディレクトリで効率が実証されている新しい実用的なアプローチを提案します。
2 つのサブ問題を検討することを提案します: 粗いレイアウト検出 (テキスト列と読み上げ順序)。これは効果的であると想定されており、ここでは詳しく説明されていません。
最先端の名前付きエンティティ認識 (NER) アプローチ。
特殊な視覚的トークン、たとえばインデントやブレークなどのコーディングを、NER 目的で使用される言語モデルのトークン ストリームに挿入することにより、テキストと視覚的な知識の両方を同時に活用できます。
コード、データ、結果、およびモデルは、https://github.com/soduco/paper-entryseg-icdar23-code、https://huggingface.co/HueyNemud/ (icdar23-entrydetector* バリアント) で入手できます。

要約(オリジナル)

When extracting structured data from repetitively organized documents, such as dictionaries, directories, or even newspapers, a key challenge is to correctly segment what constitutes the basic text regions for the target database. Traditionally, such a problem was tackled as part of the layout analysis and was mostly based on visual clues for dividing (top-down) approaches. Some agglomerating (bottom-up) approaches started to consider textual information to link similar contents, but they required a proper over-segmentation of fine-grained units. In this work, we propose a new pragmatic approach whose efficiency is demonstrated on 19th century French Trade Directories. We propose to consider two sub-problems: coarse layout detection (text columns and reading order), which is assumed to be effective and not detailed here, and a fine-grained entry separation stage for which we propose to adapt a state-of-the-art Named Entity Recognition (NER) approach. By injecting special visual tokens, coding, for instance, indentation or breaks, into the token stream of the language model used for NER purpose, we can leverage both textual and visual knowledge simultaneously. Code, data, results and models are available at https://github.com/soduco/paper-entryseg-icdar23-code, https://huggingface.co/HueyNemud/ (icdar23-entrydetector* variants)

arxiv情報

著者 Bertrand Duménieu,Edwin Carlinet,Nathalie Abadie,Joseph Chazalon
発行日 2023-02-17 15:30:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク