Context-Aware Classification of Legal Document Pages

要約

タイトル:コンテキストに応じた法的文書ページの分類
要約:

– 法的なブリーフ(PDF形式など)などの専門文書の処理、索引付け、検索を必要とする多くのビジネスアプリケーションでは、与えられた文書のページを事前に対応するタイプに分類することがしばしば必要です。
– ドキュメント画像分類の既存の研究は、単一ページの文書に焦点を当てたものや、文書内の複数ページを独立に扱ったものがほとんどです。
– 近年では、隣接するページからのコンテキスト情報を活用してドキュメントページ分類を向上させるいくつかの技術が提案されていますが、入力長の制約により大規模な事前学習言語モデルの利用ができないという問題があります。
– 本論文では、上記の制限を克服するためのシンプルで効果的な手法を提示しています。具体的には、前のページに関する順序情報を持つ追加トークンで入力を強化し、再帰性を導入することで、BERTなどの事前学習済みTransformerモデルを使用してコンテキストに応じたページ分類を実現します。
– 英語とポルトガル語の2つの法的データセットで行われた実験は、提案手法が非再帰セットアップおよび他のコンテキスト意識ベースラインと比較して、文書ページ分類のパフォーマンスを大幅に向上させることを示しています。

要約(オリジナル)

For many business applications that require the processing, indexing, and retrieval of professional documents such as legal briefs (in PDF format etc.), it is often essential to classify the pages of any given document into their corresponding types beforehand. Most existing studies in the field of document image classification either focus on single-page documents or treat multiple pages in a document independently. Although in recent years a few techniques have been proposed to exploit the context information from neighboring pages to enhance document page classification, they typically cannot be utilized with large pre-trained language models due to the constraint on input length. In this paper, we present a simple but effective approach that overcomes the above limitation. Specifically, we enhance the input with extra tokens carrying sequential information about previous pages – introducing recurrence – which enables the usage of pre-trained Transformer models like BERT for context-aware page classification. Our experiments conducted on two legal datasets in English and Portuguese respectively show that the proposed approach can significantly improve the performance of document page classification compared to the non-recurrent setup as well as the other context-aware baselines.

arxiv情報

著者 Pavlos Fragkogiannis,Martina Forster,Grace E. Lee,Dell Zhang
発行日 2023-04-25 14:59:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, I.2 パーマリンク