要約
タイトル:法的文書ページの文脈に基づく分類
要約:
– 証明書の処理、索引化、検索などを必要とする多くのビジネスアプリケーションにおいて、PDF形式などの法的ブリーフを含む専門文書のページを予め対応するタイプに分類することが不可欠である。
– 一部の文書イメージ分類分野の既存の研究は、単一ページドキュメントに焦点を当てたり、ドキュメントの複数ページを独立して扱ったりしている。
– 近年では、隣接ページからの文脈情報を利用してドキュメントページの分類を強化する技術がいくつか提案されているが、入力長の制限から大規模な事前トレーニング済み言語モデルを利用することができない場合が多い。
– 本論文では、上記の制限を克服するシンプルで効果的な手法を提案し、以前のページに関する連続情報を持つ追加トークンで入力を強化することで、再現性を導入することができます。これは、文脈意識のページ分類にBERTのような事前トレーニング済みのTransformerモデルを使用できるようにします。
– 英語とポルトガル語の2つの法的データセットで実験を行った結果、提案手法は、非再現性セットアップおよび他の文脈意識のベースラインに比べ、ドキュメントページ分類の性能を大幅に改善できることが示された。
要約(オリジナル)
For many business applications that require the processing, indexing, and retrieval of professional documents such as legal briefs (in PDF format etc.), it is often essential to classify the pages of any given document into their corresponding types beforehand. Most existing studies in the field of document image classification either focus on single-page documents or treat multiple pages in a document independently. Although in recent years a few techniques have been proposed to exploit the context information from neighboring pages to enhance document page classification, they typically cannot be utilized with large pre-trained language models due to the constraint on input length. In this paper, we present a simple but effective approach that overcomes the above limitation. Specifically, we enhance the input with extra tokens carrying sequential information about previous pages – introducing recurrence – which enables the usage of pre-trained Transformer models like BERT for context-aware page classification. Our experiments conducted on two legal datasets in English and Portuguese respectively show that the proposed approach can significantly improve the performance of document page classification compared to the non-recurrent setup as well as the other context-aware baselines.
arxiv情報
著者 | Pavlos Fragkogiannis,Martina Forster,Grace E. Lee,Dell Zhang |
発行日 | 2023-04-05 23:14:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI