Leveraging Collection-Wide Similarities for Unsupervised Document Structure Extraction

要約

法律、医療、金融など、さまざまな分野の文書コレクションは、多くの場合、人間のユーザーと構造認識モデルの両方を支援できる情報を取り込む、基礎となるコレクション全体の構造を共有しています。
私たちは、コレクション内のドキュメントの典型的な構造を特定することを提案します。これには、任意のヘッダーの言い換えを抽象化しながら、コレクション全体で繰り返し現れるトピックをキャプチャし、各トピックをそれぞれのドキュメントの場所に固定する必要があります。
これらの要件により、いくつかの課題が生じます。繰り返しのトピックを示すヘッダーの表現が異なる場合が多く、特定のセクションのヘッダーは個々の文書に固有であり、一般的な構造を反映していません。また、トピックの順序は文書間で異なる場合があります。
続いて、文書間および文書内の類似性の両方を活用して、根底にあるコレクション全体の構造を抽出する教師なしグラフベースの手法を開発します。
英語とヘブライ語の 3 つの多様なドメインに関する私たちの評価は、私たちの手法が意味のあるコレクション全体の構造を抽出していることを示しており、今後の研究で私たちの手法がマルチドキュメント アプリケーションや構造認識モデルに活用されることを期待しています。

要約(オリジナル)

Document collections of various domains, e.g., legal, medical, or financial, often share some underlying collection-wide structure, which captures information that can aid both human users and structure-aware models. We propose to identify the typical structure of document within a collection, which requires to capture recurring topics across the collection, while abstracting over arbitrary header paraphrases, and ground each topic to respective document locations. These requirements pose several challenges: headers that mark recurring topics frequently differ in phrasing, certain section headers are unique to individual documents and do not reflect the typical structure, and the order of topics can vary between documents. Subsequently, we develop an unsupervised graph-based method which leverages both inter- and intra-document similarities, to extract the underlying collection-wide structure. Our evaluations on three diverse domains in both English and Hebrew indicate that our method extracts meaningful collection-wide structure, and we hope that future work will leverage our method for multi-document applications and structure-aware models.

arxiv情報

著者 Gili Lior,Yoav Goldberg,Gabriel Stanovsky
発行日 2024-06-20 14:43:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク