Document Structure in Long Document Transformers

要約

長い文書では、多くの場合、セクション ヘッダーや段落など、さまざまな機能の要素が階層的に編成された構造が示されます。
文書構造は遍在しているにもかかわらず、自然言語処理 (NLP) におけるその役割は依然として不透明です。
長いドキュメントの Transformer モデルは、事前トレーニング中にドキュメント構造の内部表現を取得しますか?
事前トレーニング後に構造情報をモデルにどのように伝達できますか?また、それは下流のパフォーマンスにどのように影響しますか?
これらの質問に答えるために、私たちは、長い文書の Transformer の構造認識を評価するための新しいプローブ タスクのスイートを開発し、汎用の構造注入方法を提案し、2 つの困難な長い文書である QASPER と証拠推論に対する構造注入の効果を評価します。
NLP タスク。
LED と LongT5 の結果は、事前トレーニング中に文書構造の暗黙的な理解を獲得し、構造の注入によってさらに強化され、最終タスクのパフォーマンスの向上につながることを示唆しています。
NLP モデリングにおける文書構造の役割に関する研究を促進するために、私たちはデータとコードを公開しています。

要約(オリジナル)

Long documents often exhibit structure with hierarchically organized elements of different functions, such as section headers and paragraphs. Despite the omnipresence of document structure, its role in natural language processing (NLP) remains opaque. Do long-document Transformer models acquire an internal representation of document structure during pre-training? How can structural information be communicated to a model after pre-training, and how does it influence downstream performance? To answer these questions, we develop a novel suite of probing tasks to assess structure-awareness of long-document Transformers, propose general-purpose structure infusion methods, and evaluate the effects of structure infusion on QASPER and Evidence Inference, two challenging long-document NLP tasks. Results on LED and LongT5 suggest that they acquire implicit understanding of document structure during pre-training, which can be further enhanced by structure infusion, leading to improved end-task performance. To foster research on the role of document structure in NLP modeling, we make our data and code publicly available.

arxiv情報

著者 Jan Buchmann,Max Eichler,Jan-Micha Bodensohn,Ilia Kuznetsov,Iryna Gurevych
発行日 2024-01-31 08:28:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク