Pointer-Guided Pre-Training: Infusing Large Language Models with Paragraph-Level Contextual Awareness

要約

私たちは、大規模な言語モデルにおける段落レベルのテキスト表現の文脈上の理解を強化することを目的とした新しい事前トレーニング手法である「ポインターガイド付きセグメント順序付け」(SO) を紹介します。
私たちの方法論は、セルフアテンション駆動型のポインター ネットワークを活用して、シャッフルされたテキスト セグメントの元のシーケンスを復元し、文書内の構造的一貫性と文脈依存性を捕捉するという課題に取り組みます。
この事前トレーニングのアプローチは、動的サンプリングを組み込んだ微調整方法論によって補完され、トレーニング インスタンスの多様性を強化し、さまざまな下流アプリケーションのサンプル効率を向上させます。
私たちは多様なデータセットで手法を評価し、科学文献や財務報告の分野にわたる連続したテキストの分類が必要なタスクにおけるその有効性を実証します。
私たちの実験では、ポインタガイドによる事前トレーニングにより、複雑な文書構造を理解するモデルの能力が大幅に向上し、下流の分類タスクで最先端のパフォーマンスが得られることがわかりました。

要約(オリジナル)

We introduce ‘pointer-guided segment ordering’ (SO), a novel pre-training technique aimed at enhancing the contextual understanding of paragraph-level text representations in large language models. Our methodology leverages a self-attention-driven pointer network to restore the original sequence of shuffled text segments, addressing the challenge of capturing the structural coherence and contextual dependencies within documents. This pre-training approach is complemented by a fine-tuning methodology that incorporates dynamic sampling, augmenting the diversity of training instances and improving sample efficiency for various downstream applications. We evaluate our method on a diverse set of datasets, demonstrating its efficacy in tasks requiring sequential text classification across scientific literature and financial reporting domains. Our experiments show that pointer-guided pre-training significantly enhances the model’s ability to understand complex document structures, leading to state-of-the-art performance in downstream classification tasks.

arxiv情報

著者 Lars Hillebrand,Prabhupad Pradhan,Christian Bauckhage,Rafet Sifa
発行日 2024-06-06 15:17:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク