要約
現在、言語モデル (LM) の最先端技術のほとんどは、トランスフォーマー ベースのアーキテクチャとそのユビキタス アテンション メカニズムに依存しています。
ただし、入力シーケンスが長くなると計算要件が指数関数的に増加するため、Transformer は短いパッセージの処理に限定されます。
最近の取り組みは、選択的注意メカニズム、特にローカルおよびグローバルな注意を導入することによって、この制限に対処することを目的としています。
チューリング完全である場合の完全な注意に似た、まばらな注意メカニズムは理論的に確立されていますが、事前トレーニングに対する実際的な影響はまだ調査されていません。
この研究は、BERT の事前トレーニングに対する世界的な注目の影響を経験的に評価することに焦点を当てています。
主な手順には、テキストのみの対応物と並行して、arXiv データを通じて構造を認識したテキストの広範なコーパスを作成することが含まれます。
これら 2 つのデータセットで事前トレーニングを実行し、注意パターンの変化を調査し、下流のタスクへの影響を評価します。
私たちの分析は、文書構造を LM モデルに組み込むことの重要性を強調し、文書理解などのより抽象的なタスクに優れた能力を示しています。
要約(オリジナル)
Most state-of-the-art techniques for Language Models (LMs) today rely on transformer-based architectures and their ubiquitous attention mechanism. However, the exponential growth in computational requirements with longer input sequences confines Transformers to handling short passages. Recent efforts have aimed to address this limitation by introducing selective attention mechanisms, notably local and global attention. While sparse attention mechanisms, akin to full attention in being Turing-complete, have been theoretically established, their practical impact on pre-training remains unexplored. This study focuses on empirically assessing the influence of global attention on BERT pre-training. The primary steps involve creating an extensive corpus of structure-aware text through arXiv data, alongside a text-only counterpart. We carry out pre-training on these two datasets, investigate shifts in attention patterns, and assess their implications for downstream tasks. Our analysis underscores the significance of incorporating document structure into LM models, demonstrating their capacity to excel in more abstract tasks, such as document understanding.
arxiv情報
著者 | Kaustubh Ponkshe,Venkatapathy Subramanian,Natwar Modani,Ganesh Ramakrishnan |
発行日 | 2024-11-25 17:57:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google