DEPTH: Discourse Education through Pre-Training Hierarchically

要約

言語モデル (LM) は、一貫性、一貫性、物語の流れなどの談話パターンがトレーニング前のデータに広く存在しているにもかかわらず、談話レベルでの言語理解に苦労することがよくあります。
現在の方法は、モデルを調整するために高価な人間による注釈付きデータに依存しており、事前トレーニング段階の後にのみこれらの課題に対処します。
すでに事前トレーニング段階にある LM の談話能力を向上させるために、談話指向の事前トレーニング目標を使用して文を表現することを学習するエンコーダ/デコーダ モデルである DEPTH を導入します。
DEPTH は、階層的な文表現と、(1) 文のシャッフリング解除、および (2) スパン破損の 2 つの目的を組み合わせます。
このアプローチでは、大量の非構造化テキストにわたるサブワードレベルとセンテンスレベルの両方の依存関係を表現するようにモデルをトレーニングします。
スクラッチからトレーニングするか、事前トレーニング済みの T5 チェックポイントから継続してトレーニングすると、DEPTH は意味論的および談話レベルの表現を T5 よりも速く学習し、文のシャッフルを解除するという追加の目標があるにもかかわらず、スパン破損損失でそれを上回ります。
GLUE、DiscoEval、NI ベンチマークの評価は、構文、意味、談話の機能を必要とする多様な下流タスクを迅速に学習する DEPTH の能力を実証しています。
全体として、私たちのアプローチは T5 の談話機能を拡張しながら、結果として得られる LM の他の自然言語理解 (NLU) 機能への影響を最小限に抑えます。

要約(オリジナル)

Language Models (LMs) often struggle with linguistic understanding at the discourse level, even though discourse patterns such as coherence, cohesion, and narrative flow are prevalent in their pre-training data. Current methods address these challenges only after the pre-training phase, relying on expensive human annotated data to align the model. To improve the discourse capabilities of LMs already at the pre-training stage, we introduce DEPTH, an encoder-decoder model that learns to represent sentences using a discourse-oriented pre-training objective. DEPTH combines hierarchical sentence representations with two objectives: (1) Sentence Un-Shuffling, and (2) Span-Corruption. This approach trains the model to represent both sub-word-level and sentence-level dependencies over a massive amount of unstructured text. When trained either from scratch or continuing from a pre-trained T5 checkpoint, DEPTH learns semantic and discourse-level representations faster than T5, outperforming it in span-corruption loss despite the additional sentence-un-shuffling objective. Evaluations on the GLUE, DiscoEval, and NI benchmarks demonstrate DEPTH’s ability to quickly learn diverse downstream tasks, which require syntactic, semantic, and discourse capabilities. Overall, our approach extends the discourse capabilities of T5, while minimally impacting other natural language understanding (NLU) capabilities in the resulting LM.

arxiv情報

著者 Zachary Bamberger,Ofek Glick,Chaim Baskin,Yonatan Belinkov
発行日 2024-05-13 14:35:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク