要約
この論文では、データ効率の高い言語モデル (LM) の事前トレーニングに関する BabyLM Challenge 2023 の共有タスクへの提出について説明します (Warstadt et al., 2023)。
階層的な文構造に関する教師なし予測をモデル アーキテクチャに組み込む、トランスフォーマー ベースのマスク言語モデルをトレーニングします。
具体的には、Structformer アーキテクチャ (Shen et al.、2021) とそのバリアントを使用します。
StructFormer モデルは、限られた事前トレーニング データに基づく教師なし構文誘導で良好に動作し、バニラのトランスフォーマー アーキテクチャと比較してパフォーマンスの向上が得られることが示されています (Shen et al., 2021)。
BabyLM チャレンジによって提供された 39 のタスクに関するモデルの評価では、すべてのタスクにおいて共有タスク オーガナイザーによって提供された RoBERTa ベースライン モデルを一貫して上回るパフォーマンスは得られなかったものの、一部の特定のタスクにおいて階層的バイアスをアーキテクチャに統合するモデルの有望な改善が示されました。
。
要約(オリジナル)
In this paper, we describe our submission to the BabyLM Challenge 2023 shared task on data-efficient language model (LM) pretraining (Warstadt et al., 2023). We train transformer-based masked language models that incorporate unsupervised predictions about hierarchical sentence structure into the model architecture. Concretely, we use the Structformer architecture (Shen et al., 2021) and variants thereof. StructFormer models have been shown to perform well on unsupervised syntactic induction based on limited pretraining data, and to yield performance improvements over a vanilla transformer architecture (Shen et al., 2021). Evaluation of our models on 39 tasks provided by the BabyLM challenge shows promising improvements of models that integrate a hierarchical bias into the architecture at some particular tasks, even though they fail to consistently outperform the RoBERTa baseline model provided by the shared task organizers on all tasks.
arxiv情報
著者 | Omar Momen,David Arps,Laura Kallmeyer |
発行日 | 2023-10-31 16:26:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google