要約
私たちは、アムステルダム大学の ILLC による BabyLM チャレンジ (Warstadt et al., 2023) へのストリクト・スモール・トラックでの提出を紹介します。
私たちの最終モデルである ChapGTP は、自動タスク形成と呼ばれる新しいデータ拡張技術を利用して、200 エポックにわたってトレーニングされたマスクされた言語モデルです。
BLiMP、(Super)GLUE、MSGS の 3 つの評価スイートに関するこのモデルのパフォーマンスについて詳しく説明します。
さらに、最終的にモデルには含まれなかったものの、リソースが少ない環境で LM をトレーニングするためのインスピレーションとして役立つ可能性がある幅広い方法を紹介します。
要約(オリジナル)
We present the submission of the ILLC at the University of Amsterdam to the BabyLM challenge (Warstadt et al., 2023), in the strict-small track. Our final model, ChapGTP, is a masked language model that was trained for 200 epochs, aided by a novel data augmentation technique called Automatic Task Formation. We discuss in detail the performance of this model on the three evaluation suites: BLiMP, (Super)GLUE, and MSGS. Furthermore, we present a wide range of methods that were ultimately not included in the model, but may serve as inspiration for training LMs in low-resource settings.
arxiv情報
著者 | Jaap Jumelet,Michael Hanna,Marianne de Heer Kloots,Anna Langedijk,Charlotte Pouw,Oskar van der Wal |
発行日 | 2023-10-17 14:06:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google