要約
この論文では、2024 年版の BabyLM チャレンジに対する言語的動機に基づいたアプローチについて説明します (Warstadt et al. 2023)。
第一言語学習 (L1) のパラダイムを追求するのではなく、私たちは第二言語 (L2) 学習の観点から課題にアプローチします。
L2 学習では、文法概念、単語の定義、意味を表現するさまざまな方法など、明示的な言語情報を学習することに重点が置かれています。
これにより、L2 学習がより効率的かつ簡潔になる可能性があります。
ウィクショナリーのデータ、LLM によって生成された文法例または文法書から取得した文法例、言い換えデータを使用してこれを近似します。
単語の意味に関する明示的な情報 (この場合はウィクショナリー) はモデルのパフォーマンスを向上させませんが、文法情報はわずかな改善をもたらす可能性があることがわかりました。
最も影響力のあるデータ要素は文の言い換えであり、私たちの 2 つの最良のモデルは、1) 言い換えデータと BabyLM 事前トレーニング データセットからのデータの混合、および 2) 排他的な言い換えデータでトレーニングされています。
要約(オリジナル)
This paper describes a linguistically-motivated approach to the 2024 edition of the BabyLM Challenge (Warstadt et al. 2023). Rather than pursuing a first language learning (L1) paradigm, we approach the challenge from a second language (L2) learning perspective. In L2 learning, there is a stronger focus on learning explicit linguistic information, such as grammatical notions, definitions of words or different ways of expressing a meaning. This makes L2 learning potentially more efficient and concise. We approximate this using data from Wiktionary, grammar examples either generated by an LLM or sourced from grammar books, and paraphrase data. We find that explicit information about word meaning (in our case, Wiktionary) does not boost model performance, while grammatical information can give a small improvement. The most impactful data ingredient is sentence paraphrases, with our two best models being trained on 1) a mix of paraphrase data and data from the BabyLM pretraining dataset, and 2) exclusively paraphrase data.
arxiv情報
著者 | Lukas Edman,Lisa Bylinina,Faeze Ghorbanpour,Alexander Fraser |
発行日 | 2024-10-28 17:52:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google