要約
BabyLM Challenge への提出作品、Lil-Bevo を紹介します。
マスクされた言語モデルを 3 つの要素で事前トレーニングしました。音楽データを使用した最初の事前トレーニング、長いシーケンスでトレーニングする前の短いシーケンスでのトレーニング、および BLiMP サブタスクの一部をターゲットとする特定のトークンのマスクです。
全体として、ベースライン モデルのパフォーマンスは偶然を上回っていましたが、より多くのデータでトレーニングされた大規模な LLM のパフォーマンス レベルにははるかに及んでいませんでした。
短いシーケンスでのトレーニングは、長いシーケンスでのトレーニングよりもパフォーマンスが良いことがわかりました。音楽での事前トレーニングはパフォーマンスにわずかに役立つ可能性がありますが、たとえ効果があったとしても効果は小さいように見えます。
私たちが対象としたマスク言語モデリングの拡張は、一般的にはモデルのパフォーマンスを向上させるようには見えませんでしたが、対象としていた特定の BLiMP タスクの一部 (負の極性アイテムなど) では役立つようでした。
少量のデータでパフォーマンスの高い LLM をトレーニングするのは難しいですが、有益なタスクとなる可能性があります。
私たちのテクニックのいくつかはある程度の有望性を示しましたが、ここでのわずかな向上以上にパフォーマンスを向上させることができるかどうかを調査するには、さらなる作業が必要です。
私たちのコードは https://github.com/venkatasg/Lil-Bevo で、外部モデルは https://huggingface.co/collections/venkatasg/babylm-653591cdb66f4bf68922873a で入手できます。
要約(オリジナル)
We present Lil-Bevo, our submission to the BabyLM Challenge. We pretrained our masked language models with three ingredients: an initial pretraining with music data, training on shorter sequences before training on longer ones, and masking specific tokens to target some of the BLiMP subtasks. Overall, our baseline models performed above chance, but far below the performance levels of larger LLMs trained on more data. We found that training on short sequences performed better than training on longer sequences.Pretraining on music may help performance marginally, but, if so, the effect seems small. Our targeted Masked Language Modeling augmentation did not seem to improve model performance in general, but did seem to help on some of the specific BLiMP tasks that we were targeting (e.g., Negative Polarity Items). Training performant LLMs on small amounts of data is a difficult but potentially informative task. While some of our techniques showed some promise, more work is needed to explore whether they can improve performance more than the modest gains here. Our code is available at https://github.com/venkatasg/Lil-Bevo and out models at https://huggingface.co/collections/venkatasg/babylm-653591cdb66f4bf68922873a
arxiv情報
著者 | Venkata S Govindarajan,Juan Diego Rodriguez,Kaj Bostrom,Kyle Mahowald |
発行日 | 2023-10-26 17:13:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google