Mini Minds: Exploring Bebeshka and Zlata Baby Models

要約

本論文では、BabyLMコンペティションのStrict-Smallトラックに提出されたリヨン大学2について述べる。この共有タスクは、限られたサイズのデータでゼロから行う小規模な言語モデリングと、人間の言語獲得に重点を置いて作成されている。Strict-Smallトラックで公開されたデータセットは10Mワードで、子供の語彙サイズに匹敵する。我々は、共有タスクのデータ上でマスクされた言語モデリングの損失を最小化するアーキテクチャ探索でタスクにアプローチする。最適な構成を見つけたので、評価のために提出された2つの小型言語モデル(LM)を紹介する。8個の注意ヘッドを持つ4層エンコーダと、12個のヘッドを持つ6層デコーダモデルで、それぞれBebeshkaとZlataと呼ぶ。ベースラインLMの半分の規模にもかかわらず、我々の提案するモデルは同等の性能を達成した。さらに、道徳的判断を含むタスクにおける小規模言語モデルの適用可能性を探求し、その予測値を人間の価値観に合わせる。これらの結果は、実用的な言語理解タスクに対応する小型LMの可能性を強調するものである。

要約(オリジナル)

In this paper, we describe the University of Lyon 2 submission to the Strict-Small track of the BabyLM competition. The shared task is created with an emphasis on small-scale language modelling from scratch on limited-size data and human language acquisition. Dataset released for the Strict-Small track has 10M words, which is comparable to children’s vocabulary size. We approach the task with an architecture search, minimizing masked language modelling loss on the data of the shared task. Having found an optimal configuration, we introduce two small-size language models (LMs) that were submitted for evaluation, a 4-layer encoder with 8 attention heads and a 6-layer decoder model with 12 heads which we term Bebeshka and Zlata, respectively. Despite being half the scale of the baseline LMs, our proposed models achieve comparable performance. We further explore the applicability of small-scale language models in tasks involving moral judgment, aligning their predictions with human values. These findings highlight the potential of compact LMs in addressing practical language understanding tasks.

arxiv情報

著者 Irina Proskurina,Guillaume Metzler,Julien Velcin
発行日 2023-11-06 16:01:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク