Findings of the Second BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora

要約

BabyLM チャレンジは、人間の言語学習者と計算言語学習者の間のデータ効率の差を埋めるためのコミュニティの取り組みです。
参加者は、1 億語以下の固定言語データ バジェットで言語モデルのトレーニングを最適化することを競います。
今年、私たちは、認知的にもっともらしい視覚言語モデルの研究を促進するために、改良されたテキスト コーパスと視覚と言語のコーパスをリリースしました。
提出物は、文法能力、(視覚的)質問応答、語用力、基礎力などを対象とした評価課題で比較されました。
参加者は、1,000 万語のテキストのみのトラック、1 億語のテキストのみのトラック、および/または 1 億語と画像のマルチモーダル トラックに提出できます。
多様な方法を採用した 31 件の提出から、ハイブリッド因果マスク言語モデル アーキテクチャが他のアプローチを上回りました。
マルチモーダルトラックでは、ベースラインを上回る成績を収めた提出物はありませんでした。
追跡分析では、トレーニング FLOP とタスク全体の平均パフォーマンスの間に強い関係があること、および最もパフォーマンスの高い提出物がトレーニング データ、トレーニング目標、モデル アーキテクチャへの変更を提案していることがわかりました。
今年の BabyLM Challenge は、この設定、特に画像テキスト モデリングにはまだ大きな革新の余地があることを示していますが、コミュニティ主導の研究により、小規模言語モデリングの効果的な戦略について実用的な洞察が得られる可能性があります。

要約(オリジナル)

The BabyLM Challenge is a community effort to close the data-efficiency gap between human and computational language learners. Participants compete to optimize language model training on a fixed language data budget of 100 million words or less. This year, we released improved text corpora, as well as a vision-and-language corpus to facilitate research into cognitively plausible vision language models. Submissions were compared on evaluation tasks targeting grammatical ability, (visual) question answering, pragmatic abilities, and grounding, among other abilities. Participants could submit to a 10M-word text-only track, a 100M-word text-only track, and/or a 100M-word and image multimodal track. From 31 submissions employing diverse methods, a hybrid causal-masked language model architecture outperformed other approaches. No submissions outperformed the baselines in the multimodal track. In follow-up analyses, we found a strong relationship between training FLOPs and average performance across tasks, and that the best-performing submissions proposed changes to the training data, training objective, and model architecture. This year’s BabyLM Challenge shows that there is still significant room for innovation in this setting, in particular for image-text modeling, but community-driven research can yield actionable insights about effective strategies for small-scale language modeling.

arxiv情報

著者 Michael Y. Hu,Aaron Mueller,Candace Ross,Adina Williams,Tal Linzen,Chengxu Zhuang,Ryan Cotterell,Leshem Choshen,Alex Warstadt,Ethan Gotlieb Wilcox
発行日 2024-12-06 16:06:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク