[Call for Papers] The 2nd BabyLM Challenge: Sample-efficient pretraining on a developmentally plausible corpus

要約

昨年の BabyLM Challenge の成功を受けて、このコンテストは 2024/2025 年に再び開催される予定です。
この挑戦の包括的な目標は変わりません。
ただし、競技ルールの一部が異なります。
今年のコンテストの大きな変更点は次のとおりです。まず、ルーズ トラックを紙のトラックに置き換えます。これにより、(たとえば) 非モデルベースの提出、新しい認知的ベンチマーク、または分析手法が可能になります。
次に、事前トレーニング データに関するルールを緩和し、1 億ワードまたは 1,000 万ワードの予算内であれば、参加者が独自のデータセットを構築できるようにします。
3 番目に、マルチモーダルな視覚と言語のトラックを導入し、LM モデル トレーニングの開始点として、50% がテキストのみ、50% が画像とテキストのマルチモーダル データのコーパスをリリースします。
この CfP の目的は、今年のチャレンジのルールを提供し、これらのルール変更とその理論的根拠をより詳細に説明し、今年のコンテストのタイムラインを示し、昨年のチャレンジでよくある質問への回答を提供することです。

要約(オリジナル)

After last year’s successful BabyLM Challenge, the competition will be hosted again in 2024/2025. The overarching goals of the challenge remain the same; however, some of the competition rules will be different. The big changes for this year’s competition are as follows: First, we replace the loose track with a paper track, which allows (for example) non-model-based submissions, novel cognitively-inspired benchmarks, or analysis techniques. Second, we are relaxing the rules around pretraining data, and will now allow participants to construct their own datasets provided they stay within the 100M-word or 10M-word budget. Third, we introduce a multimodal vision-and-language track, and will release a corpus of 50% text-only and 50% image-text multimodal data as a starting point for LM model training. The purpose of this CfP is to provide rules for this year’s challenge, explain these rule changes and their rationale in greater detail, give a timeline of this year’s competition, and provide answers to frequently asked questions from last year’s challenge.

arxiv情報

著者 Leshem Choshen,Ryan Cotterell,Michael Y. Hu,Tal Linzen,Aaron Mueller,Candace Ross,Alex Warstadt,Ethan Wilcox,Adina Williams,Chengxu Zhuang
発行日 2024-04-09 11:04:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク