要約
昨年の BabyLM Challenge の成功を受けて、このコンテストは 2024/2025 年に再び開催される予定です。
この挑戦の包括的な目標は変わりません。
ただし、競技ルールの一部が異なります。
今年のコンテストの大きな変更点は次のとおりです。まず、ルーズ トラックを紙のトラックに置き換えます。これにより、(たとえば) 非モデルベースの提出、新しい認知的ベンチマーク、または分析手法が可能になります。
次に、事前トレーニング データに関するルールを緩和し、1 億ワードまたは 1,000 万ワードの予算内であれば、参加者が独自のデータセットを構築できるようにします。
3 番目に、マルチモーダルな視覚と言語のトラックを導入し、LM モデル トレーニングの開始点として、50% がテキストのみ、50% が画像とテキストのマルチモーダル データのコーパスをリリースします。
この CfP の目的は、今年のチャレンジのルールを提供し、これらのルール変更とその理論的根拠をより詳細に説明し、今年のコンテストのタイムラインを示し、昨年のチャレンジでよくある質問への回答を提供することです。
要約(オリジナル)
After last year’s successful BabyLM Challenge, the competition will be hosted again in 2024/2025. The overarching goals of the challenge remain the same; however, some of the competition rules will be different. The big changes for this year’s competition are as follows: First, we replace the loose track with a paper track, which allows (for example) non-model-based submissions, novel cognitively-inspired benchmarks, or analysis techniques. Second, we are relaxing the rules around pretraining data, and will now allow participants to construct their own datasets provided they stay within the 100M-word or 10M-word budget. Third, we introduce a multimodal vision-and-language track, and will release a corpus of 50% text-only and 50% image-text multimodal data as a starting point for LM model training. The purpose of this CfP is to provide rules for this year’s challenge, explain these rule changes and their rationale in greater detail, give a timeline of this year’s competition, and provide answers to frequently asked questions from last year’s challenge.
arxiv情報
著者 | Leshem Choshen,Ryan Cotterell,Michael Y. Hu,Tal Linzen,Aaron Mueller,Candace Ross,Alex Warstadt,Ethan Wilcox,Adina Williams,Chengxu Zhuang |
発行日 | 2024-04-09 11:04:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google