BAMBI: Developing Baby Language Models for Italian

要約

このペーパーでは、5歳のイタリア語を話す子供が受け取った言語入力を模倣するデータで訓練された一連のベビー言語モデル(Babylms)であるBambi(Baby Language Models Boostrapped)を紹介します。
BAMBIモデルは、受信したモデルのトレーニング入力の量を考慮した言語モデルを評価するために特別に設計されたベンチマークを使用してテストされます。
BAMBIモデルは、大規模な言語モデル(LLM)とマルチモーダル言語モデル(VLM)と比較され、言語習得のための関節外情報の貢献を研究します。
私たちの評価の結果は、英語モデルに関する既存の文献と一致しており、トレーニングデータの減少が比較的堅牢な構文能力の開発をサポートしている一方で、意味的理解を促進するには不十分であることを確認しています。
ただし、BAMBIモデルとLLMSのトレーニングリソース(データと計算)のギャップは、パフォーマンスに完全に反映されていません。LLMSの大規模なトレーニングにもかかわらず、そのパフォーマンスはBAMBIモデルのパフォーマンスよりもはるかに優れていません。
これは、データキュレーション、マルチモーダル入力の含有、カリキュラム学習などの他のトレーニング戦略などのトレーニングリソースのスケーリングを超えた戦略が、モデルのパフォーマンスを形成する上で重要な役割を果たすことができることを示唆しています。

要約(オリジナル)

This paper presents BAMBI (BAby language Models Boostrapped for Italian), a series of Baby Language Models (BabyLMs) trained on data that mimic the linguistic input received by a five-year-old Italian-speaking child. The BAMBI models are tested using a benchmark specifically designed to evaluate language models, which takes into account the amount of training input the models received. The BAMBI models are compared against a large language model (LLM) and a multimodal language model (VLM) to study the contribution of extralinguistic information for language acquisition. The results of our evaluation align with the existing literature on English language models, confirming that while reduced training data support the development of relatively robust syntactic competence, they are insufficient for fostering semantic understanding. However, the gap between the training resources (data and computation) of the BAMBI models and the LLMs is not fully reflected in their performance: despite LLMs’ massive training, their performance is not much better than that of BAMBI models. This suggests that strategies beyond scaling training resources, such as data curation, inclusion of multimodal input, and other training strategies such as curriculum learning, could play a crucial role in shaping model performance.

arxiv情報

著者 Alice Suozzi,Luca Capone,Gianluca E. Lebani,Alessandro Lenci
発行日 2025-03-12 15:36:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク