要約
大規模な言語モデルが世界中で役立つためには、多言語データに関する指示に従うために微調整されています。
このような訓練後の遍在にもかかわらず、横断的移動を可能にするダイナミクスの明確な理解はとらえどころのないままです。
この研究では、現実的なトレーニング後の設定における言語間転送(CLT)ダイナミクスを調べます。
シングルタスクとマルチタスクの命令チューニング設定で、さまざまなレベルの複雑さ(要約、指示フォロー、および数学的推論)を備えた3つの生成タスクに関する多言語データの慎重に制御された混合物でトレーニングされた最大35Bパラメーターの2つのモデルファミリーを研究します。
全体として、トレーニング後の設定の組み合わせによって変化する分離変数では、横断的転送と多言語パフォーマンスのダイナミクスは分離変数では説明できないことがわかります。
最後に、実際に効果的な横断移転につながる条件を特定します。
要約(オリジナル)
In order for large language models to be useful across the globe, they are fine-tuned to follow instructions on multilingual data. Despite the ubiquity of such post-training, a clear understanding of the dynamics that enable cross-lingual transfer remains elusive. This study examines cross-lingual transfer (CLT) dynamics in realistic post-training settings. We study two model families of up to 35B parameters in size trained on carefully controlled mixtures of multilingual data on three generative tasks with varying levels of complexity (summarization, instruction following, and mathematical reasoning) in both single-task and multi-task instruction tuning settings. Overall, we find that the dynamics of cross-lingual transfer and multilingual performance cannot be explained by isolated variables, varying depending on the combination of post-training settings. Finally, we identify the conditions that lead to effective cross-lingual transfer in practice.
arxiv情報
著者 | Luisa Shimabucoro,Ahmet Ustun,Marzieh Fadaee,Sebastian Ruder |
発行日 | 2025-04-23 12:52:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google