How do languages influence each other? Studying cross-lingual data sharing during LM fine-tuning

要約

多言語大規模言語モデル (MLLM) は、個々の言語の表現が他の言語のデータから恩恵を受けることができるように、多くの異なる言語のデータで共同トレーニングされます。
ゼロショットの言語間転送における印象的なパフォーマンスは、これらのモデルが他の言語からのデータを活用できることを示しています。
しかし、言語がどの程度、どのような条件下で相互にデータに依存しているのかは依然として不明である。
この研究では、トレーニング データ アトリビューション (TDA) 手法である TracIn (Pruthi et al., 2020) を使用して、特定のテスト言語の多言語微調整中に見られた最も影響力のあるトレーニング サンプルを取得します。
これにより、MLLM の言語を越えた共有メカニズムを新しい視点から分析することができます。
以前の研究ではモデルパラメータのレベルで言語間共有を研究しましたが、我々はデータレベルで言語間共有を研究するための最初のアプローチを紹介します。
MLLM は微調整の初期段階から複数の言語のデータに依存しており、微調整が進むにつれてこの依存度が徐々に高まることがわかりました。
さらに、さまざまな微調整言語が特定のテスト言語でのモデルのパフォーマンスにどのような影響を与えるかを研究し、それらの言語がテスト言語自体のデータから得られた知識を強化および補完できることを発見しました。

要約(オリジナル)

Multilingual large language models (MLLMs) are jointly trained on data from many different languages such that representation of individual languages can benefit from other languages’ data. Impressive performance on zero-shot cross-lingual transfer shows that these models are capable of exploiting data from other languages. Yet, it remains unclear to what extent, and under which conditions, languages rely on each other’s data. In this study, we use TracIn (Pruthi et al., 2020), a training data attribution (TDA) method, to retrieve the most influential training samples seen during multilingual fine-tuning for a particular test language. This allows us to analyse cross-lingual sharing mechanisms of MLLMs from a new perspective. While previous work studied cross-lingual sharing at the level of model parameters, we present the first approach to study cross-lingual sharing at the data level. We find that MLLMs rely on data from multiple languages from the early stages of fine-tuning and that this reliance gradually increases as fine-tuning progresses. We further study how different fine-tuning languages influence model performance on a given test language and find that they can both reinforce and complement the knowledge acquired from data of the test language itself.

arxiv情報

著者 Rochelle Choenni,Dan Garrette,Ekaterina Shutova
発行日 2024-05-21 11:47:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク