要約
多言語性は、言語モデリングにおける最近の進歩を多様な言語コミュニティに拡張するために重要です。
複数の言語を表現しながら高いパフォーマンスを維持するために、多言語モデルは表現を理想的に調整し、ある言語で学習した内容を他の言語に一般化できるようにします。
これまでの研究では、そのような調整の重要な要素として、並列データと共有語彙要素の重要性が強調されてきました。
この研究では、言語間の一般化を引き起こす直感的ではない新たな要因である言語の不均衡を調査します。
完全に同等のクローン言語を対象とした制御された実験では、トレーニング中に支配的な言語が存在すると、頻度の低い言語のパフォーマンスが向上し、言語間でのモデル表現のより強力な調整につながることが観察されました。
さらに、この傾向はスケールが大きくなるにつれて増幅していることがわかりました。十分な大規模なモデルまたは十分な長さのトレーニングを使用すると、言語を 90/10 に分割したバイリンガル トレーニング データの方が、バランスのとれた 50/50 に分割した場合よりも両方の言語で優れたパフォーマンスが得られることがわかりました。
これらの洞察に基づいて、トレーニング データを変更しなくても、すべてのクローン言語でパフォーマンスを向上できるトレーニング スキームを設計します。
分析を実際の言語に拡張すると、頻度の低い言語でも頻度の高い言語から恩恵を受けていることがわかりますが、言語の不均衡が言語間の一般化を引き起こすかどうかは決定的ではありません。
要約(オリジナル)
Multilinguality is crucial for extending recent advancements in language modelling to diverse linguistic communities. To maintain high performance while representing multiple languages, multilingual models ideally align representations, allowing what is learned in one language to generalise to others. Prior research has emphasised the importance of parallel data and shared vocabulary elements as key factors for such alignment. In this study, we investigate an unintuitive novel driver of cross-lingual generalisation: language imbalance. In controlled experiments on perfectly equivalent cloned languages, we observe that the existence of a predominant language during training boosts the performance of less frequent languages and leads to stronger alignment of model representations across languages. Furthermore, we find that this trend is amplified with scale: with large enough models or long enough training, we observe that bilingual training data with a 90/10 language split yields better performance on both languages than a balanced 50/50 split. Building on these insights, we design training schemes that can improve performance in all cloned languages, even without altering the training data. As we extend our analysis to real languages, we find that infrequent languages still benefit from frequent ones, yet whether language imbalance causes cross-lingual generalisation there is not conclusive.
arxiv情報
著者 | Anton Schäfer,Shauli Ravfogel,Thomas Hofmann,Tiago Pimentel,Imanol Schlag |
発行日 | 2024-05-13 13:30:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google