要約
大規模な言語モデル(LLMS)は、トレーニング前のデータに極端な言語の不均衡にもかかわらず、顕著な多言語機能を示します。
この論文では、この現象の背後にある理由を詳しく調べ、トレーニング前のコーパスに焦点を当てています。
コンテキスト内の異なる言語を交互に行うコードスイッチングの存在が、多言語機能の鍵であることがわかります。
トレーニング前のコーパスでのコードスイッチングを調査するために分析を実施し、その存在を調べ、2つの象限内の4つのタイプに分類します。
次に、多言語のパフォーマンスへの影響を評価します。
これらのタイプのコードスイッチングデータは、割合では不均衡であり、言語転送の促進にさまざまな効果を示しています。
トレーニング前の言語アライメントのためのコードスイッチングの力をよりよく調査するために、合成コードスイッチングの戦略を調査します。
合成コードスイッチングデータを継続的に拡大し、ベンチマークと表現スペースの両方で顕著な改善を観察します。
広範な実験では、合成コードスイッチングデータを組み込むことで、より良い言語の整列が可能になり、さまざまな品質の事前トレーニングコーパスを備えた高、中、低リソースの言語によく一般化することが示されています。
要約(オリジナル)
Large language models (LLMs) exhibit remarkable multilingual capabilities despite the extreme language imbalance in the pre-training data. In this paper, we closely examine the reasons behind this phenomenon, focusing on the pre-training corpus. We find that the existence of code-switching, alternating between different languages within a context, is key to multilingual capabilities. We conduct an analysis to investigate code-switching in the pre-training corpus, examining its presence and categorizing it into four types within two quadrants. We then assess its impact on multilingual performance. These types of code-switching data are unbalanced in proportions and demonstrate different effects on facilitating language transfer. To better explore the power of code-switching for language alignment during pre-training, we investigate the strategy of synthetic code-switching. We continuously scale up the synthetic code-switching data and observe remarkable improvements in both benchmarks and representation space. Extensive experiments indicate that incorporating synthetic code-switching data enables better language alignment and generalizes well to high, medium, and low-resource languages with pre-training corpora of varying qualities.
arxiv情報
著者 | Zhijun Wang,Jiahuan Li,Hao Zhou,Rongxiang Weng,Jingang Wang,Xin Huang,Xue Han,Junlan Feng,Chao Deng,Shujian Huang |
発行日 | 2025-04-02 15:09:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google