要約
大規模言語モデル (LLM) は多言語コーパスで事前トレーニングされていますが、そのパフォーマンスは、リソースが豊富な少数の言語と比較すると、ほとんどの言語で依然として遅れています。
この問題を軽減するための一般的なアプローチの 1 つは、リソースが豊富な言語からトレーニング データを他の言語に翻訳してからトレーニングを続行することです。
ただし、LLM の本来の機能を無視して翻訳のみに依存して取得したデータを言語を超えて使用することは必ずしも効果的であるとは限りません。これにより、言語を越えた知識伝達のパフォーマンスが制限されることがわかります。
この研究では、リソースが豊富な言語の LLM の内部機能を活用することで多言語パフォーマンスを効果的に向上させる、リソースが豊富な言語からの自己蒸留に基づく手法である SDRRL を提案します。
さまざまな理解および生成タスクにわたって、さまざまな LLM (LLaMA-2 および SeaLLM) とソース言語を評価しました。実験結果は、SDRRL がリソースが豊富な言語での元のパフォーマンスへの影響を最小限に抑えながら、多言語機能を大幅に強化できることを示しています。
要約(オリジナル)
While large language models (LLMs) have been pre-trained on multilingual corpora, their performance still lags behind in most languages compared to a few resource-rich languages. One common approach to mitigate this issue is to translate training data from resource-rich languages into other languages and then continue training. However, using the data obtained solely relying on translation while ignoring the original capabilities of LLMs across languages is not always effective, which we show will limit the performance of cross-lingual knowledge transfer. In this work, we propose SDRRL, a method based on Self-Distillation from Resource-Rich Languages that effectively improve multilingual performance by leveraging the internal capabilities of LLMs on resource-rich languages. We evaluate on different LLMs (LLaMA-2 and SeaLLM) and source languages across various comprehension and generation tasks, experimental results demonstrate that SDRRL can significantly enhance multilingual capabilities while minimizing the impact on original performance in resource-rich languages.
arxiv情報
著者 | Yuanchi Zhang,Yile Wang,Zijun Liu,Shuo Wang,Xiaolong Wang,Peng Li,Maosong Sun,Yang Liu |
発行日 | 2024-02-19 15:07:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google