要約
複数の言語を使用して大規模な言語モデルを命令チューニングすることで、多言語のダウンストリーム タスクに備えることができます。
それにもかかわらず、少数の言語を持っているだけで十分なのか、それともさらに多くの言語を含めることで利点が増大するのかはまだ判断されていません。
1 ~ 52 の言語で大規模な多言語モデルを微調整することで、パフォーマンスに影響を与える 3 つの関連要素、つまり言語の数、言語の露出、トレーニング言語とテスト言語の類似性を理解するための BLOOM のケーススタディを紹介します。
全体として、1) 多言語指導チューニングにおける対象言語の拡大が有益であることが判明しました。
2) テスト言語が命令混合物に含まれる場合、精度が大幅に向上することがよくあります。
3) 言語の遺伝的特徴は、単に言語の数だけでなく、言語間の伝達と相関関係がありますが、異なる言語はさまざまな程度で恩恵を受けます。
要約(オリジナル)
Instruction tuning a large language model with multiple languages can prepare it for multilingual downstream tasks. Nonetheless, it is yet to be determined whether having a handful of languages is sufficient, or whether the benefits increase with the inclusion of more. By fine-tuning large multilingual models on 1 to 52 languages, we present a case study on BLOOM to understand three pertinent factors affecting performance: the number of languages, language exposure, and similarity between training and test languages. Overall we found that 1) expanding language coverage in multilingual instruction tuning proves to be beneficial; 2) accuracy often significantly boots if the test language appears in the instruction mixture; 3) languages’ genetic features correlate with cross-lingual transfer more than merely the number of language but different languages benefit to various degrees.
arxiv情報
著者 | Shaoxiong Ji,Pinzhen Chen |
発行日 | 2024-12-09 18:25:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google