How Multilingual is Multilingual LLM?

要約

大規模言語モデル (LLM) は、主に広範な英語データに基づいてトレーニングされていますが、他の言語に適用すると制限が生じることがよくあります。
現在の研究は主に、さまざまなチューニング戦略を採用してこれらのモデルの多言語機能を強化することに焦点を当てています。
特定の言語では有効であるにもかかわらず、LLM の多言語能力の理解は依然として不完全です。
この研究では、101 の言語にわたって徹底的な分析を実施することで LLM の多言語能力を評価することを目指しており、同様の特徴を持つ言語を 4 つの異なる象限に分類しています。
各象限を掘り下げることで、その分類の背後にある理論的根拠を明らかにし、これらの言語を調整するための実用的なガイドラインを提供します。
広範な実験により、既存の LLM が私たちの予想を超える多言語機能を備えていることが明らかになり、各象限に存在するこれらの異なる属性に焦点を当てることで、LLM の多言語パフォーマンスを大幅に向上させることができます。

要約(オリジナル)

Large Language Models (LLMs), trained predominantly on extensive English data, often exhibit limitations when applied to other languages. Current research is primarily focused on enhancing the multilingual capabilities of these models by employing various tuning strategies. Despite their effectiveness in certain languages, the understanding of the multilingual abilities of LLMs remains incomplete. This study endeavors to evaluate the multilingual capacity of LLMs by conducting an exhaustive analysis across 101 languages, and classifies languages with similar characteristics into four distinct quadrants. By delving into each quadrant, we shed light on the rationale behind their categorization and offer actionable guidelines for tuning these languages. Extensive experiments reveal that existing LLMs possess multilingual capabilities that surpass our expectations, and we can significantly improve the multilingual performance of LLMs by focusing on these distinct attributes present in each quadrant.

arxiv情報

著者 Fei Yuan,Shuai Yuan,Zhiyong Wu,Lei Li
発行日 2023-11-15 16:13:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク