What Linguistic Features and Languages are Important in LLM Translation?

要約

大規模言語モデル (LLM) は、機械翻訳を含む複数のタスクにわたって強力な機能を実証します。
私たちの研究は、Llama2 の機械翻訳機能を評価し、翻訳がトレーニング データ内の言語にどのように依存するかを調査することに焦点を当てています。
私たちの実験によると、7B Llama2 モデルは、これまでに検出されたすべての言語に対して 10 を超える BLEU スコアをもたらしましたが、まだ検出されていない言語に対しては必ずしもそうではありませんでした。
これらの未見の言語の利点のほとんどは、チャット バージョンを使用したりショット数を追加したりする場合と比較して、モデル スケールで最も大きく観察されます。
さらに、私たちの言語的距離分析により、構文の類似性が翻訳の品質を決定する主要な言語的要因とは限らないことが明らかになりました。
興味深いことに、特定の状況下では、一部の言語は英語よりもトレーニング データが大幅に少ないにもかかわらず、英語に匹敵する強い相関関係を示すことがわかりました。
ここでの私たちの発見は、LLM の現在の状況に新たな視点を与え、英語以外の言語を中心とした LLM が多言語モデルのより効果的な基盤を提供する可能性を高めます。

要約(オリジナル)

Large Language Models (LLMs) demonstrate strong capability across multiple tasks, including machine translation. Our study focuses on evaluating Llama2’s machine translation capabilities and exploring how translation depends on languages in its training data. Our experiments show that the 7B Llama2 model yields above 10 BLEU score for all languages it has seen, but not always for languages it has not seen. Most gains for those unseen languages are observed the most with the model scale compared to using chat versions or adding shot count. Furthermore, our linguistic distance analysis reveals that syntactic similarity is not always the primary linguistic factor in determining translation quality. Interestingly, we discovered that under specific circumstances, some languages, despite having significantly less training data than English, exhibit strong correlations comparable to English. Our discoveries here give new perspectives for the current landscape of LLMs, raising the possibility that LLMs centered around languages other than English may offer a more effective foundation for a multilingual model.

arxiv情報

著者 Ryandito Diandaru,Lucky Susanto,Zilu Tang,Ayu Purwarianti,Derry Wijaya
発行日 2024-02-21 16:32:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク