要約
大規模言語モデル (LLM) は現代の言語テクノロジに対する私たちの期待を変えましたが、データ プライバシーに対する懸念により、EU 管轄区域外でホストされている市販の LLM の使用が制限されることがよくあります。
これにより、政府、防衛、その他のデータに敏感な部門での適用が制限されます。
この研究では、ローカルに展開可能なオープンウェイト LLM が、リトアニア語、ラトビア語、エストニア語などのあまり話されていない言語をサポートする程度を評価します。
私たちは、機械翻訳、多肢選択式の質問応答、および自由形式のテキスト生成に関して、最高のパフォーマンスを誇る多言語オープンウェイト モデルである Llama~3、Gemma~2、Phi、NeMo のさまざまなサイズと精度のバリアントを検証します。
結果は、Gemma~2 などの特定のモデルは市販モデルのトップに近いパフォーマンスを発揮する一方で、多くの LLM はこれらの言語に苦労していることを示しています。
しかし、最も驚くべきことに、これらのモデルは、最先端に近い翻訳パフォーマンスを示しながらも、すべてのオープンウェイト多言語 LLM について、少なくとも 20 単語に 1 単語でエラーが発生する幻聴の傾向が依然としてあることがわかりました。
要約(オリジナル)
Although large language models (LLMs) have transformed our expectations of modern language technologies, concerns over data privacy often restrict the use of commercially available LLMs hosted outside of EU jurisdictions. This limits their application in governmental, defence, and other data-sensitive sectors. In this work, we evaluate the extent to which locally deployable open-weight LLMs support lesser-spoken languages such as Lithuanian, Latvian, and Estonian. We examine various size and precision variants of the top-performing multilingual open-weight models, Llama~3, Gemma~2, Phi, and NeMo, on machine translation, multiple-choice question answering, and free-form text generation. The results indicate that while certain models like Gemma~2 perform close to the top commercially available models, many LLMs struggle with these languages. Most surprisingly, however, we find that these models, while showing close to state-of-the-art translation performance, are still prone to lexical hallucinations with errors in at least 1 in 20 words for all open-weight multilingual LLMs.
arxiv情報
著者 | Jurgita Kapočiūtė-Dzikienė,Toms Bergmanis,Mārcis Pinnis |
発行日 | 2025-01-07 17:24:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google