要約
現在の大規模言語モデル (LLM) は主に英語を主言語として設計されており、少数の多言語モデルでも英語中心の傾向が強いです。
第二言語を学習するときにぎこちない表現をする話者と同じように、LLM は、語彙と文法の両方に英語中心のパターンを反映して、英語以外の言語で不自然な出力を生成することがよくあります。
この問題の重要性にもかかわらず、多言語 LLM 出力の自然さはあまり注目されていません。
この論文では、多言語コンテキストにおける LLM 出力の語彙的および構文的な自然さを評価するための新しいコーパス レベルの自動メトリクスを導入することで、このギャップに対処します。
新しい指標を使用して、フランス語と中国語の厳選されたベンチマークで最先端の LLM を評価し、英語の影響を受けたパターンの傾向を明らかにしました。
この問題を軽減するために、ターゲット言語およびドメインにおける LLM の自然性を向上させるためのシンプルで効果的な調整方法も提案します。これにより、汎用ベンチマークでのパフォーマンスを損なうことなく、自然性の一貫した向上が達成されます。
私たちの取り組みは、多言語 LLM の新しい波に向けて、多言語のメトリクス、リソース、および手法を開発することの重要性を強調しています。
要約(オリジナル)
Current Large Language Models (LLMs) are predominantly designed with English as the primary language, and even the few that are multilingual tend to exhibit strong English-centric biases. Much like speakers who might produce awkward expressions when learning a second language, LLMs often generate unnatural outputs in non-English languages, reflecting English-centric patterns in both vocabulary and grammar. Despite the importance of this issue, the naturalness of multilingual LLM outputs has received limited attention. In this paper, we address this gap by introducing novel automatic corpus-level metrics to assess the lexical and syntactic naturalness of LLM outputs in a multilingual context. Using our new metrics, we evaluate state-of-the-art LLMs on a curated benchmark in French and Chinese, revealing a tendency towards English-influenced patterns. To mitigate this issue, we also propose a simple and effective alignment method to improve the naturalness of an LLM in a target language and domain, achieving consistent improvements in naturalness without compromising the performance on general-purpose benchmarks. Our work highlights the importance of developing multilingual metrics, resources and methods for the new wave of multilingual LLMs.
arxiv情報
著者 | Yanzhu Guo,Simone Conia,Zelin Zhou,Min Li,Saloni Potdar,Henry Xiao |
発行日 | 2024-10-23 13:00:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google