要約
31の言語をカバーするLLMSの多言語性を評価するための新しいベンチマークであるMultilokoを紹介します。
Multilokoは3つのパーティションで構成されています。言語ごとに500の質問で構成されるメインパーティションで、特定の言語に局所的に関連するように供給され、30の非英語言語から英語とその逆への人間の告発された翻訳を含む2つの翻訳されたパーティションです。
比較のために、対応する機械執筆の翻訳もリリースします。
データは、DEV分割と盲目的な分散テストの分割の2つの分割に等しく分布しています。
Multilokoを使用して、LLMの多言語性に関するさまざまな質問と、多言語のベンチマーク作成に関するメタ質問を研究できます。
マルチリンギャルであるために販売されている11のベースモデルとチャットモデルのマルチロコスコアを計算し、平均パフォーマンス、言語間のパフォーマンスパリティ、質問に答える能力が質問言語に依存し、どの言語が最も難しいかを研究します。
私たちが研究したモデルはいずれも、平均スコアが低いだけでなく、最高のスコアリング言語と最悪の言語の大きな違いによって示されるように、Multilokoでうまく機能しません。
さらに、質問言語の実質的な効果があり、言語間の最適な知識転送を示しています。
最後に、ローカルと英語翻訳データを使用すると、最高のパフォーマンスモデルで20ポイント以上の違いが発生する可能性があり、一部の言語の推定難易度を大幅に変更することがわかります。
人間の翻訳の代わりにマシンを使用するために、言語の難易度の順序付け、モデルランキングの大きな違い、およびすべてのモデルの推定パフォーマンスの大幅な低下に弱い効果があることがわかります。
要約(オリジナル)
We present MultiLoKo, a new benchmark for evaluating multilinguality in LLMs covering 31 languages. MultiLoKo consists of three partitions: a main partition consisting of 500 questions per language, separately sourced to be locally relevant to the specific language, and two translated partitions, containing human-authored translations from 30 non-English languages to English and vice versa. For comparison, we also release corresponding machine-authored translations. The data is equally distributed over two splits: a dev split and a blind, out-of-distribution test split. MultiLoKo can be used to study a variety of questions regarding the multilinguality of LLMs as well as meta-questions about multilingual benchmark creation. We compute MultiLoKo scores for 11 base and chat models marketed to be multilingual and study their average performance, their performance parity across languages, how much their ability to answer questions depends on the question language, and which languages are most difficult. None of the models we studied performs well on MultiLoKo, as indicated by low average scores as well as large differences between the best and worst scoring languages. Furthermore, we find a substantial effect of the question language, indicating sub-optimal knowledge transfer between languages. Lastly, we find that using local vs English-translated data can result in differences more than 20 points for the best performing models, drastically change the estimated difficulty of some languages. For using machines instead of human translations, we find a weaker effect on ordering of language difficulty, a larger difference in model rankings, and a substantial drop in estimated performance for all models.
arxiv情報
著者 | Dieuwke Hupkes,Nikolay Bogoychev |
発行日 | 2025-04-15 15:02:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google