要約
多くの場合、人気のあるヘイスタックテストに基づいている既存の多言語の長いコンテストベンチマークは、主に、無関係なテキストに埋もれた特定の情報を見つけるモデルの能力を評価します。
ただし、このような回収中心のアプローチは近視であり、本質的に制限されています。これは、リコールだけでは、拡張されたコンテキストを推論するモデルの能力を示していないためです。
さらに、これらのベンチマークは、データの漏れ、短絡、およびリスクの影響を受けやすく、評価を先験的に識別可能にします。
これらの制限に対処するために、多言語の長いコンテキスト推論のための新しい合成ベンチマークであるMlrbenchを紹介します。
既存のベンチマークとは異なり、MLRBenchは、マルチホップ推論、集約、認識論的推論を評価するタスクを含めることにより、表面レベルの検索を超えています。
7つの言語にまたがるMlrbenchは、並行して漏れに耐性があり、任意のコンテキストの長さに対してスケーラブルであるように設計されています。
オープンウェイトの大型言語モデル(LLM)を使用した広範な実験は、特にモデルが複数の事実を集約したり、情報の欠如を予測する必要があるタスクで、高リソース言語と低リソース言語の間の顕著なギャップを明らかにしています。
また、多言語設定では、LLMが請求されたコンテキストの長さの30%未満を効果的に利用することがわかります。
既製の検索された増強された世代は、これをある程度緩和するのに役立ちますが、長いコンテキストの問題は解決しません。
多言語LLMの評価とトレーニングの改善における将来の研究を可能にするために、MLRBenchをオープンソースします。
要約(オリジナル)
Existing multilingual long-context benchmarks, often based on the popular needle-in-a-haystack test, primarily evaluate a model’s ability to locate specific information buried within irrelevant texts. However, such a retrieval-centric approach is myopic and inherently limited, as successful recall alone does not indicate a model’s capacity to reason over extended contexts. Moreover, these benchmarks are susceptible to data leakage, short-circuiting, and risk making the evaluation a priori identifiable. To address these limitations, we introduce MLRBench, a new synthetic benchmark for multilingual long-context reasoning. Unlike existing benchmarks, MLRBench goes beyond surface-level retrieval by including tasks that assess multi-hop inference, aggregation, and epistemic reasoning. Spanning seven languages, MLRBench is designed to be parallel, resistant to leakage, and scalable to arbitrary context lengths. Our extensive experiments with an open-weight large language model (LLM) reveal a pronounced gap between high- and low-resource languages, particularly for tasks requiring the model to aggregate multiple facts or predict the absence of information. We also find that, in multilingual settings, LLMs effectively utilize less than 30% of their claimed context length. Although off-the-shelf Retrieval Augmented Generation helps alleviate this to a certain extent, it does not solve the long-context problem. We open-source MLRBench to enable future research in improved evaluation and training of multilingual LLMs.
arxiv情報
著者 | Amey Hengle,Prasoon Bajpai,Soham Dan,Tanmoy Chakraborty |
発行日 | 2025-04-17 11:02:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google