Multilingual Needle in a Haystack: Investigating Long-Context Behavior of Multilingual Large Language Models

要約

最近の大規模言語モデル (LLM) は、さまざまな言語でのクエリに応答する際に優れた能力を示していますが、長い多言語コンテキストを処理する能力はまだ解明されていません。
したがって、多言語設定における LLM のロングコンテキスト機能の体系的な評価は、特に情報検索のコンテキストにおいて非常に重要です。
このギャップに対処するために、多言語のニードル・イン・ア・ヘイスタック (MLNeedle) テストを導入します。このテストは、多言語の気を散らすテキストのコレクション (干し草の山) から関連情報 (ニードル) を取得するモデルの能力を評価するように設計されています。
このテストは、多言語の質問応答タスクの拡張として機能し、単一言語検索と複数言語検索の両方を網羅します。
MLNeedle で 4 つの最先端の LLM を評価します。
私たちの調査結果は、モデルのパフォーマンスが言語と針の位置によって大きく異なる可能性があることを明らかにしました。
具体的には、針が (i) 英語族以外の言語にあり、(ii) 入力コンテキストの中央に位置している場合に、モデルのパフォーマンスが最も低くなることがわかります。
さらに、一部のモデルはコンテキスト サイズが $8,000 トークン以上であると主張していますが、コンテキストの長さが増加するにつれて満足のいく言語横断検索パフォーマンスを示すモデルはありません。
私たちの分析は、多言語設定における LLM のロングコンテキストの動作に関する重要な洞察を提供し、将来の評価プロトコルの指針となります。
私たちの知る限り、これは LLM の多言語のロングコンテキストの動作を調査した最初の研究です。

要約(オリジナル)

While recent large language models (LLMs) demonstrate remarkable abilities in responding to queries in diverse languages, their ability to handle long multilingual contexts is unexplored. As such, a systematic evaluation of the long-context capabilities of LLMs in multilingual settings is crucial, specifically in the context of information retrieval. To address this gap, we introduce the MultiLingual Needle-in-a-Haystack (MLNeedle) test, designed to assess a model’s ability to retrieve relevant information (the needle) from a collection of multilingual distractor texts (the haystack). This test serves as an extension of the multilingual question-answering task, encompassing both monolingual and cross-lingual retrieval. We evaluate four state-of-the-art LLMs on MLNeedle. Our findings reveal that model performance can vary significantly with language and needle position. Specifically, we observe that model performance is the lowest when the needle is (i) in a language outside the English language family and (ii) located in the middle of the input context. Furthermore, although some models claim a context size of $8k$ tokens or greater, none demonstrate satisfactory cross-lingual retrieval performance as the context length increases. Our analysis provides key insights into the long-context behavior of LLMs in multilingual settings to guide future evaluation protocols. To our knowledge, this is the first study to investigate the multilingual long-context behavior of LLMs.

arxiv情報

著者 Amey Hengle,Prasoon Bajpai,Soham Dan,Tanmoy Chakraborty
発行日 2024-08-19 17:02:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク