NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window?

要約

大規模言語モデル (LLM) の長いコンテキスト機能を評価する場合、元の長い文書からユーザーのクエリに関連するコンテンツを特定することは、LLM が長いテキストに基づいて質問に答えるための重要な前提条件です。
NeedleBench は、複数の長さの間隔 (4k、8k、32k、128k、200k、1000k など) とさまざまな深度範囲にまたがるバイリンガルのロングコンテキスト機能を評価するための、段階的により困難な一連のタスクで構成されるフレームワークです。
さまざまなテキスト深度ゾーンに重要なデータ ポイントを戦略的に挿入して、さまざまなコンテキストでのモデルの検索機能と推論機能を厳密にテストします。
私たちは NeedleBench フレームワークを使用して、主要なオープンソース モデルが質問に関連する重要な情報をどの程度識別し、その情報をバイリンガルの長文の推論に適用できるかを評価します。
さらに、現実世界のロングコンテキストのタスクに存在する可能性が高い論理推論の課題の複雑さを模倣する Ancestral Trace Challenge (ATC) を提案し、複雑なロングコンテキストの状況に対処する際に LLM を評価するための簡単な方法を提供します。
私たちの結果は、現在の LLM には、実際のロングコンテキストのタスクに存在する可能性が高い論理推論の課題の複雑さに苦戦しているため、実際のロングコンテキストのアプリケーションにおいては大きな改善の余地があることを示唆しています。
すべてのコードとリソースは OpenCompass (https://github.com/open-compass/opencompass) で入手できます。

要約(オリジナル)

In evaluating the long-context capabilities of large language models (LLMs), identifying content relevant to a user’s query from original long documents is a crucial prerequisite for any LLM to answer questions based on long text. We present NeedleBench, a framework consisting of a series of progressively more challenging tasks for assessing bilingual long-context capabilities, spanning multiple length intervals (4k, 8k, 32k, 128k, 200k, 1000k, and beyond) and different depth ranges, allowing the strategic insertion of critical data points in different text depth zones to rigorously test the retrieval and reasoning capabilities of models in diverse contexts. We use the NeedleBench framework to assess how well the leading open-source models can identify key information relevant to the question and apply that information to reasoning in bilingual long texts. Furthermore, we propose the Ancestral Trace Challenge (ATC) to mimic the complexity of logical reasoning challenges that are likely to be present in real-world long-context tasks, providing a simple method for evaluating LLMs in dealing with complex long-context situations. Our results suggest that current LLMs have significant room for improvement in practical long-context applications, as they struggle with the complexity of logical reasoning challenges that are likely to be present in real-world long-context tasks. All codes and resources are available at OpenCompass: https://github.com/open-compass/opencompass.

arxiv情報

著者 Mo Li,Songyang Zhang,Yunxin Liu,Kai Chen
発行日 2024-07-16 17:59:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク