Retrieval Or Holistic Understanding? Dolce: Differentiate Our Long Context Evaluation Tasks

要約

私たちは、長い文脈の理解には、検索と全体的な理解という 2 つの主要な異なる機能があると主張します。
LLM のロング コンテキスト機能を理解し、さらに改善することは、タスクの重点カテゴリを知らなければ不可能です。
私たちは、一連のベンチマークから検索に焦点を当てた問題と全体的な理解に焦点を当てた問題を自動的に特定し、各焦点内の難易度を定量的に測定することを目指しています。
この論文では、$\lambda$ (複雑さ) と $k$ (冗長性) によって各問題をパラメータ化し、5 つの事前定義された焦点カテゴリの 1 つに割り当てる Dolce フレームワークを紹介します。
私たちは、完全なコンテキストから短いコンテキストをサンプリングし、サンプリングされたスパンを使用して LLM が問題を解決する確率を推定することを提案します。
各問題の $\lambda$ と $k$ を見つけるために、ノンパラメトリック背景ノイズ コンポーネントとパラメトリック/ノンパラメトリック ハイブリッド オラクル コンポーネントの混合モデルをさらに提案します。ここで、$\ によってパラメーター化された確率関数を導出します。
lambda$ と $k$ は、正誤 (COW) シナリオと部分的採点 (PIG) シナリオの両方に使用されます。
私たちが提案する方法では、44 の既存の長いコンテキスト評価タスクにわたって、問題の 0% ~ 67% が検索に焦点を当てており、問題の 0% ~ 90% が全体的な理解に焦点を当てていることを特定できます。

要約(オリジナル)

We argue that there are two major distinct capabilities in long context understanding: retrieval and holistic understanding. Understanding and further improving LLMs’ long context capabilities would not be possible without knowing the tasks’ focus categories. We aim to automatically identify retrieval focused and holistic understanding focused problems from suites of benchmarks and quantitatively measure the difficulty within each focus. In this paper, we present the Dolce framework, which parameterizes each problem by $\lambda$ (complexity) and $k$ (redundancy) and assigns to one of five predefined focus categories. We propose to sample short contexts from the full context and estimate the probability an LLM solves the problem using the sampled spans. To find the $\lambda$ and $k$ for each problem, we further propose a mixture model of a non-parametric background noise component and a parametric/non-parametric hybrid oracle component, where we derive the probability functions parameterized by $\lambda$ and $k$ for both the correct-or-wrong (COW) scenario and the partial-point-in-grading (PIG) scenario. Our proposed methods can identify 0% to 67% of the problems are retrieval focused and 0% to 90% of the problems are holistic understanding focused across 44 existing long context evaluation tasks.

arxiv情報

著者 Zi Yang
発行日 2024-09-10 08:48:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク