Is It Really Long Context if All You Need Is Retrieval? Towards Genuinely Difficult Long Context NLP

要約

言語モデルの機能の向上により、そのアプリケーションがより長いコンテキストに向けて推進され、長いコンテキストの評価と開発が活発な研究領域になりました。
ただし、多くの異質なユースケースは、「干し草の中の針」タスク、本の要約、
情報の集約。
さまざまな困難を考慮すると、このポジションペーパーでは、コンテキストの長さによって異なるタスクを混同することは生産的ではないと主張します。
コミュニティとして、私たちは、コンテキストの長いタスクの類似点と相違点を理解するために、より正確な語彙を必要としています。
私たちは、長いコンテキストほど困難になる特性に基づいて、長いコンテキストの分類を解き明かすことを提案します。
我々は 2 つの直交する難易度軸を提案します: (I) 拡散: コンテキスト内で必要な情報を見つけるのはどのくらい難しいですか?
(II) 範囲: 検索に必要な情報はどれくらいありますか?
私たちは長い文脈に関する文献を調査し、有益な記述子としてこの分類法を正当化する根拠を提供し、それに関して文献を位置づけます。
私たちは、最も困難で興味深い設定は、必要な情報が非常に長く、入力内で高度に拡散しているため、十分に調査されていないと結論付けています。
説明的な語彙を使用し、長文の文脈で難しさの関連特性について議論することで、この分野でより情報に基づいた研究を実施できます。
明らかに長いコンテキストを使用するタスクとベンチマークは、短いコンテキストとは質的に異なる特性を考慮して慎重に設計する必要があります。

要約(オリジナル)

Improvements in language models’ capabilities have pushed their applications towards longer contexts, making long-context evaluation and development an active research area. However, many disparate use-cases are grouped together under the umbrella term of ‘long-context’, defined simply by the total length of the model’s input, including – for example – Needle-in-a-Haystack tasks, book summarization, and information aggregation. Given their varied difficulty, in this position paper we argue that conflating different tasks by their context length is unproductive. As a community, we require a more precise vocabulary to understand what makes long-context tasks similar or different. We propose to unpack the taxonomy of long-context based on the properties that make them more difficult with longer contexts. We propose two orthogonal axes of difficulty: (I) Diffusion: How hard is it to find the necessary information in the context? (II) Scope: How much necessary information is there to find? We survey the literature on long-context, provide justification for this taxonomy as an informative descriptor, and situate the literature with respect to it. We conclude that the most difficult and interesting settings, whose necessary information is very long and highly diffused within the input, is severely under-explored. By using a descriptive vocabulary and discussing the relevant properties of difficulty in long-context, we can implement more informed research in this area. We call for a careful design of tasks and benchmarks with distinctly long context, taking into account the characteristics that make it qualitatively different from shorter context.

arxiv情報

著者 Omer Goldman,Alon Jacovi,Aviv Slobodkin,Aviya Maimon,Ido Dagan,Reut Tsarfaty
発行日 2024-07-11 11:17:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク