LongIns: A Challenging Long-context Instruction-based Exam for LLMs

要約

大規模言語モデル (LLM) のロングコンテキスト機能は、近年大きな話題になっています。
さまざまなシナリオで LLM のパフォーマンスを評価するために、さまざまな評価ベンチマークが登場しています。
ただし、これらのベンチマークのほとんどは、質問に答えるための重要な情報を特定することに焦点を当てており、主に LLM の検索能力を必要とするため、これらのベンチマークは、大量の情報からの LLM の推論パフォーマンスを部分的に表すことができます。
一方、LLM は 32k、128k、200k、またはそれ以上のコンテキスト ウィンドウを持つと主張することがよくありますが、これらのベンチマークでは、これらの LLM が実際にサポートしている長さは明らかになっていません。
これらの問題に対処するために、私たちは LongIns ベンチマーク データセットを提案します。これは、既存の命令データセットに基づいて構築された、LLM 向けの難しいロングコンテキストの命令ベースの試験です。
具体的には、LongIns では、グローバル命令と単一タスク (GIST)、ローカル命令と単一タスク (LIST)、およびローカル命令と複数タスク (LIMT) の 3 つの評価設定を導入しています。
LongIns に基づいて、既存の LLM の包括的な評価を実行し、次の重要な発見を得ました。(1).
コンテキスト長が 128k の最高パフォーマンスの GPT-4 は、LongIn の 16k の評価コンテキスト ウィンドウではパフォーマンスが低下します。
(2)。
多くの既存の LLM のマルチホップ推論能力については、短いコンテキスト ウィンドウ (4k 未満) では依然として多大な努力が必要です。

要約(オリジナル)

The long-context capabilities of large language models (LLMs) have been a hot topic in recent years. To evaluate the performance of LLMs in different scenarios, various assessment benchmarks have emerged. However, as most of these benchmarks focus on identifying key information to answer questions, which mainly requires the retrieval ability of LLMs, these benchmarks can partially represent the reasoning performance of LLMs from large amounts of information. Meanwhile, although LLMs often claim to have context windows of 32k, 128k, 200k, or even longer, these benchmarks fail to reveal the actual supported length of these LLMs. To address these issues, we propose the LongIns benchmark dataset, a challenging long-context instruction-based exam for LLMs, which is built based on the existing instruction datasets. Specifically, in our LongIns, we introduce three evaluation settings: Global Instruction & Single Task (GIST), Local Instruction & Single Task (LIST), and Local Instruction & Multiple Tasks (LIMT). Based on LongIns, we perform comprehensive evaluations on existing LLMs and have the following important findings: (1). The top-performing GPT-4 with 128k context length performs poorly on the evaluation context window of 16k in our LongIns. (2). For the multi-hop reasoning ability of many existing LLMs, significant efforts are still needed under short context windows (less than 4k).

arxiv情報

著者 Shawn Gavin,Tuney Zheng,Jiaheng Liu,Quehry Que,Noah Wang,Jian Yang,Chenchen Zhang,Wenhao Huang,Wenhu Chen,Ge Zhang
発行日 2024-06-25 14:31:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク