LongGenBench: Long-context Generation Benchmark

要約

現在のロングコンテキストベンチマークは主に検索ベースのテストに焦点を当てており、干し草の中の針 (NIAH) ベンチマークなど、広範な入力コンテキスト内で特定の情報を見つけるには大規模言語モデル (LLM) が必要です。
長いコンテキストの生成とは、長い文章や文書にまたがる一貫性があり、文脈的に正確なテキストを生成する言語モデルの機能を指します。
最近の研究では、NIAH やその他の検索ベースのロング コンテキストのベンチマークで優れたパフォーマンスが示されていますが、ロング コンテキストの生成機能を評価するためのベンチマークが大幅に不足しています。
このギャップを埋めて包括的な評価を提供するために、カスタマイズされた生成コン​​テキスト長の柔軟な構成を可能にする合成ベンチマークである LongGenBench を導入します。
LongGenBench は、質問の形式を再設計し、LLM が単一の一貫した長いコンテキストの回答で応答することを必要とすることで、従来のベンチマークを超えて進歩しています。
LongGenBench を使用した広範な評価の結果、次のことがわかりました。(1) API アクセス モデルとオープン ソース モデルの両方で、長いコンテキストの生成シナリオで 1.2% から 47.1% の範囲のパフォーマンス低下が見られます。
(2) LLM の異なるシリーズはパフォーマンス低下のさまざまな傾向を示します。Gemini-1.5-Flash モデルは API アクセス モデルの中で最も低下が少なく、Qwen2 シリーズはオープン ソース モデルの中で LongGenBench の低下が最も少ないことを示しています。

要約(オリジナル)

Current long-context benchmarks primarily focus on retrieval-based tests, requiring Large Language Models (LLMs) to locate specific information within extensive input contexts, such as the needle-in-a-haystack (NIAH) benchmark. Long-context generation refers to the ability of a language model to generate coherent and contextually accurate text that spans across lengthy passages or documents. While recent studies show strong performance on NIAH and other retrieval-based long-context benchmarks, there is a significant lack of benchmarks for evaluating long-context generation capabilities. To bridge this gap and offer a comprehensive assessment, we introduce a synthetic benchmark, LongGenBench, which allows for flexible configurations of customized generation context lengths. LongGenBench advances beyond traditional benchmarks by redesigning the format of questions and necessitating that LLMs respond with a single, cohesive long-context answer. Upon extensive evaluation using LongGenBench, we observe that: (1) both API accessed and open source models exhibit performance degradation in long-context generation scenarios, ranging from 1.2% to 47.1%; (2) different series of LLMs exhibit varying trends of performance degradation, with the Gemini-1.5-Flash model showing the least degradation among API accessed models, and the Qwen2 series exhibiting the least degradation in LongGenBench among open source models.

arxiv情報

著者 Xiang Liu,Peijie Dong,Xuming Hu,Xiaowen Chu
発行日 2024-10-24 14:43:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク