LongGenbench: Benchmarking Long-Form Generation in Long Context LLMs

要約

ロングコンテキスト言語モデル (LM) の能力は、多くの場合、「Needle-in-a-Haystack」(NIAH) テストを使用して評価されます。このテストは、大規模言語モデル内の特定の情報 (「針」) を識別するモデルの能力を評価するように設計されたタスクで構成されます。
テキストシーケンス (「干し草の山」)。
これらのベンチマークは、モデルが長いコンテキストの入力シーケンスをどの程度理解しているかを測定しますが、デザイン提案やクリエイティブ ライティングなどのアプリケーションにとって重要な要素である長文テキスト生成の品質を効果的に評価することはできません。
このギャップに対処するために、生成された長いテキスト シーケンス内の特定のイベントを識別するモデルの能力をテストする、新しい長い形式のテキスト評価ベンチマークである LongGenbench を導入しました。
このベンチマークでは、長いコンテキストの LM に、特定のイベントまたは制約を含める必要がある長い形式のテキストを作成するよう促し、これらの要素を組み込む能力を評価します。
私たちは、4 つの異なるシナリオ、3 種類のプロンプト命令、および 2 つの異なる世代長設定 (16K および 32K) にわたって 10 個のロングコンテキスト LM を評価しました。
これらのモデルは NIAH ベンチマークでは良好なパフォーマンスを示しましたが、LongGenbench では満足のいくパフォーマンスを示したモデルはなく、指示に従う一貫した長い形式のテキストを生成する能力について懸念が生じました。
さらに、生成されるテキストの長さが増加すると、すべてのモデルでパフォーマンスが大幅に低下します。

要約(オリジナル)

The abilities of long-context language models (LMs) are often evaluated using the ‘Needle-in-a-Haystack’ (NIAH) test, which comprises tasks designed to assess a model’s ability to identify specific information (‘needle’) within large text sequences (‘haystack’). While these benchmarks measure how well models understand long-context input sequences, they do not effectively gauge the quality of long-form text generation–a critical aspect for applications such as design proposals and creative writing. To address this gap, we have introduced a new long-form text evaluation benchmark, LongGenbench, which tests models’ ability to identify specific events within generated long text sequences. In this benchmark, we prompt long-context LMs to create long-form text that must include particular events or constraints and evaluate their ability to incorporate these elements. We evaluated ten long-context LMs across four distinct scenarios, three types of prompt instructions, and two different generation-length settings (16K and 32K). Although these models perform well on NIAH benchmarks, none demonstrated satisfactory performance on the LongGenbench, raising concerns about their ability to generate coherent long-form text that follows instructions. Additionally, as the length of the generated text increases, all models exhibit a significant drop in performance.

arxiv情報

著者 Yuhao Wu,Ming Shan Hee,Zhiqing Hu,Roy Ka-Wei Lee
発行日 2024-09-11 16:35:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク