One Thousand and One Pairs: A ‘novel’ challenge for long-context language models

要約

合成ロングコンテキスト LLM ベンチマーク (例: 「干し草の中の針」) は、表面レベルの検索機能のみをテストしますが、ロングコンテキスト LLM は、書籍サイズの入力全体にわたる情報をどの程度うまく検索、合成、推論できるでしょうか?
私たちは、最近出版された英語のフィクション本 67 冊について、人間の読者によって書かれた真偽の主張の最小限に異なる 1,001 組のデータセットである NoCha を作成することで、この疑問に取り組みます。
既存のロングコンテキストベンチマークとは対照的に、私たちのアノテーターは、NoCha のペアの最大シェアを検証するには書籍全体にわたるグローバルな推論が必要であることを確認しています。
私たちの実験によると、人間の読者はこのタスクを簡単に実行できますが、評価した 10 個のロングコンテキスト LLM すべてにとっては非常に困難です。オープンウェイト モデルは (合成ベンチマークでの優れたパフォーマンスにもかかわらず) ランダムな確率を超えるパフォーマンスを発揮することはありませんが、GPT-4o
55.8% という最高の精度を達成します。
さらなる分析により、(1) 平均して、モデルは文レベルの検索のみを必要とするペアの方がグローバル推論よりもはるかに優れたパフォーマンスを発揮することがわかります。
(2) モデルによって生成された意思決定の説明は、正しくラベル付けされたクレームであっても不正確であることがよくあります。
(3) 広範な世界構築を含む推理小説の本では、モデルのパフォーマンスが大幅に低下します。
NoCha で提案された方法論により、ベンチマーク データセットの進化と将来のモデルの簡単な分析が可能になります。

要約(オリジナル)

Synthetic long-context LLM benchmarks (e.g., ‘needle-in-the-haystack’) test only surface-level retrieval capabilities, but how well can long-context LLMs retrieve, synthesize, and reason over information across book-length inputs? We address this question by creating NoCha, a dataset of 1,001 minimally different pairs of true and false claims about 67 recently-published English fictional books, written by human readers of those books. In contrast to existing long-context benchmarks, our annotators confirm that the largest share of pairs in NoCha require global reasoning over the entire book to verify. Our experiments show that while human readers easily perform this task, it is enormously challenging for all ten long-context LLMs that we evaluate: no open-weight model performs above random chance (despite their strong performance on synthetic benchmarks), while GPT-4o achieves the highest accuracy at 55.8%. Further analysis reveals that (1) on average, models perform much better on pairs that require only sentence-level retrieval vs. global reasoning; (2) model-generated explanations for their decisions are often inaccurate even for correctly-labeled claims; and (3) models perform substantially worse on speculative fiction books that contain extensive world-building. The methodology proposed in NoCha allows for the evolution of the benchmark dataset and the easy analysis of future models.

arxiv情報

著者 Marzena Karpinska,Katherine Thai,Kyle Lo,Tanya Goyal,Mohit Iyyer
発行日 2024-10-22 15:09:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク