要約
大規模言語モデル (LLM) は、ゼロショットの抽象的な要約タスクに優れており、流暢で適切な要約を提供します。
最近の進歩により、長い入力コンテキストを処理できるように機能が拡張され、100k のトークン制限を超えました。
ただし、複数ドキュメントの質問応答の領域では、言語モデルは入力コンテキストの利用が不均一であることを示します。
最初と最後のセグメントが優先される傾向があり、その結果、入力内の回答がどこにあるかに関して U 字型のパフォーマンス パターンが生じます。
この偏りは、特に重要なコンテンツがソース文書全体に分散している可能性がある要約タスクにおいて懸念を引き起こします。
このペーパーでは、これらのモデルが抽象的な要約のために入力をどのように活用するかを分析するために、10 のデータセット、5 つの LLM、および 5 つの評価指標を含む包括的な調査を紹介します。
私たちの調査結果では、導入コンテンツ (および程度は低いですが最終コンテンツ) に対する顕著な偏りが明らかになり、さまざまな要約ベンチマーク全体で LLM のパフォーマンスに課題が生じています。
要約(オリジナル)
Large language models (LLMs) excel in zero-shot abstractive summarization tasks, delivering fluent and pertinent summaries. Recent advancements have extended their capabilities to handle long-input contexts, surpassing token limits of 100k. However, in the realm of multi-document question answering, language models exhibit uneven utilization of their input context. They tend to favor the initial and final segments, resulting in a U-shaped performance pattern concerning where the answer is located within the input. This bias raises concerns, particularly in summarization tasks where crucial content may be dispersed throughout the source document(s). This paper presents a comprehensive investigation encompassing 10 datasets, 5 LLMs, and 5 evaluation metrics to analyze how these models leverage their input for abstractive summarization. Our findings reveal a pronounced bias towards the introductory content (and to a lesser extent, the final content), posing challenges for LLM performance across a range of diverse summarization benchmarks.
arxiv情報
著者 | Mathieu Ravaut,Shafiq Joty,Aixin Sun,Nancy F. Chen |
発行日 | 2023-11-30 09:37:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google