要約
大規模言語モデル (LLM) は、抽象的な要約タスクに優れており、流暢で適切な要約を提供します。
最近の進歩により、100,000 トークンを超える長い入力コンテキストを処理できるように機能が拡張されました。
ただし、質問応答では、言語モデルは入力コンテキストの利用が不均一であることを示します。
最初と最後のセグメントが優先される傾向があり、その結果、入力内の回答がどこにあるかに関して U 字型のパフォーマンス パターンが生じます。
この偏りは、特に重要なコンテンツがソース文書全体に分散している可能性がある要約において懸念を引き起こします。
さらに、要約では、重要な内容は通常言い換えられるため、事実をソースから要約にマッピングすることは簡単ではありません。
この論文では、要約における文脈利用と位置バイアスに関する最初の包括的な研究を実施します。
私たちの分析には、6 つの LLM、10 のデータセット、および 5 つの評価指標が含まれています。
MiddleSum と呼ばれる新しい評価ベンチマークを導入し、位置バイアスを軽減する 2 つの代替推論方法 (階層的要約と増分要約) をベンチマークします。
私たちのコードとデータは、https://github.com/ntunlp/MiddleSum にあります。
要約(オリジナル)
Large language models (LLMs) excel in abstractive summarization tasks, delivering fluent and pertinent summaries. Recent advancements have extended their capabilities to handle long-input contexts, exceeding 100k tokens. However, in question answering, language models exhibit uneven utilization of their input context. They tend to favor the initial and final segments, resulting in a U-shaped performance pattern concerning where the answer is located within the input. This bias raises concerns, particularly in summarization where crucial content may be dispersed throughout the source document(s). Besides, in summarization, mapping facts from the source to the summary is not trivial as salient content is usually re-phrased. In this paper, we conduct the first comprehensive study on context utilization and position bias in summarization. Our analysis encompasses 6 LLMs, 10 datasets, and 5 evaluation metrics. We introduce a new evaluation benchmark called MiddleSum on the which we benchmark two alternative inference methods to alleviate position bias: hierarchical summarization and incremental summarization. Our code and data can be found here: https://github.com/ntunlp/MiddleSum.
arxiv情報
著者 | Mathieu Ravaut,Aixin Sun,Nancy F. Chen,Shafiq Joty |
発行日 | 2024-11-14 06:09:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google