要約
要約に含める「適切な」量の情報を選択するのは難しい作業です。
優れた概要は、内容が濃すぎてわかりにくいものではなく、詳細かつ実体中心である必要があります。
このトレードオフをよりよく理解するために、私たちは「Chain of Density」(CoD) プロンプトと呼ぶものを使用して、ますます密度の高い GPT-4 概要を要求します。
具体的には、GPT-4 は、長さを増やさずに欠落している顕著なエンティティを繰り返し組み込む前に、最初のエンティティの疎な要約を生成します。
CoD によって生成されるサマリーは、バニラ プロンプトによって生成される GPT-4 サマリーよりも抽象的で、より多くの融合を示し、リード バイアスが少なくなります。
私たちは 100 件の CNN DailyMail 記事について人間の好みの調査を実施しました。その結果、人間はバニラ プロンプトによって生成されたものよりも密度が高く、人間が書いた要約とほぼ同じ密度の GPT-4 要約を好むことがわかりました。
定性分析は、情報量と読みやすさの間にトレードオフが存在するという概念を裏付けています。
500 の注釈付き CoD 概要と、追加の 5,000 の注釈なしの概要は、HuggingFace (https://huggingface.co/datasets/griffin/chain_of_density) で無料で入手できます。
要約(オリジナル)
Selecting the “right” amount of information to include in a summary is a difficult task. A good summary should be detailed and entity-centric without being overly dense and hard to follow. To better understand this tradeoff, we solicit increasingly dense GPT-4 summaries with what we refer to as a “Chain of Density” (CoD) prompt. Specifically, GPT-4 generates an initial entity-sparse summary before iteratively incorporating missing salient entities without increasing the length. Summaries generated by CoD are more abstractive, exhibit more fusion, and have less of a lead bias than GPT-4 summaries generated by a vanilla prompt. We conduct a human preference study on 100 CNN DailyMail articles and find that that humans prefer GPT-4 summaries that are more dense than those generated by a vanilla prompt and almost as dense as human written summaries. Qualitative analysis supports the notion that there exists a tradeoff between informativeness and readability. 500 annotated CoD summaries, as well as an extra 5,000 unannotated summaries, are freely available on HuggingFace (https://huggingface.co/datasets/griffin/chain_of_density).
arxiv情報
著者 | Griffin Adams,Alexander Fabbri,Faisal Ladhak,Eric Lehman,Noémie Elhadad |
発行日 | 2023-09-08 11:31:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google